Java G1:监控生产环境中的内存泄漏

2022-09-03 08:08:24

多年来,我们一直在使用 运行具有适度堆大小的 Java 服务。现在,我们开始使用更大的堆和 G1 收集器推出新服务。这进展得相当顺利。+UseParallelOldGC

对于使用 的服务,我们通过查看收集后的旧一代大小并在阈值上发出警报来监视内存泄漏。这效果很好,实际上就在两周前拯救了我们的培根。+UseParallelOldGC

具体来说,对于 ,我们执行以下操作:+UseParallelOldGC

  • ManagementFactory.getMemoryPoolMXBeans()
  • 搜索名称以MemoryPoolMXBean"Old Gen"
  • 比较(如果可用)与getCollectionUsage().getUsed()getMax()

不幸的是,似乎G1不再具有.getCollectionUsage()

不过,从根本上说,我们希望在 G1 堆大小遵循它选择在混合循环中执行的最后一次混合集合或类似操作之后进行监视。

例如,在 VM 之外,我会对一个 awk 脚本感到满意,该脚本仅找到最后一个是后跟 a,然后查看最终堆大小(例如,'(mixed)''(young)''1540.0M' 'Heap: 3694.5M(9216.0M)->1540.0M(9216.0M)')

有没有办法在Java VM中做到这一点?


答案 1

是的,JVM为您提供了足够的工具来检索G1的此类信息。例如,您可以使用类似此类的内容来打印有关垃圾回收的所有详细信息(只需调用):MemoryUtil.startGCMonitor()

public class MemoryUtil {

    private static final Set<String> heapRegions;

    static {
        heapRegions = ManagementFactory.getMemoryPoolMXBeans().stream()
                .filter(b -> b.getType() == MemoryType.HEAP)
                .map(MemoryPoolMXBean::getName)
                .collect(Collectors.toSet());
    }

    private static NotificationListener gcHandler = (notification, handback) -> {
        if (notification.getType().equals(GarbageCollectionNotificationInfo.GARBAGE_COLLECTION_NOTIFICATION)) {
            GarbageCollectionNotificationInfo gcInfo = GarbageCollectionNotificationInfo.from((CompositeData) notification.getUserData());
            Map<String, MemoryUsage> memBefore = gcInfo.getGcInfo().getMemoryUsageBeforeGc();
            Map<String, MemoryUsage> memAfter = gcInfo.getGcInfo().getMemoryUsageAfterGc();
            StringBuilder sb = new StringBuilder(250);
            sb.append("[").append(gcInfo.getGcAction()).append(" / ").append(gcInfo.getGcCause())
                    .append(" / ").append(gcInfo.getGcName()).append(" / (");
            appendMemUsage(sb, memBefore);
            sb.append(") -> (");
            appendMemUsage(sb, memAfter);
            sb.append("), ").append(gcInfo.getGcInfo().getDuration()).append(" ms]");
            System.out.println(sb.toString());
        }
    };

    public static void startGCMonitor() {
        for(GarbageCollectorMXBean mBean: ManagementFactory.getGarbageCollectorMXBeans()) {
            ((NotificationEmitter) mBean).addNotificationListener(gcHandler, null, null);
        }
    }

    public static void stopGCMonitor() {
        for(GarbageCollectorMXBean mBean: ManagementFactory.getGarbageCollectorMXBeans()) {
            try {
                ((NotificationEmitter) mBean).removeNotificationListener(gcHandler);
            } catch(ListenerNotFoundException e) {
                // Do nothing
            }
        }
    }

    private static void appendMemUsage(StringBuilder sb, Map<String, MemoryUsage> memUsage) {
        memUsage.entrySet().forEach((entry) -> {
            if (heapRegions.contains(entry.getKey())) {
                sb.append(entry.getKey()).append(" used=").append(entry.getValue().getUsed() >> 10).append("K; ");
            }
        });
    }
}

在此代码中,为您提供了足够的信息,以将次要集合与主要/混合集合分开。gcInfo.getGcAction()

但是,使用您的方法(带有阈值)到G1有一个重要的警告。G1 中的单个混合集合通常只影响几个旧的 gen 区域 - 许多区域足以释放足够的内存量,但不会太多以保持 GC 暂停较低。因此,在G1中混合收集后,您无法确定所有垃圾都已消失。因此,您需要找到更复杂的策略来检测内存泄漏(可能基于集合频率,从多个集合中收集统计信息等)。


答案 2