You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

16 KiB

第28讲 | 谈谈你的GC调优思路?

我发现目前不少外部资料对G1的介绍大多还停留在JDK 7或更早期的实现很多结论已经存在较大偏差甚至一些过去的GC选项已经不再推荐使用。所以今天我会选取新版JDK中的默认G1 GC作为重点进行详解并且我会从调优实践的角度分析典型场景和调优思路。下面我们一起来更新下这方面的知识。

今天我要问你的问题是谈谈你的GC调优思路

典型回答

谈到调优,这一定是针对特定场景、特定目的的事情, 对于GC调优来说首先就需要清楚调优的目标是什么从性能的角度看通常关注三个方面内存占用footprint、延时latency和吞吐量throughput大多数情况下调优会侧重于其中一个或者两个方面的目标很少有情况可以兼顾三个不同的角度。当然除了上面通常的三个方面也可能需要考虑其他GC相关的场景例如OOM也可能与不合理的GC相关参数有关或者应用启动速度方面的需求GC也会是个考虑的方面。

基本的调优思路可以总结为:

  • 理解应用需求和问题确定调优目标。假设我们开发了一个应用服务但发现偶尔会出现性能抖动出现较长的服务停顿。评估用户可接受的响应时间和业务量将目标简化为希望GC暂停尽量控制在200ms以内并且保证一定标准的吞吐量。

  • 掌握JVM和GC的状态定位具体的问题确定真的有GC调优的必要。具体有很多方法比如通过jstat等工具查看GC等相关状态可以开启GC日志或者是利用操作系统提供的诊断工具等。例如通过追踪GC日志就可以查找是不是GC在特定时间发生了长时间的暂停进而导致了应用响应不及时。

  • 这里需要思考选择的GC类型是否符合我们的应用特征如果是具体问题表现在哪里是Minor GC过长还是Mixed GC等出现异常停顿情况如果不是考虑切换到什么类型如CMS和G1都是更侧重于低延迟的GC选项。

  • 通过分析确定具体调整的参数或者软硬件配置。

  • 验证是否达到调优目标,如果达到目标,即可以考虑结束调优;否则,重复完成分析、调整、验证这个过程。

考点分析

今天考察的GC调优问题是JVM调优的一个基础方面很多JVM调优需求最终都会落实在GC调优上或者与其相关我提供的是一个常见的思路。

真正快速定位和解决具体问题还是需要对JVM和GC知识的掌握以及实际调优经验的总结有的时候甚至是源自经验积累的直觉判断。面试官可能会继续问项目中遇到的真实问题如果你能清楚、简要地介绍其上下文然后将诊断思路和调优实践过程表述出来会是个很好的加分项。

专栏虽然无法提供具体的项目经验,但是可以帮助你掌握常见的调优思路和手段,这不管是面试还是在实际工作中都是很有帮助的。另外,我会还会从下面不同角度进行补充:

  • 上一讲中我已经谈到涉及具体的GC类型JVM的实际表现要更加复杂。目前G1已经成为新版JDK的默认选择所以值得你去深入理解。

  • 因为G1 GC一直处在快速发展之中我会侧重它的演进变化尤其是行为和配置相关的变化。并且同样是因为JVM的快速发展即使是收集GC日志等方面也发生了较大改进这也是为什么我在上一讲留给你的思考题是有关日志相关选项看完讲解相信你会很惊讶。

  • 从GC调优实践的角度理解通用问题的调优思路和手段。

知识扩展

首先先来整体了解一下G1 GC的内部结构和主要机制。

从内存区域的角度G1同样存在着年代的概念但是与我前面介绍的内存结构很不一样其内部是类似棋盘状的一个个region组成请参考下面的示意图。

region的大小是一致的数值是在1M到32M字节之间的一个2的幂值数JVM会尽量划分2048个左右、同等大小的region这点可以从源码heapRegionBounds.hpp中看到。当然这个数字既可以手动调整G1也会根据堆大小自动进行调整。

在G1实现中年代是个逻辑概念具体体现在一部分region是作为Eden一部分作为Survivor除了意料之中的Old regionG1会将超过region 50%大小的对象在应用中通常是byte或char数组归类为Humongous对象并放置在相应的region中。逻辑上Humongous region算是老年代的一部分因为复制这样的大对象是很昂贵的操作并不适合新生代GC的复制算法。

你可以思考下region设计有什么副作用

例如region大小和大对象很难保证一致这会导致空间的浪费。不知道你有没有注意到我的示意图中有的区域是Humongous颜色但没有用名称标记这是为了表示特别大的对象是可能占用超过一个region的。并且region太小不合适会令你在分配大对象时更难找到连续空间这是一个长久存在的情况请参考OpenJDK社区的讨论。这本质也可以看作是JVM的bug尽管解决办法也非常简单直接设置较大的region大小参数如下

-XX:G1HeapRegionSize=<N, 例如16>M

从GC算法的角度G1选择的是复合算法可以简化理解为

  • 在新生代G1采用的仍然是并行的复制算法所以同样会发生Stop-The-World的暂停。

  • 在老年代大部分情况下都是并发标记而整理Compact则是和新生代GC时捎带进行并且不是整体性的整理而是增量进行的。

我在上一讲曾经介绍过习惯上人们喜欢把新生代GCYoung GC叫作Minor GC老年代GC叫作Major GC区别于整体性的Full GC。但是现代GC中这种概念已经不再准确对于G1来说

  • Minor GC仍然存在虽然具体过程会有区别会涉及Remembered Set等相关处理。

  • 老年代回收则是依靠Mixed GC。并发标记结束后JVM就有足够的信息进行垃圾收集Mixed GC不仅同时会清理Eden、Survivor区域而且还会清理部分Old区域。可以通过设置下面的参数指定触发阈值并且设定最多被包含在一次Mixed GC中的region比例。

XX:G1MixedGCLiveThresholdPercent
XX:G1OldCSetRegionThresholdPercent

从G1内部运行的角度下面的示意图描述了G1正常运行时的状态流转变化当然在发生逃逸失败等情况下就会触发Full GC。

G1相关概念非常多有一个重点就是Remembered Set用于记录和维护region之间对象的引用关系。为什么需要这么做呢试想新生代GC是复制算法也就是说类似对象从Eden或者Survivor到to区域的“移动”其实是“复制”本质上是一个新的对象。在这个过程中需要必须保证老年代到新生代的跨区引用仍然有效。下面的示意图说明了相关设计。

G1的很多开销都是源自Remembered Set例如它通常约占用Heap大小的20%或更高这可是非常可观的比例。并且我们进行对象复制的时候因为需要扫描和更改Card Table的信息这个速度影响了复制的速度进而影响暂停时间。

描述G1内部的资料很多我就不重复了如果你想了解更多内部结构和算法等我建议参考一些具体的介绍书籍方面我推荐Charlie Hunt等撰写的《Java Performance Companion》。

接下来我介绍下大家可能还不了解的G1行为变化它们在一定程度上解决了专栏其他讲中提到的部分困扰如类型卸载不及时的问题。

  • 上面提到了Humongous对象的分配和回收这是很多内存问题的来源Humongous region作为老年代的一部分通常认为它会在并发标记结束后才进行回收但是在新版G1中Humongous对象回收采取了更加激进的策略。
    我们知道G1记录了老年代region间对象引用Humongous对象数量有限所以能够快速的知道是否有老年代对象引用它。如果没有能够阻止它被回收的唯一可能就是新生代是否有对象引用了它但这个信息是可以在Young GC时就知道的所以完全可以在Young GC中就进行Humongous对象的回收不用像其他老年代对象那样等待并发标记结束。

  • 我在专栏第5讲提到了在8u20以后字符串排重的特性在垃圾收集过程中G1会把新创建的字符串对象放入队列中然后在Young GC之后并发地不会STW将内部数据char数组JDK 9以后是byte数组一致的字符串进行排重也就是将其引用同一个数组。你可以使用下面参数激活

-XX:+UseStringDeduplication

注意这种排重虽然可以节省不少内存空间但这种并发操作会占用一些CPU资源也会导致Young GC稍微变慢。

  • 类型卸载是个长期困扰一些Java应用的问题专栏第25讲中,我介绍了一个类只有当加载它的自定义类加载器被回收后,才能被卸载。元数据区替换了永久代之后有所改善,但还是可能出现问题。

G1的类型卸载有什么改进吗很多资料中都谈到G1只有在发生Full GC时才进行类型卸载但这显然不是我们想要的。你可以加上下面的参数查看类型卸载

-XX:+TraceClassUnloading

幸好现代的G1已经不是如此了8u40以后G1增加并默认开启下面的选项

-XX:+ClassUnloadingWithConcurrentMark

也就是说在并发标记阶段结束后JVM即进行类型卸载。

  • 我们知道老年代对象回收基本要等待并发标记结束。这意味着如果并发标记结束不及时导致堆已满但老年代空间还没完成回收就会触发Full GC所以触发并发标记的时机很重要。早期的G1调优中通常会设置下面参数但是很难给出一个普适的数值往往要根据实际运行结果调整
-XX:InitiatingHeapOccupancyPercent

在JDK 9之后的G1实现中这种调整需求会少很多因为JVM只会将该参数作为初始值会在运行时进行采样获取统计数据然后据此动态调整并发标记启动时机。对应的JVM参数如下默认已经开启

-XX:+G1UseAdaptiveIHOP

  • 在现有的资料中大多指出G1的Full GC是最差劲的单线程串行GC。其实如果采用的是最新的JDK你会发现Full GC也是并行进行的了在通用场景中的表现还优于Parallel GC的Full GC实现。

当然还有很多其他的改变比如更快的Card Table扫描等这里不再展开介绍因为它们并不带来行为的变化基本不影响调优选择。

前面介绍了G1的内部机制并且穿插了部分调优建议下面从整体上给出一些调优的建议。

首先,建议尽量升级到较新的JDK版本从上面介绍的改进就可以看到很多人们常常讨论的问题其实升级JDK就可以解决了。

第二掌握GC调优信息收集途径。掌握尽量全面、详细、准确的信息是各种调优的基础不仅仅是GC调优。我们来看看打开GC日志这似乎是很简单的事情可是你确定真的掌握了吗

除了常用的两个选项,

-XX:+PrintGCDetails
-XX:+PrintGCDateStamps

还有一些非常有用的日志选项,很多特定问题的诊断都是要依赖这些选项:

-XX:+PrintAdaptiveSizePolicy // 打印G1 Ergonomics相关信息

我们知道GC内部一些行为是适应性的触发的利用PrintAdaptiveSizePolicy我们就可以知道为什么JVM做出了一些可能我们不希望发生的动作。例如G1调优的一个基本建议就是避免进行大量的Humongous对象分配如果Ergonomics信息说明发生了这一点那么就可以考虑要么增大堆的大小要么直接将region大小提高。

如果是怀疑出现引用清理不及时的情况,则可以打开下面选项,掌握到底是哪里出现了堆积。

-XX:+PrintReferenceGC

另外,建议开启选项下面的选项进行并行引用处理。

-XX:+ParallelRefProcEnabled

需要注意的一点是JDK 9中JVM和GC日志机构进行了重构其实我前面提到的PrintGCDetails已经被标记为废弃,而PrintGCDateStamps已经被移除指定它会导致JVM无法启动。可以使用下面的命令查询新的配置参数。

java -Xlog:help

最后,来看一些通用实践,理解了我前面介绍的内部结构和机制,很多结论就一目了然了,例如:

  • 如果发现Young GC非常耗时这很可能就是因为新生代太大了我们可以考虑减小新生代的最小比例。
-XX:G1NewSizePercent

降低其最大值同样对降低Young GC延迟有帮助。

-XX:G1MaxNewSizePercent

如果我们直接为G1设置较小的延迟目标值也会起到减小新生代的效果虽然会影响吞吐量。

  • 如果是Mixed GC延迟较长我们应该怎么做呢

还记得前面说的部分Old region会被包含进Mixed GC减少一次处理的region个数就是个直接的选择之一。
我在上面已经介绍了G1OldCSetRegionThresholdPercent控制其最大值还可以利用下面参数提高Mixed GC的个数当前默认值是8Mixed GC数量增多意味着每次被包含的region减少。

-XX:G1MixedGCCountTarget

今天的内容算是抛砖引玉,更多内容你可以参考G1调优指南远不是几句话可以囊括的。需要注意的是也要避免过度调优G1对大堆非常友好其运行机制也需要浪费一定的空间有时候稍微多给堆一些空间比进行苛刻的调优更加实用。

今天我梳理了基本的GC调优思路并对G1内部结构以及最新的行为变化进行了详解。总的来说G1的调优相对简单、直观因为可以直接设定暂停时间等目标并且其内部引入了各种智能的自适应机制希望这一切的努力能够让你在日常应用开发时更加高效。

一课一练

关于今天我们讨论的题目你做到心中有数了吗今天的思考题是定位Full GC发生的原因有哪些方式

请你在留言区写写你对这个问题的思考,我会选出经过认真思考的留言,送给你一份学习奖励礼券,欢迎你与我一起讨论。

你的朋友是不是也在准备面试呢?你可以“请朋友读”,把今天的题目分享给好友,或许你能帮到他。