You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

168 lines
11 KiB
Markdown

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# 37 | Tomcat内存溢出的原因分析及调优
作为Java程序员我们几乎都会碰到java.lang.OutOfMemoryError异常但是你知道有哪些原因可能导致JVM抛出OutOfMemoryError异常吗
JVM在抛出java.lang.OutOfMemoryError时除了会打印出一行描述信息还会打印堆栈跟踪因此我们可以通过这些信息来找到导致异常的原因。在寻找原因前我们先来看看有哪些因素会导致OutOfMemoryError其中内存泄漏是导致OutOfMemoryError的一个比较常见的原因最后我们通过一个实战案例来定位内存泄漏。
## 内存溢出场景及方案
**java.lang.OutOfMemoryError: Java heap space**
JVM无法在堆中分配对象时会抛出这个异常导致这个异常的原因可能有三种
1. 内存泄漏。Java应用程序一直持有Java对象的引用导致对象无法被GC回收比如对象池和内存池中的对象无法被GC回收。
2. 配置问题。有可能是我们通过JVM参数指定的堆大小或者未指定的默认大小对于应用程序来说是不够的。解决办法是通过JVM参数加大堆的大小。
3. finalize方法的过度使用。如果我们想在Java类实例被GC之前执行一些逻辑比如清理对象持有的资源可以在Java类中定义finalize方法这样JVM GC不会立即回收这些对象实例而是将对象实例添加到一个叫“`java.lang.ref.Finalizer.ReferenceQueue`”的队列中执行对象的finalize方法之后才会回收这些对象。Finalizer线程会和主线程竞争CPU资源但由于优先级低所以处理速度跟不上主线程创建对象的速度因此ReferenceQueue队列中的对象就越来越多最终会抛出OutOfMemoryError。解决办法是尽量不要给Java类定义finalize方法。
**java.lang.OutOfMemoryError: GC overhead limit exceeded**
出现这种OutOfMemoryError的原因是垃圾收集器一直在运行但是GC效率很低比如Java进程花费超过98的CPU时间来进行一次GC但是回收的内存少于2的JVM堆并且连续5次GC都是这种情况就会抛出OutOfMemoryError。
解决办法是查看GC日志或者生成Heap Dump确认一下是不是内存泄漏如果不是内存泄漏可以考虑增加Java堆的大小。当然你还可以通过参数配置来告诉JVM无论如何也不要抛出这个异常方法是配置`-XX:-UseGCOverheadLimit`但是我并不推荐这么做因为这只是延迟了OutOfMemoryError的出现。
**java.lang.OutOfMemoryError: Requested array size exceeds VM limit**
从错误消息我们也能猜到抛出这种异常的原因是“请求的数组大小超过JVM限制”应用程序尝试分配一个超大的数组。比如应用程序尝试分配512MB的数组但最大堆大小为256MB则将抛出OutOfMemoryError并且请求的数组大小超过VM限制。
通常这也是一个配置问题JVM堆太小或者是应用程序的一个Bug比如程序错误地计算了数组的大小导致尝试创建一个大小为1GB的数组。
**java.lang.OutOfMemoryError: MetaSpace**
如果JVM的元空间用尽则会抛出这个异常。我们知道JVM元空间的内存在本地内存中分配但是它的大小受参数MaxMetaSpaceSize的限制。当元空间大小超过MaxMetaSpaceSize时JVM将抛出带有MetaSpace字样的OutOfMemoryError。解决办法是加大MaxMetaSpaceSize参数的值。
**java.lang.OutOfMemoryError: Request size bytes for reason. Out of swap space**
当本地堆内存分配失败或者本地内存快要耗尽时Java HotSpot VM代码会抛出这个异常VM会触发“致命错误处理机制”它会生成“致命错误”日志文件其中包含崩溃时线程、进程和操作系统的有用信息。如果碰到此类型的OutOfMemoryError你需要根据JVM抛出的错误信息来进行诊断或者使用操作系统提供的DTrace工具来跟踪系统调用看看是什么样的程序代码在不断地分配本地内存。
**java.lang.OutOfMemoryError: Unable to create native threads**
抛出这个异常的过程大概是这样的:
1. Java程序向JVM请求创建一个新的Java线程。
2. JVM本地代码Native Code代理该请求通过调用操作系统API去创建一个操作系统级别的线程Native Thread。
3. 操作系统尝试创建一个新的Native Thread需要同时分配一些内存给该线程每一个Native Thread都有一个线程栈线程栈的大小由JVM参数`-Xss`决定。
4. 由于各种原因,操作系统创建新的线程可能会失败,下面会详细谈到。
5. JVM抛出“java.lang.OutOfMemoryError: Unable to create new native thread”错误。
因此关键在于第四步线程创建失败JVM就会抛出OutOfMemoryError那具体有哪些因素会导致线程创建失败呢
1.内存大小限制我前面提到Java创建一个线程需要消耗一定的栈空间并通过`-Xss`参数指定。请你注意的是栈空间如果过小可能会导致StackOverflowError尤其是在递归调用的情况下但是栈空间过大会占用过多内存而对于一个32位Java应用来说用户进程空间是4GB内核占用1GB那么用户空间就剩下3GB因此它能创建的线程数大致可以通过这个公式算出来
```
Max memory3GB = [-Xmx] + [-XX:MaxMetaSpaceSize] + number_of_threads * [-Xss]
```
不过对于64位的应用由于虚拟进程空间近乎无限大因此不会因为线程栈过大而耗尽虚拟地址空间。但是请你注意64位的Java进程能分配的最大内存数仍然受物理内存大小的限制。
**2\. ulimit限制**在Linux下执行`ulimit -a`你会看到ulimit对各种资源的限制。
![](https://static001.geekbang.org/resource/image/4d/4b/4d79133fc4f8795e44ea3a48a7293a4b.png)
其中的“max user processes”就是一个进程能创建的最大线程数我们可以修改这个参数
![](https://static001.geekbang.org/resource/image/73/77/736fbbb5fadb35f9ae0cc47182938a77.png)
**3\. 参数`sys.kernel.threads-max`限制**。这个参数限制操作系统全局的线程数,通过下面的命令可以查看它的值。
![](https://static001.geekbang.org/resource/image/2e/58/2e9f281f4f0d89be1983314713a70258.png)
这表明当前系统能创建的总的线程是63752。当然我们调整这个参数具体办法是
在`/etc/sysctl.conf`配置文件中,加入`sys.kernel.threads-max = 999999`。
**4\. 参数`sys.kernel.pid_max`限制**这个参数表示系统全局的PID号数值的限制每一个线程都有IDID的值超过这个数线程就会创建失败。跟`sys.kernel.threads-max`参数一样,我们也可以将`sys.kernel.pid_max`调大,方法是在`/etc/sysctl.conf`配置文件中,加入`sys.kernel.pid_max = 999999`。
对于线程创建失败的OutOfMemoryError除了调整各种参数我们还需要从程序本身找找原因看看是否真的需要这么多线程有可能是程序的Bug导致创建过多的线程。
## 内存泄漏定位实战
我们先创建一个Web应用不断地new新对象放到一个List中来模拟Web应用中的内存泄漏。然后通过各种工具来观察GC的行为最后通过生成Heap Dump来找到泄漏点。
内存泄漏模拟程序比较简单创建一个Spring Boot应用定义如下所示的类
```
import org.springframework.scheduling.annotation.Scheduled;
import org.springframework.stereotype.Component;
import java.util.LinkedList;
import java.util.List;
@Component
public class MemLeaker {
private List<Object> objs = new LinkedList<>();
@Scheduled(fixedRate = 1000)
public void run() {
for (int i = 0; i < 50000; i++) {
objs.add(new Object());
}
}
}
```
这个程序做的事情就是每隔1秒向一个List中添加50000个对象。接下来运行并通过工具观察它的GC行为
1.运行程序并打开verbosegc将GC的日志输出到gc.log文件中。
```
java -verbose:gc -Xloggc:gc.log -XX:+PrintGCDetails -jar mem-0.0.1-SNAPSHOT.jar
```
2.使用`jstat`命令观察GC的过程
```
jstat -gc 94223 2000 1000
```
94223是程序的进程ID2000表示每隔2秒执行一次1000表示持续执行1000次。下面是命令的输出
![](https://static001.geekbang.org/resource/image/6f/c2/6fe71c885aa0917d6aaf634cdb1b19c2.png)
其中每一列的含义是:
* S0C第一个Survivor区总的大小
* S1C第二个Survivor区总的大小
* S0U第一个Survivor区已使用内存的大小
* S1U第二个Survivor区已使用内存的大小。
后面的列相信从名字你也能猜出是什么意思了其中E代表EdenO代表OldM代表MetadataYGC表示Minor GC的总时间YGCT表示Minor GC的次数FGC表示Full GC。
通过这个工具你能大概看到各个内存区域的大小、已经GC的次数和所花的时间。verbosegc参数对程序的影响比较小因此很适合在生产环境现场使用。
3.通过GCViewer工具查看GC日志用GCViewer打开第一步产生的gc.log会看到这样的图
![](https://static001.geekbang.org/resource/image/d2/3b/d281cba5576304f0c1407aa16b01353b.png)
图中红色的线表示年老代占用的内存你会看到它一直在增加而黑色的竖线表示一次Full GC。你可以看到后期JVM在频繁地Full GC但是年老代的内存并没有降下来这是典型的内存泄漏的特征。
除了内存泄漏我们还可以通过GCViewer来观察Minor GC和Full GC的频次已及每次的内存回收量。
4.为了找到内存泄漏点我们通过jmap工具生成Heap Dump
```
jmap -dump:live,format=b,file=94223.bin 94223
```
5.用Eclipse Memory Analyzer打开Dump文件通过内存泄漏分析得到这样一个分析报告
![](https://static001.geekbang.org/resource/image/5b/4d/5b64390e688a0f49c19b110106ee334d.png)
从报告中可以看到JVM内存中有一个长度为4000万的List至此我们也就找到了泄漏点。
## 本期精华
今天我讲解了常见的OutOfMemoryError的场景以及解决办法我们在实际工作中要根据具体的错误信息去分析背后的原因尤其是Java堆内存不够时需要生成Heap Dump来分析看是不是内存泄漏排除内存泄漏之后我们再调整各种JVM参数否则根本的问题原因没有解决的话调整JVM参数也无济于事。
## 课后思考
请你分享一下平时在工作中遇到了什么样的OutOfMemoryError以及你是怎么解决的。
不知道今天的内容你消化得如何?如果还有疑问,请大胆的在留言区提问,也欢迎你把你的课后思考和心得记录下来,与我和其他同学一起讨论。如果你觉得今天有所收获,欢迎你把它分享给你的朋友。