gitbook/Java性能调优实战/docs/108582.md
2022-09-03 22:05:03 +08:00

231 lines
14 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 25 | 内存持续上升,我该如何排查问题?
你好,我是刘超。
我想你肯定遇到过内存溢出,或是内存使用率过高的问题。碰到内存持续上升的情况,其实我们很难从业务日志中查看到具体的问题,那么面对多个进程以及大量业务线程,我们该如何精准地找到背后的原因呢?
## 常用的监控和诊断内存工具
工欲善其事必先利其器。平时排查内存性能瓶颈时我们往往需要用到一些Linux命令行或者JDK工具来辅助我们监测系统或者虚拟机内存的使用情况下面我就来介绍几种好用且常用的工具。
### Linux命令行工具之top命令
top命令是我们在Linux下最常用的命令之一它可以实时显示正在执行进程的CPU使用率、内存使用率以及系统负载等信息。其中上半部分显示的是系统的统计信息下半部分显示的是进程的使用率统计信息。
![](https://static001.geekbang.org/resource/image/36/49/3633095ed54d1ef22fc08310497d6b49.jpg)
除了简单的top之外我们还可以通过top -Hp pid查看具体线程使用系统资源情况
![](https://static001.geekbang.org/resource/image/1e/47/1e4429a9785ae4e6c0884655ee8b5747.jpg)
### Linux命令行工具之vmstat命令
vmstat是一款指定采样周期和次数的功能性监测工具我们可以看到它不仅可以统计内存的使用情况还可以观测到CPU的使用率、swap的使用情况。但vmstat一般很少用来查看内存的使用情况而是经常被用来观察进程的上下文切换。
![](https://static001.geekbang.org/resource/image/31/62/31a79622cdcadda4e9003b075378dc62.jpg)
* r等待运行的进程数
* b处于非中断睡眠状态的进程数
* swpd虚拟内存使用情况
* free空闲的内存
* buff用来作为缓冲的内存数
* si从磁盘交换到内存的交换页数量
* so从内存交换到磁盘的交换页数量
* bi发送到块设备的块数
* bo从块设备接收到的块数
* in每秒中断数
* cs每秒上下文切换次数
* us用户CPU使用时间
* sy内核CPU系统使用时间
* id空闲时间
* wa等待I/O时间
* st运行虚拟机窃取的时间。
### Linux命令行工具之pidstat命令
pidstat是Sysstat中的一个组件也是一款功能强大的性能监测工具我们可以通过命令yum install sysstat安装该监控组件。之前的top和vmstat两个命令都是监测进程的内存、CPU以及I/O使用情况而pidstat命令则是深入到线程级别。
通过pidstat -help命令我们可以查看到有以下几个常用的参数来监测线程的性能
![](https://static001.geekbang.org/resource/image/90/46/90d26ef49ad94510062ac3f36727a346.jpg)
常用参数:
* \-u默认的参数显示各个进程的cpu使用情况
* \-r显示各个进程的内存使用情况
* \-d显示各个进程的I/O使用情况
* \-w显示每个进程的上下文切换情况
* \-p指定进程号
* \-t显示进程中线程的统计信息。
我们可以通过相关命令例如ps或jps查询到相关进程ID再运行以下命令来监测该进程的内存使用情况
![](https://static001.geekbang.org/resource/image/18/61/184df3ee5ab0a920f506b3daa6250a61.jpg)
其中pidstat的参数-p用于指定进程ID-r表示监控内存的使用情况1表示每秒的意思3则表示采样次数。
其中显示的几个关键指标的含义是:
* Minflt/s任务每秒发生的次要错误不需要从磁盘中加载页
* Majflt/s任务每秒发生的主要错误需要从磁盘中加载页
* VSZ虚拟地址大小虚拟内存使用KB
* RSS常驻集合大小非交换区内存使用KB。
如果我们需要继续查看该进程下的线程内存使用率,则在后面添加-t指令即可
![](https://static001.geekbang.org/resource/image/3c/72/3c9072c659a91b5f83cbc1a112ddcc72.jpg)
我们知道Java是基于JVM上运行的大部分内存都是在JVM的用户内存中创建的所以除了通过以上Linux命令来监控整个服务器内存的使用情况之外我们更需要知道JVM中的内存使用情况。JDK中就自带了很多命令工具可以监测到JVM的内存分配以及使用情况。
### JDK工具之jstat命令
jstat可以监测Java应用程序的实时运行情况包括堆内存信息以及垃圾回收信息。我们可以运行jstat -help查看一些关键参数信息
![](https://static001.geekbang.org/resource/image/42/e8/42880a93eb63ae6854a7920e73a751e8.jpg)
再通过jstat -option查看jstat有哪些操作
![](https://static001.geekbang.org/resource/image/7a/7d/7af697d9cfd6002a49063ab2464d5f7d.jpg)
* \-class显示ClassLoad的相关信息
* \-compiler显示JIT编译的相关信息
* \-gc显示和gc相关的堆信息
* \-gccapacity显示各个代的容量以及使用情况
* \-gcmetacapacity显示Metaspace的大小
* \-gcnew显示新生代信息
* \-gcnewcapacity显示新生代大小和使用情况
* \-gcold显示老年代和永久代的信息
* \-gcoldcapacity :显示老年代的大小;
* \-gcutil显示垃圾收集信息
* \-gccause显示垃圾回收的相关信息通-gcutil同时显示最后一次或当前正在发生的垃圾回收的诱因
* \-printcompilation输出JIT编译的方法信息。
它的功能比较多在这里我例举一个常用功能如何使用jstat查看堆内存的使用情况。我们可以用jstat -gc pid查看
![](https://static001.geekbang.org/resource/image/e5/68/e59188982cf5b75243a8c333bfead068.jpg)
* S0C年轻代中To Survivor的容量单位KB
* S1C年轻代中From Survivor的容量单位KB
* S0U年轻代中To Survivor目前已使用空间单位KB
* S1U年轻代中From Survivor目前已使用空间单位KB
* EC年轻代中Eden的容量单位KB
* EU年轻代中Eden目前已使用空间单位KB
* OCOld代的容量单位KB
* OUOld代目前已使用空间单位KB
* MCMetaspace的容量单位KB
* MUMetaspace目前已使用空间单位KB
* YGC从应用程序启动到采样时年轻代中gc次数
* YGCT从应用程序启动到采样时年轻代中gc所用时间(s)
* FGC从应用程序启动到采样时old代全gcgc次数
* FGCT从应用程序启动到采样时old代全gcgc所用时间(s)
* GCT从应用程序启动到采样时gc用的总时间(s)。
### JDK工具之jstack命令
这个工具在模块三的[答疑课堂](https://time.geekbang.org/column/article/105234)中介绍过,它是一种线程堆栈分析工具,最常用的功能就是使用 jstack pid 命令查看线程的堆栈信息通常会结合top -Hp pid 或 pidstat -p pid -t一起查看具体线程的状态也经常用来排查一些死锁的异常。
![](https://static001.geekbang.org/resource/image/28/88/2869503e8d5460e36b3fd3e1a52a8888.jpg)
每个线程堆栈的信息中都可以查看到线程ID、线程的状态wait、sleep、running 等状态)以及是否持有锁等。
### JDK工具之jmap命令
在[第23讲](https://time.geekbang.org/column/article/108139)中我们使用过jmap查看堆内存初始化配置信息以及堆内存的使用情况。那么除了这个功能我们其实还可以使用jmap输出堆内存中的对象信息包括产生了哪些对象对象数量多少等。
我们可以用jmap来查看堆内存初始化配置信息以及堆内存的使用情况
![](https://static001.geekbang.org/resource/image/80/3f/808870b42f5f6525d79f70fd287a293f.jpg)
我们可以使用jmap -histo\[:live\] pid查看堆内存中的对象数目、大小统计直方图如果带上live则只统计活对象
![](https://static001.geekbang.org/resource/image/74/7b/74f42fa2b48ceaff869472f6061c1c7b.jpg)
我们可以通过jmap命令把堆内存的使用情况dump到文件中
![](https://static001.geekbang.org/resource/image/f3/17/f3c17fd9bb436599fb48cf151ee7ba17.jpg)
我们可以将文件下载下来,使用 [MAT](http://www.eclipse.org/mat/) 工具打开文件进行分析:
![](https://static001.geekbang.org/resource/image/3c/43/3cc14844625cebcc1cdb836e5ccbfc43.jpg)
下面我们用一个实战案例来综合使用下刚刚介绍的几种工具,具体操作一下如何分析一个内存泄漏问题。
## 实战演练
我们平时遇到的内存溢出问题一般分为两种,一种是由于大峰值下没有限流,瞬间创建大量对象而导致的内存溢出;另一种则是由于内存泄漏而导致的内存溢出。
使用限流我们一般就可以解决第一种内存溢出问题但其实很多时候内存溢出往往是内存泄漏导致的这种问题就是程序的BUG我们需要及时找到问题代码。
**下面我模拟了一个内存泄漏导致的内存溢出案例,我们来实践一下。**
我们知道ThreadLocal的作用是提供线程的私有变量这种变量可以在一个线程的整个生命周期中传递可以减少一个线程在多个函数或类中创建公共变量来传递信息避免了复杂度。但在使用时如果ThreadLocal使用不恰当就可能导致内存泄漏。
这个案例的场景就是ThreadLocal下面我们模拟对每个线程设置一个本地变量。运行以下代码系统一会儿就发送了内存溢出异常
```
@RequestMapping(value = "/test0")
public String test0(HttpServletRequest request) {
ThreadLocal<Byte[]> localVariable = new ThreadLocal<Byte[]>();
localVariable.set(new Byte[4096*1024]);// 为线程添加变量
return "success";
}
```
在启动应用程序之前我们可以通过HeapDumpOnOutOfMemoryError和HeapDumpPath这两个参数开启堆内存异常日志通过以下命令启动应用程序
```
java -jar -Xms1000m -Xmx4000m -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/heapdump.hprof -XX:+PrintGCTimeStamps -XX:+PrintGCDetails -Xloggc:/tmp/heapTest.log heapTest-0.0.1-SNAPSHOT.jar
```
首先请求test0链接10000次这个时候我们请求test0的接口报异常了。
![](https://static001.geekbang.org/resource/image/60/dc/60ab8d7847a55a9bcf84d17ecd11ebdc.jpg)
通过日志我们很好分辨这是一个内存溢出异常。我们首先通过Linux系统命令查看进程在整个系统中内存的使用率是多少最简单就是top命令了。
![](https://static001.geekbang.org/resource/image/d2/37/d2ad570e1fff2a64a1924c2852f93e37.jpg)
从top命令查看进程的内存使用情况可以发现在机器只有8G内存且只分配了4G内存给Java进程的情况下Java进程内存使用率已经达到了55%再通过top -Hp pid查看具体线程占用系统资源情况。
![](https://static001.geekbang.org/resource/image/6f/a7/6fdea40b5ff4f2f0744e019c3bef79a7.jpg)
再通过jstack pid查看具体线程的堆栈信息可以发现该线程一直处于 TIMED\_WAITING 状态此时CPU使用率和负载并没有出现异常我们可以排除死锁或I/O阻塞的异常问题了。
![](https://static001.geekbang.org/resource/image/4b/87/4bfb58d626f988260e016a2bdf0e8687.jpg)
我们再通过jmap查看堆内存的使用情况可以发现老年代的使用率几乎快占满了而且内存一直得不到释放
![](https://static001.geekbang.org/resource/image/fe/71/feb358259ea8b3ed2b67e868c101d271.jpg)
通过以上堆内存的情况,我们基本可以判断系统发生了内存泄漏。下面我们就需要找到具体是什么对象一直无法回收,什么原因导致了内存泄漏。
我们需要查看具体的堆内存对象看看是哪个对象占用了堆内存可以通过jmap查看存活对象的数量
![](https://static001.geekbang.org/resource/image/c5/d9/c5b89deb306a2c470e606fa9c49dd0d9.jpg)
Byte对象占用内存明显异常说明代码中Byte对象存在内存泄漏我们在启动时已经设置了dump文件通过MAT打开dump的内存日志文件我们可以发现MAT已经提示了byte内存异常
![](https://static001.geekbang.org/resource/image/4c/63/4ceb91714afa77b54d1112a0e1f0c863.jpg)
再点击进入到Histogram页面可以查看到对象数量排序我们可以看到Byte\[\]数组排在了第一位选中对象后右击选择with incomming reference功能可以查看到具体哪个对象引用了这个对象。
![](https://static001.geekbang.org/resource/image/5a/91/5a651a2f52dfed72712543f7680de091.jpg)
在这里我们就可以很明显地查看到是ThreadLocal这块的代码出现了问题。
![](https://static001.geekbang.org/resource/image/2b/a2/2bed3871097249d64ccf4c79d68109a2.jpg)
## 总结
在一些比较简单的业务场景下,排查系统性能问题相对来说简单,且容易找到具体原因。但在一些复杂的业务场景下,或是一些开源框架下的源码问题,相对来说就很难排查了,有时候通过工具只能猜测到可能是某些地方出现了问题,而实际排查则要结合源码做具体分析。
可以说没有捷径,排查线上的性能问题本身就不是一件很简单的事情,除了将今天介绍的这些工具融会贯通,还需要我们不断地去累积经验,真正做到性能调优。
## 思考题
除了以上我讲到的那些排查内存性能瓶颈的工具之外你知道要在代码中对JVM的内存进行监控常用的方法是什么
期待在留言区看到你的分享。也欢迎你点击“请朋友读”,把今天的内容分享给身边的朋友,邀请他一起讨论。