gitbook/高楼的性能工程实战课/docs/370976.md
2022-09-03 22:05:03 +08:00

304 lines
18 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 21 | 支付前查询订单列表:如何分析优化一个固定的技术组件?
今天我们来分析支付前查询订单列表接口。
在这节课中,我将带你来看一下对于一个固定的技术组件,分析优化思路应该是怎样的,也就是说组件不是我们开发的,但是又要分析优化它,我们该怎么办?
此外我们还会遇到一个问题就是当数据库的CPU并没有全部用完而是只用了几颗的时候我们应该如何具体定向对此我们将用到查看数据库本身线程栈的方法这和前面直接看trx表有所不同。
下面,我们一起进入今天的内容。
## 场景运行数据
对于支付前查询订单列表接口,我们先来看第一次运行的性能场景结果:
![](https://static001.geekbang.org/resource/image/0f/d2/0f78445ef87c78dc2bb856cb25f8d4d2.png)
从运行的场景数据来看这个接口的TPS一开始还是挺高的达到了800多。但是响应时间也增加了瓶颈已经出现。我们只要知道瓶颈在哪就能知道这个接口有没有优化空间。
根据高老师的分析逻辑,在正式分析之前,我们看一下架构图。
## 架构图
![](https://static001.geekbang.org/resource/image/64/04/64df3dd5f9ae4e5d8e4d4a1e33130d04.png)
这张架构图是非常清楚的可以看到当前接口的逻辑为Gateway - Order - Member其中也使用到了MySQL和Redis。
下面我们来看看,响应时间消耗到哪里去了。
## 拆分响应时间
* Gateway
![](https://static001.geekbang.org/resource/image/a9/a9/a977967f392a21e349a4190864cf5fa9.png)
* Order
![](https://static001.geekbang.org/resource/image/b3/1b/b3e37c3ed659a04d3673ce8371edd11b.png)
* Member
![](https://static001.geekbang.org/resource/image/fb/1a/fb52b79c98b57408482dc8fc43d1e61a.png)
从响应时间的分布来看Gateway网关上消耗的时间要长一些。所以我们接下来得从Gateway下手分析一下到底是哪里消耗了时间。
## 第一阶段
### 全局监控分析
按照“**先看全局监控,后看定向监控**”的逻辑,我们先看这个接口的全局监控:
![](https://static001.geekbang.org/resource/image/58/e8/5895f1645bc9524f69374c0cd7e06fe8.png)
由于Gateway消耗的响应时间长我们看过全局监控视图之后要判断出Gateway在哪个worker上
```
[root@k8s-master-2 ~]# kubectl get pods -o wide | grep gateway
gateway-mall-gateway-757659dbc9-tdwnm 1/1 Running 0 3d16h 10.100.79.96 k8s-worker-4 <none> <none>
[root@k8s-master-2 ~]#
```
这个Gateway服务在worker-4上同时在全局监控图上可以看到虽然Gateway只消耗了70%的CPU但它还是消耗了最多的响应时间。既然这样我们就要关注一下Gateway的线程状态看看它在处理什么。
### 定向监控分析
在做定向监控时我们先来看一下线程的CPU消耗
![](https://static001.geekbang.org/resource/image/74/fb/745fa375415efdbe60cbe04efacb0dfb.png)
通过上图可以看到在Gateway中有两类重要的工作线程分别是reactor-http-epoll和boundedElastic。
在官方的说明中提到reactor-http-epoll线程的设置最好与CPU个数一致。我们当前的reactor-http-epoll线程是4个而这个worker有6C所以还能增加两个增加多了意义也不大。至于boundedElastic它是有边界的弹性线程池默认为CPU核x10也没啥可优化的。
我们再持续看一会儿Gateway服务中的线程所消耗的时间比例看一下方法级的时间消耗有没有异常的情况也就是比例非常高的如下图所示
![](https://static001.geekbang.org/resource/image/0c/e2/0cff8cd7771508150e0d341cee1b9de2.png)
你看,当前的执行方法也都没啥异常的。
现在我们就把线程增加到6个看能不能把CPU用高一点。如果CPU用多了之后仍然是Gateway消耗的时间长那我们就只有再继续加CPU了。
请你注意在性能项目中不要轻易给出加CPU这样的建议。一定要在你分析了逻辑之后确定没有其他优化空间了再给这样的建议。
### 优化效果
我们来看一下优化效果:
![](https://static001.geekbang.org/resource/image/32/a2/32faf723ede915a7ca66547c591522a2.png)
通过回归测试我们看到TPS有一点增加只是在图的后半段由于在测试过程中Gateway重启过前面的TPS就当是预热了增加的并不明显大概有50多TPS的样子。不过也算是有了效果。
我们优化到这里并没有结束因为在查看各个Worker的过程中我还发现一个奇怪的现象那就是数据库里有两个CPU的使用率非常高。下面我们来扒一扒。
## 第二阶段
### 全局监控分析
因为前面优化的效果并不怎么样,所以我们要重新开始分析。让我们从全局监控开始:
![](https://static001.geekbang.org/resource/image/8b/21/8bf119287eab532f8f01bf09ffff6721.png)
看起来倒是没啥数据库所在的worker-1也不见有什么大的资源消耗。
请你注意我在文章中经常用这个界面来看全局监控的数据。但这并不是说我只看这个界面。当我在这个界面中看不到明显的问题点时我也会去看一些命令像top/vmstat等这和我一直说的全局监控的完整计数器有关。因此你的脑袋里要有全局监控计数器的视图然后才能真正看全第一层的计数器。
我们再来看数据库所在的worker上的top数据发现了这样的现象
```
bash-4.2$ top
top - 09:57:43 up 3 days, 17:54, 0 users, load average: 4.40, 3.57, 3.11
Tasks: 11 total, 1 running, 9 sleeping, 1 stopped, 0 zombie
%Cpu0 : 8.0 us, 4.7 sy, 0.0 ni, 84.3 id, 0.0 wa, 0.0 hi, 2.2 si, 0.7 st
%Cpu1 :100.0 us, 0.0 sy, 0.0 ni, 0.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu2 : 6.5 us, 4.4 sy, 0.0 ni, 85.5 id, 0.0 wa, 0.0 hi, 2.2 si, 1.5 st
%Cpu3 : 7.8 us, 5.7 sy, 0.0 ni, 83.7 id, 0.0 wa, 0.0 hi, 2.1 si, 0.7 st
%Cpu4 : 96.0 us, 0.0 sy, 0.0 ni, 0.0 id, 0.0 wa, 0.0 hi, 4.0 si, 0.0 st
%Cpu5 : 7.0 us, 4.0 sy, 0.0 ni, 84.9 id, 0.0 wa, 0.0 hi, 2.6 si, 1.5 st
KiB Mem : 16265992 total, 1203032 free, 6695156 used, 8367804 buff/cache
KiB Swap: 0 total, 0 free, 0 used. 9050344 avail Mem
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
1 mysql 20 0 8272536 4.7g 13196 S 248.8 30.5 6184:36 mysqld
```
可以非常明显地看到有两个CPU的使用率高那我们就来定向分析下数据库。
在此之前我们不妨心中默念10遍“只要思路不乱任何问题都是一盘菜”因为保持思路清晰非常重要。
### 定向监控分析
我们要定向分析数据库可是在数据库上又不是所有的CPU使用率都高所以我们要来看一下数据库线程到底在做什么动作。有了上面的进程信息之后我们再深入到线程级
```
bash-4.2$ top -Hp 1
top - 09:56:40 up 3 days, 17:53, 0 users, load average: 3.05, 3.30, 3.01
Threads: 92 total, 2 running, 90 sleeping, 0 stopped, 0 zombie
%Cpu0 : 5.4 us, 2.9 sy, 0.0 ni, 89.2 id, 0.0 wa, 0.0 hi, 2.2 si, 0.4 st
%Cpu1 : 99.7 us, 0.0 sy, 0.0 ni, 0.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.3 st
%Cpu2 : 5.4 us, 3.2 sy, 0.0 ni, 88.2 id, 0.0 wa, 0.0 hi, 2.5 si, 0.7 st
%Cpu3 : 6.3 us, 4.2 sy, 0.0 ni, 87.0 id, 0.0 wa, 0.0 hi, 2.1 si, 0.4 st
%Cpu4 : 96.3 us, 0.0 sy, 0.0 ni, 0.0 id, 0.0 wa, 0.0 hi, 3.7 si, 0.0 st
%Cpu5 : 4.0 us, 2.5 sy, 0.0 ni, 91.0 id, 0.0 wa, 0.0 hi, 1.8 si, 0.7 st
KiB Mem : 16265992 total, 1205356 free, 6692736 used, 8367900 buff/cache
KiB Swap: 0 total, 0 free, 0 used. 9052664 avail Mem
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
311 mysql 20 0 8272536 4.7g 13196 R 99.9 30.5 18:20.34 mysqld
241 mysql 20 0 8272536 4.7g 13196 R 99.7 30.5 1906:40 mysqld
291 mysql 20 0 8272536 4.7g 13196 S 3.3 30.5 15:49.21 mysqld
319 mysql 20 0 8272536 4.7g 13196 S 3.0 30.5 11:50.34 mysqld
355 mysql 20 0 8272536 4.7g 13196 S 3.0 30.5 13:01.53 mysqld
265 mysql 20 0 8272536 4.7g 13196 S 2.7 30.5 18:17.48 mysqld
307 mysql 20 0 8272536 4.7g 13196 S 2.7 30.5 16:47.77 mysqld
328 mysql 20 0 8272536 4.7g 13196 S 2.7 30.5 15:34.92 mysqld
335 mysql 20 0 8272536 4.7g 13196 S 2.7 30.5 8:55.38 mysqld
316 mysql 20 0 8272536 4.7g 13196 S 2.3 30.5 14:38.68 mysqld
350 mysql 20 0 8272536 4.7g 13196 S 2.3 30.5 10:37.94 mysqld
233 mysql 20 0 8272536 4.7g 13196 S 2.0 30.5 14:19.32 mysqld
279 mysql 20 0 8272536 4.7g 13196 S 2.0 30.5 19:51.80 mysqld
318 mysql 20 0 8272536 4.7g 13196 S 2.0 30.5 11:34.62 mysqld
331 mysql 20 0 8272536 4.7g 13196 S 2.0 30.5 11:46.94 mysqld
375 mysql 20 0 8272536 4.7g 13196 S 2.0 30.5 1:29.22 mysqld
300 mysql 20 0 8272536 4.7g 13196 S 1.7 30.5 17:45.26 mysqld
380 mysql 20 0 8272536 4.7g 13196 S 1.7 30.5 1:24.32 mysqld
```
你看只有两个MySQL的线程在使用CPU。到了这一步你可能会想接下来去查SQL虽然可能就是SQL的问题但我还是建议你**找到相应的证据。**
由于MySQL是用C语言写的那我们就用gstack这是一个装了GDB之后就会有的命令打印一下这两个MySQL的栈看看具体的函数。我们把那两个PID311、241的栈拿出来之后看到如下信息
```
Thread 59 (Thread 0x7f1d60174700 (LWP 241)):
#0 0x000055a431fefea9 in JOIN_CACHE::read_record_field(st_cache_field*, bool) ()
#1 0x000055a431ff01ca in JOIN_CACHE::read_some_record_fields() ()
#2 0x000055a431ff070f in JOIN_CACHE::get_record() ()
#3 0x000055a431ff2a92 in JOIN_CACHE_BNL::join_matching_records(bool) ()
#4 0x000055a431ff18f0 in JOIN_CACHE::join_records(bool) ()
#5 0x000055a431e397c0 in evaluate_join_record(JOIN*, QEP_TAB*) ()
#6 0x000055a431e3f1a5 in sub_select(JOIN*, QEP_TAB*, bool) ()
#7 0x000055a431e37a90 in JOIN::exec() ()
#8 0x000055a431eaa0ba in handle_query(THD*, LEX*, Query_result*, unsigned long long, unsigned long long) ()
#9 0x000055a43194760d in execute_sqlcom_select(THD*, TABLE_LIST*) ()
#10 0x000055a431e6accf in mysql_execute_command(THD*, bool) ()
#11 0x000055a431e6d455 in mysql_parse(THD*, Parser_state*) ()
#12 0x000055a431e6e3b6 in dispatch_command(THD*, COM_DATA const*, enum_server_command) ()
#13 0x000055a431e6fc00 in do_command(THD*) ()
#14 0x000055a431f33938 in handle_connection ()
#15 0x000055a4320e66d4 in pfs_spawn_thread ()
#16 0x00007f1e8f1fcdd5 in start_thread () from /lib64/libpthread.so.0
#17 0x00007f1e8d3cc02d in clone () from /lib64/libc.so.6
Thread 41 (Thread 0x7f1d585e0700 (LWP 311)):
#0 0x000055a4319dbe44 in Item_field::val_int() ()
#1 0x000055a4319fb839 in Arg_comparator::compare_int_signed() ()
#2 0x000055a4319fbd9b in Item_func_eq::val_int() ()
#3 0x000055a431ff24ab in JOIN_CACHE::check_match(unsigned char*) ()
#4 0x000055a431ff26ec in JOIN_CACHE::generate_full_extensions(unsigned char*) ()
#5 0x000055a431ff2ab4 in JOIN_CACHE_BNL::join_matching_records(bool) ()
#6 0x000055a431ff18f0 in JOIN_CACHE::join_records(bool) ()
#7 0x000055a431e397c0 in evaluate_join_record(JOIN*, QEP_TAB*) ()
#8 0x000055a431e3f1a5 in sub_select(JOIN*, QEP_TAB*, bool) ()
#9 0x000055a431e37a90 in JOIN::exec() ()
#10 0x000055a431eaa0ba in handle_query(THD*, LEX*, Query_result*, unsigned long long, unsigned long long) ()
#11 0x000055a43194760d in execute_sqlcom_select(THD*, TABLE_LIST*) ()
#12 0x000055a431e6accf in mysql_execute_command(THD*, bool) ()
#13 0x000055a431e6d455 in mysql_parse(THD*, Parser_state*) ()
#14 0x000055a431e6e3b6 in dispatch_command(THD*, COM_DATA const*, enum_server_command) ()
#15 0x000055a431e6fc00 in do_command(THD*) ()
#16 0x000055a431f33938 in handle_connection ()
#17 0x000055a4320e66d4 in pfs_spawn_thread ()
#18 0x00007f1e8f1fcdd5 in start_thread () from /lib64/libpthread.so.0
#19 0x00007f1e8d3cc02d in clone () from /lib64/libc.so.6
```
很明显是两个execute\_sqlcom\_select函数也就是两个select语句。我们接着往上看栈还可以看到是JOIN函数。既然是select语句中的JOIN那我们直接去找SQL语句就好了。
因此我们直接去查innodb\_trx表看看正在执行SQL有没有消耗时间长的。你也许会执行show processlist之类的命令但是为了看全SQL我还是建议你直接查trx表。由于我们使用的thread\_handling是默认的one-thread-per-connection操作系统的线程和mysql里的线程都是一一对应的。所以我们在这里直接查trx表不会有什么误判。
通过查找innodb\_trx表我们看到了这样两个SQL消耗时间较长列在这里
```
-- sql1
SELECT
count(*)
FROM
oms_order o
LEFT JOIN oms_order_item ot ON o.id = ot.order_id
WHERE
o. STATUS = 0
AND o.create_time < date_add(NOW(), INTERVAL - 120 MINUTE)
LIMIT 0,
1000
-- sql2
SELECT
o.id,
o.order_sn,
o.coupon_id,
o.integration,
o.member_id,
o.use_integration,
ot.id ot_id,
ot.product_name ot_product_name,
ot.product_sku_id ot_product_sku_id,
ot.product_sku_code ot_product_sku_code,
ot.product_quantity ot_product_quantity
FROM
oms_order o
LEFT JOIN oms_order_item ot ON o.id = ot.order_id
WHERE
o. STATUS = 0
AND o.create_time < date_add(NOW(), INTERVAL - 120 MINUTE)
```
我们提到多次要想看SQL慢就得看SQL对应的执行计划在MySQL中如果执行计划看得不清楚还可以看Profile信息。这两个SQL对应的执行计划如下
![](https://static001.geekbang.org/resource/image/9e/61/9e41ba801dd20e46ff00386067670f61.png)
![](https://static001.geekbang.org/resource/image/95/31/95b6efa2ddda492a8bf61abe8e483831.png)
依然是常见的全表扫描。看到这里,你是不是有一种索然无味的感觉?但是,我们还是需要知道这两个语句为什么会产生。
其实支付前查询订单列表这个接口并没有用到这两个SQL。于是我到代码中看了一下这两个SQL的生成过程反向查找到如下代码
```
@Scheduled(cron = "0 0/20 * ? * ?")
private void cancelTimeOutOrder(){
Integer count = portalOrderService.cancelTimeOutOrder();
LOGGER.info("取消订单释放锁定库存:{}",count);
}
```
很显然这是一个定时计划每20分钟执行一次。到这里问题就很清楚了原来是定时任务调用了这两个批量的查询语句导致了两个CPU使用率达到100%,并且也持续了一段时间。
像这样的定时任务我们要格外关注一下注意把它和实时业务分开部署和处理减少批量业务对实时业务的资源争用。如果放在一起处理那就要控制好要批量查询的数据量级让SQL的查询变得合理。
由于数据库可用的CPU比较多这个定时任务对我们的TPS并没有产生什么明显的影响在这里我们不用做什么处理以后注意分开就好了。
## 总结
在这节课中虽然我们的优化并没有让TPS明显增加但是因为分析的技术细节不一样我也非常完整地记录了整个分析过程。
在第一阶段的分析中,我们运用的还是之前提到的分析思路。不同点在于,对于一个非常成熟的固定组件,我们要想优化它,就要去了解它的架构,找到它的相关性能参数。因为在实际的性能项目中,面对这样的组件,我们往往没有时间去纠结内部的实现,需要非常快速地作出判断。如果时间允许,你倒是可以慢慢折腾。
其实理解一个技术组件的原理,并没有想像中的那么高不可攀、深不可测,只要耐心看下去,你总会成长。
在第二阶段的分析中我们由某几个CPU高的现象分析到了具体的SQL问题。这个过程虽然简单但是从这个问题上我们可以看出这个系统还有很多的优化空间比如说主从分离、定时任务拆为单独的服务等等。不过在我们的性能分析中重点仍然是我跟你一直灌输的分析思路希望你记在心里了。
## 课后作业
最后,我给你留两道题,请你思考一下:
1. 为什么要看全部的全局监控计数器?
2. 单CPU高时如何定位具体的问题点你有什么思路
记得在留言区和我讨论、交流你的想法,每一次思考都会让你更进一步。
如果你读完这篇文章有所收获,也欢迎你分享给你的朋友,共同学习进步。我们下一讲再见!