You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

114 lines
9.6 KiB
Markdown

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# 加餐2 |答疑精选:这些问题你都清楚吗?
你好我是陶辉。今天是期中周的第2篇加餐按照约定这节课我从115课的留言区精选出了15个问题这里一部分是与内容强相关的还有一部分是属于拓展型的问题选择标准就是是否存在增量信息以及问题价值希望你能从别人的疑问中进行一次自检引发更多的思考。
## 第1课
鲤鲤鱼我们集群有一个问题某一台物理机的CPU会被Hadoop yarn的查询任务打满并且占用最多的pid在不停的变化我查看了TIME\_WAIT的个数好像也不是很多在顶峰的时候还没达到一万能够持续一两个小时。这个问题您有没有什么思路呢
作者:解决性能问题,一般有两种方法:经验派和“理论”派。前者就是基于自己的经验概率,将能想到的优化方法都试一遍,这种方式通常又有效又快速,但无法解决复杂的问题。而所谓理论派,就是沿着固定的思路,使用二分法,从高至低慢慢下沉到细节。
具体到你的问题我建议你先看看CPU占用的是用户态还是系统态用户态的话就要分析代码了系统态还要进一步分析。火焰图通常是个很好的办法虽然搭能画火焰图的环境很麻烦但这种底层方法很有效第19课会具体讲到火焰图的用法
## 第2课
alan老师好这节课真好第一次了解到内存池也是有层次的。我遇到一个问题想请教一下我有一个和数据库交互的Groovy程序运行起来后会占用很大内存启动时将Xmx设置为多少该程序的内存占用就不会超过Xmx指定的上限。比如Xmx=10g程序就稳定占10g内存但如果不限制的话最高见过占用30G左右。这个您觉得有什么可能的原因吗
作者每种Java虚拟机都有自己独特的垃圾回收机制有时为了时间更快就会牺牲更多的内存空间这是正常的。我建议在服务器上长时间运行的Java进程一定要通过Xmx去明确内存占用否则内存不可控会很麻烦。
## 第3课
杨文宇:链表的内存地址不连续是如何影响序列化的?老师能具体说一下吗?
作者当数组外还有链表中的元素时序列化就必须遍历所有元素比如至少要做1次循环把每1个遍历到的元素的值序列化写入至另一段内存中。而使用闭散列时可以直接将这个数组占用的内存作为序列化后的数据来直接落地或使用。
## 第4课
helloworld“第二读取磁盘数据时需要先找到数据所在的位置对于机械磁盘来说就是旋转磁头到数据所在的扇区再开始顺序读取数据。其中旋转磁头耗时很长为了降低它的影响PageCache 使用了预读功能。”那是不是使用SSD这类固态硬盘不用旋转磁头PageCache就没有很大的影响
作者对的其实当下的操作系统对SSD磁盘的支持还不够当SSD广泛应用时文件系统还需要跟上得获得很大的性能提升才可以。
## 第5课
Robust“然而共享地址空间虽然可以方便地共享对象但这也导致一个问题那就是任何一个线程出错时进程中的所有线程会跟着一起崩溃。”这里的出错应该表示一些特殊的错误吧或者是说和共享内存有关的错误比如申请不到内存等。老师我理解得没错吧
作者:这里指无法恢复的错误,不仅是内存申请错误,比如访问已经释放的资源,且没有捕获异常或者无法捕获异常,进而操作系统只能杀死线程时,进程里的其它线程也会被杀死。
## 第6课
范闲用户态的协程不能用互斥或者自旋会进入内核态与其设计初衷相悖Python里面用的yield。
作者:是的,用户态协程需要用户态的代码将锁重新实现一遍,其中实现时不能用到内核提供的系统调用。
## 第7课
重返归途:广播功能属于双工吗?当多个客户机向主机响应时,会有性能瓶颈吗?
作者:广播不是双工,因为广播是由网络设备实现的,所以服务器无法感知到每个客户端的响应,因此客户端对服务器的响应,与本次广播消息链路无关,它必须是另一个通道。
## 第8课
龙龙:“因此,哪怕有 1 千万并发连接,也能保证 1 万 RPS 的处理能力,这就是 epoll 能在 C10M 下实现高吞吐量的原因。”老师这段话我不太理解1千万的并发连接只有1万的RPS这能算高吞吐量吗相当于每秒只有1000个人中的1个人得到响应。还是我理解错了您表述的是另一层意思
作者这里有2层意思都是服务于epoll的设计思想这一个目的。
1. 这段话的上下文是指单次获取网络事件时你可以理解为调用epoll\_wait系统调用它的速度与并发连接总数无关相对于之前的select/poll系统调用它们都与并发连接总数相关因此epoll\_wait速度很快这是实现高吞吐量的关键。
2. 有些应用会长时间保持TCP长连接但并没有消息通讯比如GPS等IoT设备与服务器之间的通讯此时1千万并发连接下如果能够维持1万RPS这也是只有epoll才能做到的poll/select是不可能做到的。
## 第9课
Geek\_007看评论区很多同学都说是长连接普通的HTTP keep-alive会不会有坑三大运营商或者中间网络设备都会将超过一定时间的链接drop掉。如果没有H2这种ping保活的机制有可能客户端长链接莫名其妙的就被drop掉客户端只能依赖超时来感知异常反倒是影响性能了。
作者是的不只网络设备一些代理服务器为了减轻自己的负担也会把长连接断掉比如Nginx默认关闭75秒没有数据交互的keep-alive长连接。
## 第10课
安排TTL每一跳减少1这些怎么和MSL对应起来呢每一跳减少的1相当于1秒
作者不是这是一个预估值所谓每一跳是指每经过一个路由器网络设备将IP头部中的TTL字段减少1并不等于1秒通常推荐的TTL的初始值是64。
## 第11课
Trident带宽时延积如何衡量呢网络时延不是固定的是要多次取样计算平均网络时延然后估算出这个时延积吗
作者:是的,需要多次取样做估算,再乘以带宽,得到带宽时延积。
## 第12课
妥协为什么报文5之后的ack都是ack6呀
作者TCP是有序的字符流因此接收方收完报文5后只能接收报文6但现在却接收到了报文7、8、9、10此时接收方该怎么办呢
当然它可以当做不知道什么也不做坐等报文6的到来。报文6什么时候会到呢RTO时间超时后发送方会重发报文6因为发送方一直没收到ACK7但是RTO是很长的时间接收方直接反复地传递ACK6这样发送方就能明白报文6丢了它可以提前重发报文6。这叫做快速重传
## 第13课
有铭:“寻找宕机服务时,只要看队列首部最老的心跳包,距现在是否超过 5 秒,如果超过 5 秒就认定宕机。”这里的逻辑无法理解。如果要用这种方式检测心跳,那么肯定要不停地把队列首部的心跳包移除,让新的心跳包从尾部加入,那么如果这个加入的过程卡一点,岂不是就会误判?
作者这种设计下还必须限制每次移除心跳包的数量分多次执行以防止加入过程长时间得不到执行。而且在这种极限场景下必须监控CPU的使用率如果长期维持在高占用率可能你的集群规模已经超大要每秒处理数百万心跳包那么应当通过扩容更多的CPU核、分布式系统等其它方案来解决这已经不是单台机器能解决的了。
## 第14课
东郭请问老师我在Nginx配置中不管ssl\_certificate和ssl\_certificate\_key是否配置ecc证书抓包查看服务器的server hello响应中的Cipher Suite字段都是TLS\_ECDHE\_RSA\_WITH\_AES\_128\_GCM\_SHA256这是正常的吗
作者这是正常的TLS握手阶段Nginx的Cipher Suite要通过ssl\_ciphers指令来配合支持的suites并可通过ssl\_prefer\_server\_ciphers指定优先选用的算法。证书只是包含了密钥、身份等信息它们与密钥协商方式、对称加密算法并无关系。
## 第15课
Geek\_007FB也搞了一套压缩算法ZSTD对比起来也比gzip性能强很多不清楚这些压缩算法的原理是啥怎么对比另外普通的JSON和PB有不同适合的压缩算法吗怎么比较呢
作者:
1. 压缩算法的原理都是基于香农的信息论将高频出现的信息用更少的比特编码。虽然原理是一致的但实现上却有很大的差别比如Huffman通过建立Huffman树来生成编码而LZ77却是通过滑动窗口这就造成了压缩比、压缩速度都很不相同。
2. 比较它们的优劣主要看3个指标
* 压缩比比如Brotli的压缩比好于ZSTD
* 压缩与解压的速度比如ZSTD比gzip速度快
* 浏览器等中间件的支持程度现在几乎所有浏览器都支持Brotli即br但ZSTD少有支持。
3. 普通的JSON和PB没有最适合的算法还是要针对具体场景比较方法参见我刚刚说的那3个指标。
今天的答疑精选就到这里,期待大家能一如既往的在留言区进行交流,如果有更多问题,也欢迎一并提出。