gitbook/Android开发高手课/docs/78585.md
2022-09-03 22:05:03 +08:00

22 KiB
Raw Permalink Blame History

16 | 网络优化(中):复杂多变的移动网络该如何优化?

在PC互联网时代网络优化已经是一项非常复杂的工作。对于移动网络来说弱网络、网络切换、网络劫持这些问题更加突出网络优化这项工作也变得更加艰巨。

那作为一名移动开发者面对复杂多变的移动网络我们该如何去优化呢可能也有人会说我只要用好AFNetworking/OkHttp这些成熟网络库就可以了并不需要额外去做什么优化。那你确定你真的能用好这些网络库吗它们内部是怎样实现的、有哪些差异点、哪个网络库更好呢

虽然我们可能只是客户端App开发人员但在关于网络优化还是可以做很多事情的很多大型的应用也做了很多的实践。今天我们一起来看一下如何让我们的应用在各种的网络条件下都能“快人一步”。

移动端优化

回想上一期我给出的网络架构图,一个数据包从手机出发要经过无线网络、核心网络以及外部网络(互联网),才能到达我们的服务器。那整个网络请求的速度会跟哪些因素有关呢?

从上面这张图上看,客户端网络库实现、服务器性能以及网络链路的质量都是影响网络请求速度的因素。下面我们先从客户端的网络库说过,看看应该如何进行网络优化。

1. 何为网络优化

在讲怎么去优化网络之前,我想先明确一下所谓的网络优化,究竟指的是什么?在我看来,核心内容有以下三个:

  • 速度。在网络正常或者良好的时候,怎样更好地利用带宽,进一步提升网络请求速度。

  • 弱网络。移动端网络复杂多变,在出现网络连接不稳定的时候,怎样最大程度保证网络的连通性。

  • 安全。网络安全不容忽视,怎样有效防止被第三方劫持、窃听甚至篡改。

除了这三个问题,我们可能还会关心网络请求造成的耗电、流量问题,这两块内容我们在后面会统一地讲,今天就不再展开。

那对于速度、弱网络以及安全的优化,又该从哪些方面入手呢?首先你需要先搞清楚一个网络请求的整个过程。

从图上看到,整个网络请求主要分为几个步骤,而整个请求的耗时可以细分到每一个步骤里面。

  • DNS解析。通过DNS服务器拿到对应域名的IP地址。在这个步骤我们比较关注DNS解析耗时情况、运营商LocalDNS的劫持、DNS调度这些问题。

  • 创建连接。跟服务器建立连接这里包括TCP三次握手、TLS密钥协商等工作。多个IP/端口该如何选择、是否要使用HTTPS、能否可以减少甚至省下创建连接的时间这些问题都是我们优化的关键。

  • 发送/接收数据。在成功建立连接之后,就可以愉快地跟服务器交互,进行组装数据、发送数据、接收数据、解析数据。我们关注的是,如何根据网络状况将带宽利用好,怎么样快速地侦测到网络延时,在弱网络下如何调整包大小等问题。

  • 关闭连接。连接的关闭看起来非常简单,其实这里的水也很深。这里主要关注主动关闭和被动关闭两种情况,一般我们都希望客户端可以主动关闭连接。

所谓的网络优化,就是围绕速度、弱网络、安全这三个核心内容,减少每一个步骤的耗时,打造快速、稳定且安全的高质量网络。

2. 何为网络库

在实际的开发工作中我们很少会像《UNIX网络编程》那样直接去操作底层的网络接口一般都会使用网络库。Square出品的OkHttp是目前最流行的Android网络库它还被Google加入到Android系统内部为广大开发者提供网络服务。

那网络库究竟承担着一个什么样的角色呢?在我看来,它屏蔽了下层复杂的网络接口,让我们可以更高效地使用网络请求。

如上图所示,一个网络库的核心作用主要有以下三点:

  • 统一编程接口。无论是同步还是异步请求接口都非常简单易用。同时我们可以统一做策略管理统一进行流解析JSON、XML、Protocol Buffers等。

  • 全局网络控制。在网络库内部我们可以做统一的网络调度、流量监控以及容灾管理等工作。

  • 高性能。既然我们把所有的网络请求都交给了网络库那网络库是否实现高性能就至关重要。既然要实现高性能那我会非常关注速度CPU、内存、I/O的使用以及失败率、崩溃率、协议的兼容性等方面。

不同的网络库实现差别很大,比较关键有这几个模块:

那网络库实现到底哪家强接下来我们一起来对比OkHttp、Chromium的Cronet以及微信Mars这三个网络库的内部实现。

3. 高质量网络库

据我了解业内的蘑菇街、头条、UC浏览器都在Chromium网络库上做了二次开发而微信Mars在弱网络方面做了大量优化拼多多、虎牙、链家、美丽说这些应用都在使用Mars。

下面我们一起来对比一下各个网络库的核心实现。对于参与网络库相关工作来说我的经验还算是比较丰富的。在微信的时候曾经参与过Mars的开发目前也在基于Chromium网络库做二次开发。

为什么我从来没使用过OkHttp主要因为它并不支持跨平台对于大型应用来说跨平台是非常重要的。我们不希望所有的优化Android和iOS都要各自去实现一套不仅浪费人力而且还容易出问题。

对于Mars来说它是一个跨平台的Socket层解决方案并不支持完整的HTTP协议所以Mars从严格意义上来讲并不是一个完整的网络库。但是它在弱网络和连接上做了大量的优化并且支持长连接。关于Mars的网络多优化的更多细节你可以参考Wiki右侧的文章列表。

Chromium网络库作为标准的网络库基本上可以说是找不到太大的缺点。而且我们可以享受Google后续网络优化的成果类似TLS 1.3、QUIC支持等。

但是它针对弱网络场景没有做太多定制的优化也不支持长连接。事实上目前我在Chromium网络库的二次开发主要工作也是补齐弱网络优化与长连接这两个短板。

大网络平台

对于大公司来说,我们不能只局限在客户端网络库的双端统一上。网络优化不仅仅是客户端的事情,所以我们有了统一的网络中台,它负责提供前后台一整套的网络解决方案。

阿里的ACCS、蚂蚁的mPaaS、携程的网络服务都是公司级的网络中台服务,这样所有的网络优化可以让整个集团的所有接入应用受益。

下图是mPaaS的网络架构图所有网络请求都会先经过统一的接入层再转发到业务服务器。这样我们可以在业务服务器无感知的情况下在接入层做各种各样的网络优化。

1. HTTPDNS

DNS的解析是我们网络请求的第一项工作默认我们使用运营商的LocalDNS服务。这块耗时在3G网络下可能是200300ms4G网络也需要100ms。

解析慢并不是默认LocalDNS最大的“原罪”它还存在一些其他问题

  • 稳定性。UDP协议无状态容易域名劫持难复现、难定位、难解决每天至少几百万个域名被劫持一年至少十次大规模事件。

  • 准确性。LocalDNS调度经常出现不准确比如北京的用户调度到广东IP移动的运营商调度到电信的IP跨运营商调度会导致访问慢甚至访问不了。

  • 及时性。运营商可能会修改DNS的TTL导致DNS修改生效延迟。不同运营商的服务实现不一致我们也很难保证DNS解析的耗时。

为了解决这些问题就有了HTTPDNS。简单来说自己做域名解析的工作通过HTTP请求后台去拿到域名对应的IP地址直接解决上述所有问题。

微信有自己部署的NEWDNS阿里云和腾讯云也有提供自己的HTTPDNS服务。对于大网络平台来说我们会有统一的HTTPDNS服务并将它和运维系统打通。在传统的DNS基础上还会增加精准的流量调度、网络拨测/灰度、网络容灾等功能。

关于HTTPDNS的更多知识你可以参考百度的《DNS优化》。对客户端来说我们可以通过预请求的方法提前拿到一批域名的IP不过这里需要注意IPv4与IPv6协议栈的选择问题。

2. 连接复用

在DNS解析之后我们来到了创建连接这个环节。创建连接要经过TCP三次握手、TLS密钥协商连接建立的代价是非常大的。这里我们主要的优化思路是复用连接这样不用每次请求都重新建立连接。

在前面我就讲过连接管理,网络库并不会立刻把连接释放,而是放到连接池中。这时如果有另一个请求的域名和端口是一样的,就直接拿出连接池中的连接进行发送和接收数据,少了建立连接的耗时。

这里我们利用HTTP协议里的keep-alive而HTTP/2.0的多路复用则可以进一步的提升连接复用率。它复用的这条连接支持同时处理多条请求,所有请求都可以并发在这条连接上进行。

虽然H2十分强大不过这里还有两个问题需要解决。一个是同一条H2连接只支持同一个域名一个是后端支持HTTP/2.0需要额外的改造。这个时候我们只需要在统一接入层做改造接入层将数据转换到HTTP/1.1再转发到对应域名的服务器。

这样所有的服务都不用做任何改造就可以享受HTTP/2.0的所有优化不过这里需要注意的是H2的多路复用在本质上依然是同一条TCP连接如果所有的域名的请求都集中在某一条连接中在网络拥塞的时候容易出现TCP队首阻塞问题。

对于客户端网络库来说无论OkHttp还是Chromium网络库对于HTTP/2.0的连接同一个域名只会保留一条连接。对于一些第三方请求特别是文件下载以及视频播放这些场景可能会遇到对方服务器单连接限速的问题。在这种情况下我们可以通过修改网络库实现也可以简单的通过禁用HTTP/2.0协议解决。

3. 压缩与加密

压缩

讲完连接我们再来看看发送和接收的优化。我第一时间想到的还是减少传输的数据量也就是我们常说的数据压缩。首先对于HTTP请求来说数据主要包括三个部分

  • 请求URL

  • 请求header

  • 请求body

对于header来说如果使用HTTP/2.0连接本身的头部压缩技术因此需要压缩的主要是请求URL和请求body。

对于请求URL来说一般会带很多的公共参数这些参数大部分都是不变的。这样不变的参数客户端只需要上传一次即可其他请求我们可以在接入层中进行参数扩展。

对于请求body来说一方面是数据通信协议的选择在网络传输中目前最流行的两种数据序列化方式是JSON和Protocol Buffers。正如我之前所说的一样Protocol Buffers使用起来更加复杂一些但在数据压缩率、序列化与反序列化速度上面都有很大的优势。

另外一方面是压缩算法的选择通用的压缩算法主要是如gzipGoogle的Brotli或者Facebook的Z-standard都是压缩率更高的算法。其中如果Z-standard通过业务数据样本训练出适合的字典是目前压缩率表现最好的算法。但是各个业务维护字典的成本比较大这个时候我们的大网络平台的统一接入层又可以大显神威了。

例如我们可以抽样1%的请求数据用来训练字典,字典的下发与更新都由统一接入层负责,业务并不需要关心。

当然针对特定数据我们还有其他的压缩方法例如针对图片我们可以使用webp、hevc、SharpP等压缩率更高的格式。另外一方面基于AI的图片超清化也是一大神器QQ空间通过这个技术节约了大量的带宽成本。

安全

数据安全也是网络重中之重的一个环节在大网络平台中我们都是基于HTTPS的HTTP/2通道已经有了TLS加密。如果大家不熟悉TLS的基础知识可以参考微信后台一个小伙伴写的《TLS协议分析》

但是HTTPS带来的代价也是不小的它需要2-RTT的协商成本在弱网络下时延不可接受。同时后台服务解密的成本也十分高昂在大型企业中需要单独的集群来做这个事情。

HTTPS的优化有下面几个思路

  • 连接复用率。通过多个域名共用同一个HTTP/2连接、长连接等方式提升连接复用率。

  • 减少握手次数TLS 1.3可以实现0-RTT协商事实上在TLS 1.3 release之前微信的mmtls、Facebook的fizz、阿里的SlightSSL都已在企业内部大规模部署。

  • 性能提升。使用ecc证书代替RSA服务端签名的性能可以提升410倍但是客户端校验性能降低了约20倍从10微秒级降低到100微秒级。另外一方面可以通过Session Ticket会话复用节省一个RTT耗时。

使用HTTPS之后整个通道是不是就一定高枕无忧呢如果客户端设置了代理TLS加密的数据可以被解开并可能被利用 。这个时候我们可以在客户端将“证书锁定Certificate Pinning为了老版本兼容和证书替换的灵活性建议锁定根证书。

我们也可以对传输内容做二次加密,这块在统一接入层实现,业务服务器也同样无需关心这个流程。需要注意的是二次加密会增加客户端与服务器的处理耗时,我们需要在安全性与性能之间做一个取舍。

4. 其他优化

关于网络优化的手段还有很多一些方案可能是需要用钱堆出来的比如部署跨国的专线、加速点多IDC就近接入等。

除此之外,使用CDN服务P2P技术也是比较常用的手段,特别在直播这类场景。总的来说,网络优化我们需要综合用户体验、带宽成本以及硬件成本等多个因素来考虑。

下面为你献上一张高质量网络的全景大图。

QUIC与IPv6

今天已经讲得很多了可能还有小伙伴比较关心最近一些比较前沿的技术我简单讲一下QUIC和IPv6。

1. QUIC

QUIC协议由Google在2013年实现在2018年基于QUIC协议的HTTP更被确认为HTTP/3。在连接复用中我说过HTTP/2 + TCP会存在队首阻塞的问题基于UDP的QUIC才是终极解决方案。

如下图所示你可以把QUIC简单理解为HTTP/2.0 + TLS 1.3 + UDP。

事实上,它还有着其他的很多优势:

  • 灵活控制拥塞协议。如果想对TCP内部的拥塞控制算法等模块进行优化和升级整体周期是相对较长的。对于UDP来说我们不需要操作系统支持随时可改例如可以直接使用Google的BBR算法

  • “真”连接复用。不仅解决了队首阻塞的问题在客户端网络切换的时候也不需要重连用户使用App的体验会更加流畅。

既然QUIC那么好为什么我们在生产环境没有全部切换成QUIC呢那是因为有很多坑还没有踩完目前发现的主要问题还有

  • 创建连接成功率。主要是UDP的穿透性问题NAT局域网路由、交换机、防火墙等会禁止UDP 443通行目前QUIC在国内建连的成功率大约在95%左右。

  • 运营商支持。运营商针对UDP通道支持不足表现也不稳定。例如QoS限速丢包有些小的运营商甚至还直接不支持UDP包。

尽管有这样那样的问题但是QUIC一定是未来。当然通过大网络平台的统一接入层我们业务基本无需做什么修改。目前据我了解腾讯微博阿里都在内部逐步加大QUIC的流量具体细节可以参考我给出的链接。

2. IPv6

运维人员都会深深的感觉到IP资源的珍贵而致力于解决这个问题的IPv6却在中国一直非常沉寂。根据《2017年IPV6支持度报告》在中国只有0.38%的用户使用v6。

IPv6不仅针对IoT技术对万物互联的时代有着非常大的意义。而且它对网络性能也有正向的作用在印度经过我们测试使用IPv6网络相比IPv4连接耗时可以降低10%20%。推行IPv6后无穷无尽的IP地址意味着可以告别各种NATP2P、QUIC的连接也不再是问题。

在过去的一年,无论是阿里云还是腾讯云都做了大量IPv6的工作。当然主要也是接入层的改造尽量不需要业务服务做太多修改。

总结

移动技术发展到今天,跨终端和跨技术栈的联合优化会变得越来越普遍。有的时候我们需要跳出客户端开发的视角,从更高的维度去思考整个大网络平台。当然网络优化的水还是非常深的,有时候我们需要对协议层也有比较深入的研究,也要经常关注国外的一些新的研究成果。

2018年随着工信部发布《推进互联网协议第六版IPv6规模部署行动计划》的通知所有的云提供商需要在2020年完成IPv6的支持。QUIC在2018年被定为HTTP/3草案同时3GPP也将QUIC列入5G核心网协议第二阶段标准3GPP Release 16

随着5G、QUIC与IPv6未来在中国的普及网络优化永不止步它们将推动我们继续努力去做更多尝试让用户可以有更好的网络体验。

课后作业

你的应用使用的是哪个网络库?对于网络优化,你还有哪些实践经验?欢迎留言跟我和其他同学一起讨论。

网络优化是一个很大的话题,在课后你还需要进一步扩展学习。除了今天文章里给出的链接,这里还提供一些参考资料给你:

欢迎你点击“请朋友读”,把今天的内容分享给好友,邀请他一起学习。最后别忘了在评论区提交今天的作业,我也为认真完成作业的同学准备了丰厚的“学习加油礼包”,期待与你一起切磋进步哦。