You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

189 lines
13 KiB
Markdown

2 years ago
# 第35讲 | 二进制类RPC协议还是叫NBA吧总说全称多费劲
前面我们讲了两个常用文本类的RPC协议对于陌生人之间的沟通用NBA、CBA这样的缩略语会使得协议约定非常不方便。
在讲CDN和DNS的时候我们讲过接入层的设计对于静态资源或者动态资源静态化的部分都可以做缓存。但是对于下单、支付等交易场景还是需要调用API。
对于微服务的架构API需要一个API网关统一的管理。API网关有多种实现方式用Nginx或者OpenResty结合Lua脚本是常用的方式。在上一节讲过的Spring Cloud体系中有个组件Zuul也是干这个的。
## 数据中心内部是如何相互调用的?
API网关用来管理API但是API的实现一般在一个叫作**Controller层**的地方。这一层对外提供API。由于是让陌生人访问的我们能看到目前业界主流的基本都是RESTful的API是面向大规模互联网应用的。
![](https://static001.geekbang.org/resource/image/f0/b8/f08ef51889add2c26c57c9edd3db93b8.jpg)
在Controller之内就是咱们互联网应用的业务逻辑实现。上节讲RESTful的时候说过业务逻辑的实现最好是无状态的从而可以横向扩展但是资源的状态还需要服务端去维护。资源的状态不应该维护在业务逻辑层而是在最底层的持久化层一般会使用分布式数据库和ElasticSearch。
这些服务端的状态例如订单、库存、商品等都是重中之重都需要持久化到硬盘上数据不能丢但是由于硬盘读写性能差因而持久化层往往吞吐量不能达到互联网应用要求的吞吐量因而前面要有一层缓存层使用Redis或者memcached将请求拦截一道不能让所有的请求都进入数据库“中军大营”。
缓存和持久化层之上一般是**基础服务层**,这里面提供一些原子化的接口。例如,对于用户、商品、订单、库存的增删查改,将缓存和数据库对再上层的业务逻辑屏蔽一道。有了这一层,上层业务逻辑看到的都是接口,而不会调用数据库和缓存。因而对于缓存层的扩容,数据库的分库分表,所有的改变,都截止到这一层,这样有利于将来对于缓存和数据库的运维。
再往上就是**组合层**。因为基础服务层只是提供简单的接口,实现简单的业务逻辑,而复杂的业务逻辑,比如下单,要扣优惠券,扣减库存等,就要在组合服务层实现。
这样Controller层、组合服务层、基础服务层就会相互调用这个调用是在数据中心内部的量也会比较大还是使用RPC的机制实现的。
由于服务比较多,需要一个单独的注册中心来做服务发现。服务提供方会将自己提供哪些服务注册到注册中心中去,同时服务消费方订阅这个服务,从而可以对这个服务进行调用。
调用的时候有一个问题这里的RPC调用应该用二进制还是文本类其实文本的最大问题是占用字节数目比较多。比如数字123其实本来二进制8位就够了但是如果变成文本就成了字符串123。如果是UTF-8编码的话就是三个字节如果是UTF-16就是六个字节。同样的信息要多费好多的空间传输起来也更加占带宽时延也高。
因而对于数据中心内部的相互调用,很多公司选型的时候,还是希望采用更加省空间和带宽的二进制的方案。
这里一个著名的例子就是Dubbo服务化框架二进制的RPC方式。
![](https://static001.geekbang.org/resource/image/35/5d/357ed1526c888e5efb18e7781ae7c35d.jpg)
Dubbo会在客户端的本地启动一个Proxy其实就是客户端的Stub对于远程的调用都通过这个Stub进行封装。
接下来Dubbo会从注册中心获取服务端的列表根据路由规则和负载均衡规则在多个服务端中选择一个最合适的服务端进行调用。
调用服务端的时候首先要进行编码和序列化形成Dubbo头和序列化的方法和参数。将编码好的数据交给网络客户端进行发送网络服务端收到消息后进行解码。然后将任务分发给某个线程进行处理在线程中会调用服务端的代码逻辑然后返回结果。
这个过程和经典的RPC模式何其相似啊
## 如何解决协议约定问题?
接下来我们还是来看RPC的三大问题其中注册发现问题已经通过注册中心解决了。下面我们就来看协议约定问题。
Dubbo中默认的RPC协议是Hessian2。为了保证传输的效率Hessian2将远程调用序列化为二进制进行传输并且可以进行一定的压缩。这个时候你可能会疑惑同为二进制的序列化协议Hessian2和前面的二进制的RPC有什么区别呢这不绕了一圈又回来了吗
Hessian2是解决了一些问题的。例如原来要定义一个协议文件然后通过这个文件生成客户端和服务端的Stub才能进行相互调用这样使得修改就会不方便。Hessian2不需要定义这个协议文件而是自描述的。什么是自描述呢
所谓自描述就是关于调用哪个函数参数是什么另一方不需要拿到某个协议文件、拿到二进制靠它本身根据Hessian2的规则就能解析出来。
原来有协议文件的场景有点儿像两个人事先约定好0表示方法add然后后面会传两个数。服务端把两个数加起来这样一方发送012另一方知道是将1和2加起来但是不知道协议文件的当它收到012的时候完全不知道代表什么意思。
而自描述的场景就像两个人说的每句话都带前因后果。例如传递的是“函数add第一个参数1第二个参数2”。这样无论谁拿到这个表述都知道是什么意思。但是只不过都是以二进制的形式编码的。这其实相当于综合了XML和二进制共同优势的一个协议。
Hessian2是如何做到这一点的呢这就需要去看Hessian2的序列化的[语法描述文件](http://hessian.caucho.com/doc/hessian-serialization.html)。
![](https://static001.geekbang.org/resource/image/61/66/618bad147f6933f61ef56cf73d671166.jpg)
看起来很复杂,编译原理里面是有这样的语法规则的。
我们从Top看起下一层是value直到形成一棵树。这里面的有个思想为了防止歧义每一个类型的起始数字都设置成为独一无二的。这样解析的时候看到这个数字就知道后面跟的是什么了。
这里还是以加法为例子“add(2,3)”被序列化之后是什么样的呢?
```
H x02 x00 # Hessian 2.0
C # RPC call
x03 add # method "add"
x92 # two arguments
x92 # 2 - argument 1
x93 # 3 - argument 2
```
* H开头表示使用的协议是HessionH的二进制是0x48。
* C开头表示这是一个RPC调用。
* 0x03表示方法名是三个字符。
* 0x92表示有两个参数。其实这里存的应该是2之所以加上0x90就是为了防止歧义表示这里一定是一个int。
* 第一个参数是2编码为0x92第二个参数是3编码为0x93。
这个就叫作**自描述**。
另外Hessian2是面向对象的可以传输一个对象。
```
class Car {
String color;
String model;
}
out.writeObject(new Car("red", "corvette"));
out.writeObject(new Car("green", "civic"));
---
C # object definition (#0)
x0b example.Car # type is example.Car
x92 # two fields
x05 color # color field name
x05 model # model field name
O # object def (long form)
x90 # object definition #0
x03 red # color field value
x08 corvette # model field value
x60 # object def #0 (short form)
x05 green # color field value
x05 civic # model field value
```
首先定义这个类。对于类型的定义也传过去因而也是自描述的。类名为example.Car字符长11位因而前面长度为0x0b。有两个成员变量一个是color一个是model字符长5位因而前面长度0x05,。
然后传输的对象引用这个类。由于类定义在位置0因而对象会指向这个位置0编码为0x90。后面red和corvette是两个成员变量的值字符长分别为3和8。
接着又传输一个属于相同类的对象。这时候就不保存对于类的引用了只保存一个0x60表示同上就可以了。
可以看出Hessian2真的是能压缩尽量压缩多一个Byte都不传。
## 如何解决RPC传输问题
接下来我们再来看Dubbo的RPC传输问题。前面我们也说了基于Socket实现一个高性能的服务端是很复杂的一件事情在Dubbo里面使用了Netty的网络传输框架。
Netty是一个非阻塞的基于事件的网络传输框架在服务端启动的时候会监听一个端口并注册以下的事件。
* **连接事件**当收到客户端的连接事件时会调用void connected(Channel channel) 方法。
* 当**可写事件**触发时会调用void sent(Channel channel, Object message),服务端向客户端返回响应数据。
* 当**可读事件**触发时会调用void received(Channel channel, Object message) ,服务端在收到客户端的请求数据。
* 当**发生异常**时会调用void caught(Channel channel, Throwable exception)。
当事件触发之后,服务端在这些函数中的逻辑,可以选择直接在这个函数里面进行操作,还是将请求分发到线程池去处理。一般异步的数据读写都需要另外的线程池参与,在线程池中会调用真正的服务端业务代码逻辑,返回结果。
Hessian2是Dubbo默认的RPC序列化方式当然还有其他选择。例如Dubbox从Spark那里借鉴Kryo实现高性能的序列化。
到这里我们说了数据中心里面的相互调用。为了高性能大家都愿意用二进制但是为什么后期Spring Cloud又兴起了呢这是因为并发量越来越大已经到了微服务的阶段。同原来的SOA不同微服务粒度更细模块之间的关系更加复杂。
在上面的架构中如果使用二进制的方式进行序列化虽然不用协议文件来生成Stub但是对于接口的定义以及传的对象DTO还是需要共享JAR。因为只有客户端和服务端都有这个JAR才能成功地序列化和反序列化。
但当关系复杂的时候JAR的依赖也变得异常复杂难以维护而且如果在DTO里加一个字段双方的JAR没有匹配好也会导致序列化不成功而且还有可能循环依赖。这个时候一般有两种选择。
第一种,建立严格的项目管理流程。
* 不允许循环调用,不允许跨层调用,只准上层调用下层,不允许下层调用上层。
* 接口要保持兼容性,不兼容的接口新添加而非改原来的,当接口通过监控,发现不用的时候,再下掉。
* 升级的时候,先升级服务提供端,再升级服务消费端。
第二种改用RESTful的方式。
* 使用Spring Cloud消费端和提供端不用共享JAR各声明各的只要能变成JSON就行而且JSON也是比较灵活的。
* 使用RESTful的方式性能会降低所以需要通过横向扩展来抵消单机的性能损耗。
这个时候,就看架构师的选择喽!
## 小结
好了,这节就到这里了,我们来总结一下。
* RESTful API对于接入层和Controller层之外的调用已基本形成事实标准但是随着内部服务之间的调用越来越多性能也越来越重要于是Dubbo的RPC框架有了用武之地。
* Dubbo通过注册中心解决服务发现问题通过Hessian2序列化解决协议约定的问题通过Netty解决网络传输的问题。
* 在更加复杂的微服务场景下Spring Cloud的RESTful方式在内部调用也会被考虑主要是JAR包的依赖和管理问题。
最后,给你留两个思考题。
1. 对于微服务模式下的RPC框架的选择Dubbo和SpringCloud各有优缺点你能做个详细的对比吗
2. 到目前为止我们讲过的RPC还没有跨语言调用的场景你知道如果跨语言应该怎么办吗
我们的专栏更新到第35讲不知你掌握得如何每节课后我留的思考题你都有没有认真思考并在留言区写下答案呢我会从**已发布的文章中选出一批认真留言的同学**,赠送学习奖励礼券和我整理的独家网络协议知识图谱。
欢迎你留言和我讨论。趣谈网络协议,我们下期见!