You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

259 lines
13 KiB
Markdown

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# 37 | 找到容器不容易Service、DNS与服务发现
你好我是张磊。今天我和你分享的主题是找到容器不容易之Service、DNS与服务发现。
在前面的文章中我们已经多次使用到了Service这个Kubernetes里重要的服务对象。而Kubernetes之所以需要Service一方面是因为Pod的IP不是固定的另一方面则是因为一组Pod实例之间总会有负载均衡的需求。
一个最典型的Service定义如下所示
```
apiVersion: v1
kind: Service
metadata:
name: hostnames
spec:
selector:
app: hostnames
ports:
- name: default
protocol: TCP
port: 80
targetPort: 9376
```
这个Service的例子相信你不会陌生。其中我使用了selector字段来声明这个Service只代理携带了app=hostnames标签的Pod。并且这个Service的80端口代理的是Pod的9376端口。
然后我们的应用的Deployment如下所示
```
apiVersion: apps/v1
kind: Deployment
metadata:
name: hostnames
spec:
selector:
matchLabels:
app: hostnames
replicas: 3
template:
metadata:
labels:
app: hostnames
spec:
containers:
- name: hostnames
image: k8s.gcr.io/serve_hostname
ports:
- containerPort: 9376
protocol: TCP
```
这个应用的作用就是每次访问9376端口时返回它自己的hostname。
而被selector选中的Pod就称为Service的Endpoints你可以使用kubectl get ep命令看到它们如下所示
```
$ kubectl get endpoints hostnames
NAME ENDPOINTS
hostnames 10.244.0.5:9376,10.244.0.6:9376,10.244.0.7:9376
```
需要注意的是只有处于Running状态且readinessProbe检查通过的Pod才会出现在Service的Endpoints列表里。并且当某一个Pod出现问题时Kubernetes会自动把它从Service里摘除掉。
而此时通过该Service的VIP地址10.0.1.175你就可以访问到它所代理的Pod了
```
$ kubectl get svc hostnames
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
hostnames ClusterIP 10.0.1.175 <none> 80/TCP 5s
$ curl 10.0.1.175:80
hostnames-0uton
$ curl 10.0.1.175:80
hostnames-yp2kp
$ curl 10.0.1.175:80
hostnames-bvc05
```
这个VIP地址是Kubernetes自动为Service分配的。而像上面这样通过三次连续不断地访问Service的VIP地址和代理端口80它就为我们依次返回了三个Pod的hostname。这也正印证了Service提供的是Round Robin方式的负载均衡。对于这种方式我们称为ClusterIP模式的Service。
你可能一直比较好奇Kubernetes里的Service究竟是如何工作的呢
实际上,**Service是由kube-proxy组件加上iptables来共同实现的。**
举个例子对于我们前面创建的名叫hostnames的Service来说一旦它被提交给Kubernetes那么kube-proxy就可以通过Service的Informer感知到这样一个Service对象的添加。而作为对这个事件的响应它就会在宿主机上创建这样一条iptables规则你可以通过iptables-save看到它如下所示
```
-A KUBE-SERVICES -d 10.0.1.175/32 -p tcp -m comment --comment "default/hostnames: cluster IP" -m tcp --dport 80 -j KUBE-SVC-NWV5X2332I4OT4T3
```
可以看到这条iptables规则的含义是凡是目的地址是10.0.1.175、目的端口是80的IP包都应该跳转到另外一条名叫KUBE-SVC-NWV5X2332I4OT4T3的iptables链进行处理。
而我们前面已经看到10.0.1.175正是这个Service的VIP。所以这一条规则就为这个Service设置了一个固定的入口地址。并且由于10.0.1.175只是一条iptables规则上的配置并没有真正的网络设备所以你ping这个地址是不会有任何响应的。
那么我们即将跳转到的KUBE-SVC-NWV5X2332I4OT4T3规则又有什么作用呢
实际上,它是一组规则的集合,如下所示:
```
-A KUBE-SVC-NWV5X2332I4OT4T3 -m comment --comment "default/hostnames:" -m statistic --mode random --probability 0.33332999982 -j KUBE-SEP-WNBA2IHDGP2BOBGZ
-A KUBE-SVC-NWV5X2332I4OT4T3 -m comment --comment "default/hostnames:" -m statistic --mode random --probability 0.50000000000 -j KUBE-SEP-X3P2623AGDH6CDF3
-A KUBE-SVC-NWV5X2332I4OT4T3 -m comment --comment "default/hostnames:" -j KUBE-SEP-57KPRZ3JQVENLNBR
```
可以看到这一组规则实际上是一组随机模式mode random的iptables链。
而随机转发的目的地分别是KUBE-SEP-WNBA2IHDGP2BOBGZ、KUBE-SEP-X3P2623AGDH6CDF3和KUBE-SEP-57KPRZ3JQVENLNBR。
而这三条链指向的最终目的地其实就是这个Service代理的三个Pod。所以这一组规则就是Service实现负载均衡的位置。
需要注意的是iptables规则的匹配是从上到下逐条进行的所以为了保证上述三条规则每条被选中的概率都相同我们应该将它们的probability字段的值分别设置为1/30.333…、1/2和1。
这么设置的原理很简单第一条规则被选中的概率就是1/3而如果第一条规则没有被选中那么这时候就只剩下两条规则了所以第二条规则的probability就必须设置为1/2类似地最后一条就必须设置为1。
你可以想一下如果把这三条规则的probability字段的值都设置成1/3最终每条规则被选中的概率会变成多少。
通过查看上述三条链的明细我们就很容易理解Service进行转发的具体原理了如下所示
```
-A KUBE-SEP-57KPRZ3JQVENLNBR -s 10.244.3.6/32 -m comment --comment "default/hostnames:" -j MARK --set-xmark 0x00004000/0x00004000
-A KUBE-SEP-57KPRZ3JQVENLNBR -p tcp -m comment --comment "default/hostnames:" -m tcp -j DNAT --to-destination 10.244.3.6:9376
-A KUBE-SEP-WNBA2IHDGP2BOBGZ -s 10.244.1.7/32 -m comment --comment "default/hostnames:" -j MARK --set-xmark 0x00004000/0x00004000
-A KUBE-SEP-WNBA2IHDGP2BOBGZ -p tcp -m comment --comment "default/hostnames:" -m tcp -j DNAT --to-destination 10.244.1.7:9376
-A KUBE-SEP-X3P2623AGDH6CDF3 -s 10.244.2.3/32 -m comment --comment "default/hostnames:" -j MARK --set-xmark 0x00004000/0x00004000
-A KUBE-SEP-X3P2623AGDH6CDF3 -p tcp -m comment --comment "default/hostnames:" -m tcp -j DNAT --to-destination 10.244.2.3:9376
```
可以看到这三条链其实是三条DNAT规则。但在DNAT规则之前iptables对流入的IP包还设置了一个“标志”set-xmark。这个“标志”的作用我会在下一篇文章再为你讲解。
而DNAT规则的作用就是在PREROUTING检查点之前也就是在路由之前将流入IP包的目的地址和端口改成to-destination所指定的新的目的地址和端口。可以看到这个目的地址和端口正是被代理Pod的IP地址和端口。
这样访问Service VIP的IP包经过上述iptables处理之后就已经变成了访问具体某一个后端Pod的IP包了。不难理解这些Endpoints对应的iptables规则正是kube-proxy通过监听Pod的变化事件在宿主机上生成并维护的。
以上就是Service最基本的工作原理。
此外你可能已经听说过Kubernetes的kube-proxy还支持一种叫作IPVS的模式。这又是怎么一回事儿呢
其实通过上面的讲解你可以看到kube-proxy通过iptables处理Service的过程其实需要在宿主机上设置相当多的iptables规则。而且kube-proxy还需要在控制循环里不断地刷新这些规则来确保它们始终是正确的。
不难想到当你的宿主机上有大量Pod的时候成百上千条iptables规则不断地被刷新会大量占用该宿主机的CPU资源甚至会让宿主机“卡”在这个过程中。所以说**一直以来基于iptables的Service实现都是制约Kubernetes项目承载更多量级的Pod的主要障碍。**
而IPVS模式的Service就是解决这个问题的一个行之有效的方法。
IPVS模式的工作原理其实跟iptables模式类似。当我们创建了前面的Service之后kube-proxy首先会在宿主机上创建一个虚拟网卡叫作kube-ipvs0并为它分配Service VIP作为IP地址如下所示
```
# ip addr
...
73kube-ipvs0<BROADCAST,NOARP> mtu 1500 qdisc noop state DOWN qlen 1000
link/ether 1a:ce:f5:5f:c1:4d brd ff:ff:ff:ff:ff:ff
inet 10.0.1.175/32 scope global kube-ipvs0
valid_lft forever preferred_lft forever
```
而接下来kube-proxy就会通过Linux的IPVS模块为这个IP地址设置三个IPVS虚拟主机并设置这三个虚拟主机之间使用轮询模式(rr)来作为负载均衡策略。我们可以通过ipvsadm查看到这个设置如下所示
```
# ipvsadm -ln
IP Virtual Server version 1.2.1 (size=4096)
Prot LocalAddress:Port Scheduler Flags
-> RemoteAddress:Port Forward Weight ActiveConn InActConn
TCP 10.102.128.4:80 rr
-> 10.244.3.6:9376 Masq 1 0 0
-> 10.244.1.7:9376 Masq 1 0 0
-> 10.244.2.3:9376 Masq 1 0 0
```
可以看到这三个IPVS虚拟主机的IP地址和端口对应的正是三个被代理的Pod。
这时候任何发往10.102.128.4:80的请求就都会被IPVS模块转发到某一个后端Pod上了。
而相比于iptablesIPVS在内核中的实现其实也是基于Netfilter的NAT模式所以在转发这一层上理论上IPVS并没有显著的性能提升。但是IPVS并不需要在宿主机上为每个Pod设置iptables规则而是把对这些“规则”的处理放到了内核态从而极大地降低了维护这些规则的代价。这也正印证了我在前面提到过的“将重要操作放入内核态”是提高性能的重要手段。
> 备注这里你可以再回顾下第33篇文章[《深入解析容器跨主机网络》](https://time.geekbang.org/column/article/65287)中的相关内容。
不过需要注意的是IPVS模块只负责上述的负载均衡和代理功能。而一个完整的Service流程正常工作所需要的包过滤、SNAT等操作还是要靠iptables来实现。只不过这些辅助性的iptables规则数量有限也不会随着Pod数量的增加而增加。
所以在大规模集群里我非常建议你为kube-proxy设置proxy-mode=ipvs来开启这个功能。它为Kubernetes集群规模带来的提升还是非常巨大的。
**此外我在前面的文章中还介绍过Service与DNS的关系。**
在Kubernetes中Service和Pod都会被分配对应的DNS A记录从域名解析IP的记录
对于ClusterIP模式的Service来说比如我们上面的例子它的A记录的格式是..svc.cluster.local。当你访问这条A记录的时候它解析到的就是该Service的VIP地址。
而对于指定了clusterIP=None的Headless Service来说它的A记录的格式也是..svc.cluster.local。但是当你访问这条A记录的时候它返回的是所有被代理的Pod的IP地址的集合。当然如果你的客户端没办法解析这个集合的话它可能会只会拿到第一个Pod的IP地址。
此外对于ClusterIP模式的Service来说它代理的Pod被自动分配的A记录的格式是..pod.cluster.local。这条记录指向Pod的IP地址。
而对Headless Service来说它代理的Pod被自动分配的A记录的格式是...svc.cluster.local。这条记录也指向Pod的IP地址。
但如果你为Pod指定了Headless Service并且Pod本身声明了hostname和subdomain字段那么这时候Pod的A记录就会变成<podhostname>...svc.cluster.local比如
```
apiVersion: v1
kind: Service
metadata:
name: default-subdomain
spec:
selector:
name: busybox
clusterIP: None
ports:
- name: foo
port: 1234
targetPort: 1234
---
apiVersion: v1
kind: Pod
metadata:
name: busybox1
labels:
name: busybox
spec:
hostname: busybox-1
subdomain: default-subdomain
containers:
- image: busybox
command:
- sleep
- "3600"
name: busybox
```
在上面这个Service和Pod被创建之后你就可以通过busybox-1.default-subdomain.default.svc.cluster.local解析到这个Pod的IP地址了。
需要注意的是在Kubernetes里/etc/hosts文件是单独挂载的这也是为什么kubelet能够对hostname进行修改并且Pod重建后依然有效的原因。这跟Docker的Init层是一个原理。
## 总结
在这篇文章里我为你详细讲解了Service的工作原理。实际上Service机制以及Kubernetes里的DNS插件都是在帮助你解决同样一个问题如何找到我的某一个容器
这个问题在平台级项目中往往就被称作服务发现当我的一个服务Pod的IP地址是不固定的且没办法提前获知时我该如何通过一个固定的方式访问到这个Pod呢
而我在这里讲解的、ClusterIP模式的Service为你提供的就是一个Pod的稳定的IP地址即VIP。并且这里Pod和Service的关系是可以通过Label确定的。
而Headless Service为你提供的则是一个Pod的稳定的DNS名字并且这个名字是可以通过Pod名字和Service名字拼接出来的。
在实际的场景里,你应该根据自己的具体需求进行合理选择。
## 思考题
请问Kubernetes的Service的负载均衡策略在iptables和ipvs模式下都有哪几种具体工作模式是怎样的
感谢你的收听,欢迎你给我留言,也欢迎分享给更多的朋友一起阅读。