You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

334 lines
20 KiB
Markdown

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# 34 | Kubernetes网络模型与CNI网络插件
你好我是张磊。今天我和你分享的主题是Kubernetes网络模型与CNI网络插件。
在上一篇文章中我以Flannel项目为例为你详细讲解了容器跨主机网络的两种实现方法UDP和VXLAN。
不难看到这些例子有一个共性那就是用户的容器都连接在docker0网桥上。而网络插件则在宿主机上创建了一个特殊的设备UDP模式创建的是TUN设备VXLAN模式创建的则是VTEP设备docker0与这个设备之间通过IP转发路由表进行协作。
然后,网络插件真正要做的事情,则是通过某种方法,把不同宿主机上的特殊设备连通,从而达到容器跨主机通信的目的。
实际上上面这个流程也正是Kubernetes对容器网络的主要处理方法。只不过Kubernetes是通过一个叫作CNI的接口维护了一个单独的网桥来代替docker0。这个网桥的名字就叫作CNI网桥它在宿主机上的设备名称默认是cni0。
以Flannel的VXLAN模式为例在Kubernetes环境里它的工作方式跟我们在上一篇文章中讲解的没有任何不同。只不过docker0网桥被替换成了CNI网桥而已如下所示
![](https://static001.geekbang.org/resource/image/9f/8c/9f11d8716f6d895ff6d1c813d460488c.jpg)
在这里Kubernetes为Flannel分配的子网范围是10.244.0.0/16。这个参数可以在部署的时候指定比如
```
$ kubeadm init --pod-network-cidr=10.244.0.0/16
```
也可以在部署完成后通过修改kube-controller-manager的配置文件来指定。
这时候假设Infra-container-1要访问Infra-container-2也就是Pod-1要访问Pod-2这个IP包的源地址就是10.244.0.2目的IP地址是10.244.1.3。而此时Infra-container-1里的eth0设备同样是以Veth Pair的方式连接在Node 1的cni0网桥上。所以这个IP包就会经过cni0网桥出现在宿主机上。
此时Node 1上的路由表如下所示
```
# 在Node 1上
$ route -n
Kernel IP routing table
Destination Gateway Genmask Flags Metric Ref Use Iface
...
10.244.0.0 0.0.0.0 255.255.255.0 U 0 0 0 cni0
10.244.1.0 10.244.1.0 255.255.255.0 UG 0 0 0 flannel.1
172.17.0.0 0.0.0.0 255.255.0.0 U 0 0 0 docker0
```
因为我们的IP包的目的IP地址是10.244.1.3所以它只能匹配到第二条规则也就是10.244.1.0对应的这条路由规则。
可以看到这条规则指定了本机的flannel.1设备进行处理。并且flannel.1在处理完后要将IP包转发到的网关Gateway正是“隧道”另一端的VTEP设备也就是Node 2的flannel.1设备。所以接下来的流程就跟上一篇文章中介绍过的Flannel VXLAN模式完全一样了。
需要注意的是CNI网桥只是接管所有CNI插件负责的、即Kubernetes创建的容器Pod。而此时如果你用docker run单独启动一个容器那么Docker项目还是会把这个容器连接到docker0网桥上。所以这个容器的IP地址一定是属于docker0网桥的172.17.0.0/16网段。
Kubernetes之所以要设置这样一个与docker0网桥功能几乎一样的CNI网桥主要原因包括两个方面
* 一方面Kubernetes项目并没有使用Docker的网络模型CNM所以它并不希望、也不具备配置docker0网桥的能力
* 另一方面这还与Kubernetes如何配置Pod也就是Infra容器的Network Namespace密切相关。
我们知道Kubernetes创建一个Pod的第一步就是创建并启动一个Infra容器用来“hold”住这个Pod的Network Namespace这里你可以再回顾一下专栏第13篇文章[《为什么我们需要Pod》](https://time.geekbang.org/column/article/40092)中的相关内容)。
所以CNI的设计思想就是**Kubernetes在启动Infra容器之后就可以直接调用CNI网络插件为这个Infra容器的Network Namespace配置符合预期的网络栈。**
> 备注在前面第32篇文章[《浅谈容器网络》](https://time.geekbang.org/column/article/64948)中我讲解单机容器网络时已经和你分享过一个Network Namespace的网络栈包括网卡Network Interface、回环设备Loopback Device、路由表Routing Table和iptables规则。
那么,这个网络栈的配置工作又是如何完成的呢?
为了回答这个问题我们就需要从CNI插件的部署和实现方式谈起了。
我们在部署Kubernetes的时候有一个步骤是安装kubernetes-cni包它的目的就是在宿主机上安装**CNI插件所需的基础可执行文件**。
在安装完成后,你可以在宿主机的/opt/cni/bin目录下看到它们如下所示
```
$ ls -al /opt/cni/bin/
total 73088
-rwxr-xr-x 1 root root 3890407 Aug 17 2017 bridge
-rwxr-xr-x 1 root root 9921982 Aug 17 2017 dhcp
-rwxr-xr-x 1 root root 2814104 Aug 17 2017 flannel
-rwxr-xr-x 1 root root 2991965 Aug 17 2017 host-local
-rwxr-xr-x 1 root root 3475802 Aug 17 2017 ipvlan
-rwxr-xr-x 1 root root 3026388 Aug 17 2017 loopback
-rwxr-xr-x 1 root root 3520724 Aug 17 2017 macvlan
-rwxr-xr-x 1 root root 3470464 Aug 17 2017 portmap
-rwxr-xr-x 1 root root 3877986 Aug 17 2017 ptp
-rwxr-xr-x 1 root root 2605279 Aug 17 2017 sample
-rwxr-xr-x 1 root root 2808402 Aug 17 2017 tuning
-rwxr-xr-x 1 root root 3475750 Aug 17 2017 vlan
```
这些CNI的基础可执行文件按照功能可以分为三类
**第一类叫作Main插件它是用来创建具体网络设备的二进制文件**。比如bridge网桥设备、ipvlan、loopbacklo设备、macvlan、ptpVeth Pair设备以及vlan。
我在前面提到过的Flannel、Weave等项目都属于“网桥”类型的CNI插件。所以在具体的实现中它们往往会调用bridge这个二进制文件。这个流程我马上就会详细介绍到。
**第二类叫作IPAMIP Address Management插件它是负责分配IP地址的二进制文件**。比如dhcp这个文件会向DHCP服务器发起请求host-local则会使用预先配置的IP地址段来进行分配。
**第三类是由CNI社区维护的内置CNI插件**。比如flannel就是专门为Flannel项目提供的CNI插件tuning是一个通过sysctl调整网络设备参数的二进制文件portmap是一个通过iptables配置端口映射的二进制文件bandwidth是一个使用Token Bucket Filter (TBF) 来进行限流的二进制文件。
从这些二进制文件中我们可以看到如果要实现一个给Kubernetes用的容器网络方案其实需要做两部分工作以Flannel项目为例
**首先,实现这个网络方案本身**。这一部分需要编写的其实就是flanneld进程里的主要逻辑。比如创建和配置flannel.1设备、配置宿主机路由、配置ARP和FDB表里的信息等等。
**然后实现该网络方案对应的CNI插件**。这一部分主要需要做的就是配置Infra容器里面的网络栈并把它连接在CNI网桥上。
由于Flannel项目对应的CNI插件已经被内置了所以它无需再单独安装。而对于Weave、Calico等其他项目来说我们就必须在安装插件的时候把对应的CNI插件的可执行文件放在/opt/cni/bin/目录下。
> 实际上对于Weave、Calico这样的网络方案来说它们的DaemonSet只需要挂载宿主机的/opt/cni/bin/,就可以实现插件可执行文件的安装了。你可以想一下具体应该怎么做,就当作一个课后小问题留给你去实践了。
接下来你就需要在宿主机上安装flanneld网络方案本身。而在这个过程中flanneld启动后会在每台宿主机上生成它对应的**CNI配置文件**它其实是一个ConfigMap从而告诉Kubernetes这个集群要使用Flannel作为容器网络方案。
这个CNI配置文件的内容如下所示
```
$ cat /etc/cni/net.d/10-flannel.conflist
{
"name": "cbr0",
"plugins": [
{
"type": "flannel",
"delegate": {
"hairpinMode": true,
"isDefaultGateway": true
}
},
{
"type": "portmap",
"capabilities": {
"portMappings": true
}
}
]
}
```
需要注意的是在Kubernetes中处理容器网络相关的逻辑并不会在kubelet主干代码里执行而是会在具体的CRIContainer Runtime Interface容器运行时接口实现里完成。对于Docker项目来说它的CRI实现叫作dockershim你可以在kubelet的代码里找到它。
所以接下来dockershim会加载上述的CNI配置文件。
需要注意Kubernetes目前不支持多个CNI插件混用。如果你在CNI配置目录/etc/cni/net.d里放置了多个CNI配置文件的话dockershim只会加载按字母顺序排序的第一个插件。
但另一方面CNI允许你在一个CNI配置文件里通过plugins字段定义多个插件进行协作。
比如在我们上面这个例子里Flannel项目就指定了flannel和portmap这两个插件。
**这时候dockershim会把这个CNI配置文件加载起来并且把列表里的第一个插件、也就是flannel插件设置为默认插件**。而在后面的执行过程中flannel和portmap插件会按照定义顺序被调用从而依次完成“配置容器网络”和“配置端口映射”这两步操作。
接下来我就来为你讲解一下这样一个CNI插件的工作原理。
当kubelet组件需要创建Pod的时候它第一个创建的一定是Infra容器。所以在这一步dockershim就会先调用Docker API创建并启动Infra容器紧接着执行一个叫作SetUpPod的方法。这个方法的作用就是为CNI插件准备参数然后调用CNI插件为Infra容器配置网络。
这里要调用的CNI插件就是/opt/cni/bin/flannel而调用它所需要的参数分为两部分。
**第一部分是由dockershim设置的一组CNI环境变量。**
其中最重要的环境变量参数叫作CNI\_COMMAND。它的取值只有两种ADD和DEL。
**这个ADD和DEL操作就是CNI插件唯一需要实现的两个方法。**
其中ADD操作的含义是把容器添加到CNI网络里DEL操作的含义则是把容器从CNI网络里移除掉。
而对于网桥类型的CNI插件来说这两个操作意味着把容器以Veth Pair的方式“插”到CNI网桥上或者从网桥上“拔”掉。
接下来我以ADD操作为重点进行讲解。
CNI的ADD操作需要的参数包括容器里网卡的名字eth0CNI\_IFNAME、Pod的Network Namespace文件的路径CNI\_NETNS、容器的IDCNI\_CONTAINERID等。这些参数都属于上述环境变量里的内容。其中PodInfra容器的Network Namespace文件的路径我在前面讲解容器基础的时候提到过/proc/<容器进程的PID>/ns/net。
> 备注这里你也可以再回顾下专栏第8篇文章[《白话容器基础重新认识Docker容器》](https://time.geekbang.org/column/article/18119)中的相关内容。
除此之外,在 CNI 环境变量里还有一个叫作CNI\_ARGS的参数。通过这个参数CRI实现比如dockershim就可以以Key-Value的格式传递自定义信息给网络插件。这是用户将来自定义CNI协议的一个重要方法。
**第二部分则是dockershim从CNI配置文件里加载到的、默认插件的配置信息。**
这个配置信息在CNI中被叫作Network Configuration它的完整定义你可以参考[这个文档](https://github.com/containernetworking/cni/blob/master/SPEC.md#network-configuration)。dockershim会把Network Configuration以JSON数据的格式通过标准输入stdin的方式传递给Flannel CNI插件。
而有了这两部分参数Flannel CNI插件实现ADD操作的过程就非常简单了。
不过需要注意的是Flannel的CNI配置文件 /etc/cni/net.d/10-flannel.conflist里有这么一个字段叫作delegate
```
...
"delegate": {
"hairpinMode": true,
"isDefaultGateway": true
}
```
Delegate字段的意思是这个CNI插件并不会自己做事儿而是会调用Delegate指定的某种CNI内置插件来完成。对于Flannel来说它调用的Delegate插件就是前面介绍到的CNI bridge插件。
所以说dockershim对Flannel CNI插件的调用其实就是走了个过场。Flannel CNI插件唯一需要做的就是对dockershim传来的Network Configuration进行补充。比如将Delegate的Type字段设置为bridge将Delegate的IPAM字段设置为host-local等。
经过Flannel CNI插件补充后的、完整的Delegate字段如下所示
```
{
"hairpinMode":true,
"ipMasq":false,
"ipam":{
"routes":[
{
"dst":"10.244.0.0/16"
}
],
"subnet":"10.244.1.0/24",
"type":"host-local"
},
"isDefaultGateway":true,
"isGateway":true,
"mtu":1410,
"name":"cbr0",
"type":"bridge"
}
```
其中ipam字段里的信息比如10.244.1.0/24读取自Flannel在宿主机上生成的Flannel配置文件宿主机上的/run/flannel/subnet.env文件。
接下来Flannel CNI插件就会调用CNI bridge插件也就是执行/opt/cni/bin/bridge二进制文件。
这一次调用CNI bridge插件需要的两部分参数的第一部分、也就是CNI环境变量并没有变化。所以它里面的CNI\_COMMAND参数的值还是“ADD”。
而第二部分Network Configration正是上面补充好的Delegate字段。Flannel CNI插件会把Delegate字段的内容以标准输入stdin的方式传递给CNI bridge插件。
> 此外Flannel CNI插件还会把Delegate字段以JSON文件的方式保存在/var/lib/cni/flannel目录下。这是为了给后面删除容器调用DEL操作时使用的。
有了这两部分参数接下来CNI bridge插件就可以“代表”Flannel进行“将容器加入到CNI网络里”这一步操作了。而这一部分内容与容器Network Namespace密切相关所以我要为你详细讲解一下。
首先CNI bridge插件会在宿主机上检查CNI网桥是否存在。如果没有的话那就创建它。这相当于在宿主机上执行
```
# 在宿主机上
$ ip link add cni0 type bridge
$ ip link set cni0 up
```
接下来CNI bridge插件会通过Infra容器的Network Namespace文件进入到这个Network Namespace里面然后创建一对Veth Pair设备。
紧接着它会把这个Veth Pair的其中一端“移动”到宿主机上。这相当于在容器里执行如下所示的命令
```
#在容器里
# 创建一对Veth Pair设备。其中一个叫作eth0另一个叫作vethb4963f3
$ ip link add eth0 type veth peer name vethb4963f3
# 启动eth0设备
$ ip link set eth0 up
# 将Veth Pair设备的另一端也就是vethb4963f3设备放到宿主机也就是Host Namespace
$ ip link set vethb4963f3 netns $HOST_NS
# 通过Host Namespace启动宿主机上的vethb4963f3设备
$ ip netns exec $HOST_NS ip link set vethb4963f3 up
```
这样vethb4963f3就出现在了宿主机上而且这个Veth Pair设备的另一端就是容器里面的eth0。
当然你可能已经想到上述创建Veth Pair设备的操作其实也可以先在宿主机上执行然后再把该设备的一端放到容器的Network Namespace里这个原理是一样的。
不过CNI插件之所以要“反着”来是因为CNI里对Namespace操作函数的设计就是如此如下所示
```
err := containerNS.Do(func(hostNS ns.NetNS) error {
...
return nil
})
```
这个设计其实很容易理解。在编程时容器的Namespace是可以直接通过Namespace文件拿到的而Host Namespace则是一个隐含在上下文的参数。所以像上面这样先通过容器Namespace进入容器里面然后再反向操作Host Namespace对于编程来说要更加方便。
接下来CNI bridge插件就可以把vethb4963f3设备连接在CNI网桥上。这相当于在宿主机上执行
```
# 在宿主机上
$ ip link set vethb4963f3 master cni0
```
在将vethb4963f3设备连接在CNI网桥之后CNI bridge插件还会为它设置**Hairpin Mode发夹模式**。这是因为在默认情况下网桥设备是不允许一个数据包从一个端口进来后再从这个端口发出去的。但是它允许你为这个端口开启Hairpin Mode从而取消这个限制。
这个特性,主要用在容器需要通过[NAT](https://en.wikipedia.org/wiki/Network_address_translation)(即:端口映射)的方式,“自己访问自己”的场景下。
举个例子比如我们执行docker run -p 8080:80就是在宿主机上通过iptables设置了一条[DNAT](http://linux-ip.net/html/nat-dnat.html)(目的地址转换)转发规则。这条规则的作用是,当宿主机上的进程访问“<宿主机的IP地址>:8080”时iptables会把该请求直接转发到“<容器的IP地址>:80”上。也就是说这个请求最终会经过docker0网桥进入容器里面。
但如果你是在容器里面访问宿主机的8080端口那么这个容器里发出的IP包会经过vethb4963f3设备端口和docker0网桥来到宿主机上。此时根据上述DNAT规则这个IP包又需要回到docker0网桥并且还是通过vethb4963f3端口进入到容器里。所以这种情况下我们就需要开启vethb4963f3端口的Hairpin Mode了。
所以说Flannel插件要在CNI配置文件里声明hairpinMode=true。这样将来这个集群里的Pod才可以通过它自己的Service访问到自己。
接下来CNI bridge插件会调用CNI ipam插件从ipam.subnet字段规定的网段里为容器分配一个可用的IP地址。然后CNI bridge插件就会把这个IP地址添加在容器的eth0网卡上同时为容器设置默认路由。这相当于在容器里执行
```
# 在容器里
$ ip addr add 10.244.0.2/24 dev eth0
$ ip route add default via 10.244.0.1 dev eth0
```
最后CNI bridge插件会为CNI网桥添加IP地址。这相当于在宿主机上执行
```
# 在宿主机上
$ ip addr add 10.244.0.1/24 dev cni0
```
在执行完上述操作之后CNI插件会把容器的IP地址等信息返回给dockershim然后被kubelet添加到Pod的Status字段。
至此CNI插件的ADD方法就宣告结束了。接下来的流程就跟我们上一篇文章中容器跨主机通信的过程完全一致了。
需要注意的是对于非网桥类型的CNI插件上述“将容器添加到CNI网络”的操作流程以及网络方案本身的工作原理就都不太一样了。我将会在后续文章中继续为你分析这部分内容。
## 总结
在本篇文章中我为你详细讲解了Kubernetes中CNI网络的实现原理。根据这个原理你其实就很容易理解所谓的“Kubernetes网络模型”了
1. 所有容器都可以直接使用IP地址与其他容器通信而无需使用NAT。
2. 所有宿主机都可以直接使用IP地址与所有容器通信而无需使用NAT。反之亦然。
3. 容器自己“看到”的自己的IP地址和别人宿主机或者容器看到的地址是完全一样的。
可以看到,这个网络模型,其实可以用一个字总结,那就是“通”。
容器与容器之间要“通”容器与宿主机之间也要“通”。并且Kubernetes要求这个“通”还必须是直接基于容器和宿主机的IP地址来进行的。
当然,考虑到不同用户之间的隔离性,在很多场合下,我们还要求容器之间的网络“不通”。这个问题,我会在后面的文章中会为你解决。
## 思考题
请你思考一下为什么Kubernetes项目不自己实现容器网络而是要通过 CNI 做一个如此简单的假设呢?
感谢你的收听,欢迎你给我留言,也欢迎分享给更多的朋友一起阅读。