今天要讲的主题是 Linux VXLAN,啥玩意?VXLAN?这有啥用?
先说说 VXLAN 是啥吧
VXLAN(Virtual eXtensible Local Area Network)是一种网络虚拟化技术,它能在三层网络基础上建立二层网络隧道,从而实现跨地域的二层互连,VXLAN可以改进大量虚拟机部署时所面临的租户隔离、扩展与可移植性问题,满足云计算对逻辑网络的需求。
VXLAN在源设备与目的设备之间建立一条逻辑VXLAN隧道,采用MAC in UDP(User Datagram Protocol)封装方式,将虚拟机发出的原始报文封装在UDP报文中,在外层使用物理网络的IP报文封装,这样可以通过传统网络进行路由与转发,从而使虚拟机彻底摆脱传统二、三层网络的结构限制。
上面说的比较枯燥,简单点来说,在当前云计算环境下,VXLAN完美的满足了多租户隔离、虚拟机跨地域/网络动态迁移等场景需求,也减少了物理网络对海量虚拟机的MAC、IP管理开销(被封装了)等等等,是当前主流的网络虚拟化技术。
了解点 VXLAN 的一些名词
什么是VXLAN VTEP?
VTEP(VXLAN Tunnel Endpoints,VXLAN隧道端点)是VXLAN网络的边缘设备,是VXLAN隧道的起点和终点,负责数据包的VXLAN封装与解封装。
什么是VXLAN VNI?
VNI(VXLAN Network Identifier,VXLAN 网络标识符),VNI是一种类似于VLAN ID的用户标识,一个VNI代表了一个租户,属于不同VNI的虚拟机之间不能直接进行二层通信。
VNI在数据包之中占24比特,可支持1600万个VXLAN的同时存在,远多于VLAN的4094个,因此说可以支持大规模租户和海量虚拟机的部署。
Linux VXLAN 的配置方式
说到本文正题了,在Linux上支持多种VXLAN的配置方式,一般我们能看到的是单播模式,也就是点对点配置VXLAN;另外也支持多播/组播模式,可以理解为支持在一个组内的VTEP节点之间的VXLAN通讯。
还有其它的使用方式,比如借助于控制平面来实现VXLAN的二层、三层互通,这个本文暂且不涉及,在后续文章中会进行更新。
Linux 对VXLAN的支持同样有内核版本需求,从kernel 3.7 版本开始,Linux就开始支持VXLAN;到了Kernel 3.12版本,Linux对VXLAN的支持已经完备,支持单播和组播,IPv4和IPv6等,所以大家如果使用CentOS,需要在8及以上版本使用,或者需要手工升级Kernel版本。
下面来具体介绍一下如何在Linux上实现VXLAN的配置与使用。
点对点方式配置VXLAN
先来看看最简单的点对点 VXLAN 网络,环境中有两台主机node01、node02,充当VXLAN环境中的VTEP节点,通过它们的物理IP实现VXLAN互通。 节点的物理IP我们可以理解成Underlay IP,VXLAN IP可以理解为Overlay IP。
首先,在node01上创建VXLAN100,设置vni为100:
$ ip link add VXLAN100 type VXLAN \
id 100 \
dstport 4789 \
remote 192.168.1.202 \
local 192.168.1.201
- id 100:指定 VNI(VXLAN Network ID)的值,也就是常说的VXLAN id
- dstport:vtep节点之间通信的端口,这里指定使用常规的 4789 端口
- remote 192.168.1.202:远程 VTEP 节点的 Underlay IP 地址
- local 192.168.1.201:本机 VTEP 节点的 Underlay IP 地址
对创建出来的VXLAN接口配置 Overlay 地址:
$ ip link set VXLAN100 up
$ ip addr add 10.1.1.11/24 dev VXLAN100
最后检查一下配置:
[root@node01 ~]# ip -d link show dev VXLAN100
6: VXLAN100: mtu 1500 qdisc noqueue state UNKNOWN mode DEFAULT group default qlen 1000
link/ether e6:23:11:c2:30:a4 brd ff:ff:ff:ff:ff:ff promiscuity 0
VXLAN id 100 remote 192.168.1.202 local 192.168.1.201 srcport 0 0 dstport 4789 ageing 300 udpcsum noudp6zerocsumtx noudp6zerocsumrx addrgenmode eui64 numtxqueues 1 numrxqueues 1 gso_max_size 65536 gso_max_segs 65535
node02 节点上做同样的配置,注意两个节点要使用相同的vni,也就是VXLAN id要保持一致 具体命令如下:
$ ip link add VXLAN100 type VXLAN id 100 dstport 4789 remote 192.168.1.201 local 192.168.1.202
$ ip link set VXLAN100 up
$ ip addr add 10.1.1.12/24 dev VXLAN100
Overlay层测试一下连通性:
$ ping 10.1.1.12
总结一下,在VTEP节点上创建VXLAN接口,配置使用源、目的Underlay IP等,之后在VXLAN接口上配置Overlay ip,即可模拟实现overlay层的互联互通。
在单播模式下,节点之间的VXLAN通讯需要建立点对点的链接,多节点的情况下需要 FULL mesh 全互联模式,需要手动处理接口互联地址、路由关系,比较复杂。
组播模式
如果 VXLAN 要使用多播模式,需要底层的网络支持多播功能,多播地址范围为 224.0.0.0~239.255.255.255,这里使用 224.0.0.1。
为了更好的展示VXLAN的应用,这里来展示一下多节点虚拟机之间通过组播来实现VXLAN通讯,为了简化环境,这里使用 docker 容器来代替虚拟机进行场景展示。
docker 容器运行在Overlay层,通过底层的VXLAN封装,实现Overlay容器之间的互联互通,需要在节点上提前安装docker软件,过程略。
首先看看docker network的默认配置:
[root@node01 ~]# docker network ls
NETWORK ID NAME DRIVER SCOPE
29bf76efa7dd bridge bridge local
d1e50e589bd6 host host local
81bd61b4d15f none null local
由于之后的操作需要手工指定docker容器ip,默认的docker网络中不支持此操作,因此需要手工创建和使用docker自定义网络。
创建docker 网络 testnetwork,指定ip地址段:
[root@node01 ~]# docker network create --subnet 172.16.0.0/16 testnetwork
6df35f5229e48a1278562bb2b5723345be53722468eeff8488424b38b6e2aaf3
[root@node01 ~]# ip addr
10: br-6df35f5229e4: mtu 1500 qdisc noqueue state DOWN group default
link/ether 02:42:85:27:3f:8c brd ff:ff:ff:ff:ff:ff
inet 172.16.0.1/16 brd 172.16.255.255 scope global br-6df35f5229e4
valid_lft forever preferred_lft forever
[root@node01 ~]# docker network ls
NETWORK ID NAME DRIVER SCOPE
29bf76efa7dd bridge bridge local
d1e50e589bd6 host host local
81bd61b4d15f none null local
6df35f5229e4 testnetwork bridge local
在创建docker testnetwork后,在系统侧会创建一个bridge(这里br-c17ed9de37c6),可以通过ip addr、brctl show等命令查看,容器间会通过这个br来实现数据交互。
[root@node01 ~]# brctl show
bridge name bridge id STP enabled interfaces
br-c17ed9de37c6 8000.0242db55ee4c no
docker0 8000.02423c9601c2 no
启动一个容器vm01,并指定IP地址:
$ docker run -id --network testnetwork --ip 172.16.0.11 --name vm01 centos
$ docker exec -it vm01 bash
[root@node01 ~]# docker run -id --network testnetwork --ip 172.16.0.11 --name vm01 centos
2b3bbd354a24d183e1bb7083ae879818fb185aeaffb133166063fa8ffc080ce5
[root@node01 ~]# docker ps
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
2b3bbd354a24 centos "/bin/bash" 6 seconds ago Up 4 seconds vm01
[root@node01 ~]# docker exec -it vm01 bash
[root@2b3bbd354a24 /]# ip addr
12: eth0@if13: mtu 1500 qdisc noqueue state UP group default
link/ether 02:42:ac:10:00:0b brd ff:ff:ff:ff:ff:ff link-netnsid 0
inet 172.16.0.11/16 brd 172.16.255.255 scope global eth0
valid_lft forever preferred_lft forever
这里看到,创建出的容器地址为我们手工指定的172.16.0.11。
好,下面创建VXLAN网络
创建VXLAN100,vni 100,这里使用了group参数,组播地址设定为224.0.0.1:
$ ip link add VXLAN100 type VXLAN id 100 dstport 4789 group 224.0.0.1 dev eth0 ttl 10
$ ip link set VXLAN100 up
将VXLAN100桥接到testnetwork的br上:
[root@node01 ~]# brctl addif br-c17ed9de37c6 VXLAN100
[root@node01 ~]# brctl show
bridge name bridge id STP enabled interfaces
br-c17ed9de37c6 8000.0242db55ee4c no vethd65448c
VXLAN100
docker0 8000.02423c9601c2 no
在其它节点同样执行以上操作,注意使用相同的组播地址即可,另外分别创建容器,地址为172.16.0.12、172.16.0.13,具体过程请自行配置。
检查连通性:
[root@node01 ~]# docker exec -it vm01 bash
[root@2b3bbd354a24 /]# ping 172.16.0.12
PING 172.16.0.12 (172.16.0.12) 56(84) bytes of data.
64 bytes from 172.16.0.12: icmp_seq=1 ttl=64 time=4.06 ms
64 bytes from 172.16.0.12: icmp_seq=2 ttl=64 time=0.586 ms
^C
--- 172.16.0.12 ping statistics ---
在节点上通过tcpdump抓取数据包,来看看VXLAN数据包结构:
[root@node02 ~]# tcpdump -i eth0 udp dst port 4789 -c 2 -v -n
tcpdump: listening on eth0, link-type EN10MB (Ethernet), capture size 262144 bytes
18:34:31.145767 IP (tos 0x0, ttl 10, id 35741, offset 0, flags [none], proto UDP (17), length 134)
192.168.1.201.34388 > 192.168.1.202.4789: VXLAN, flags [I] (0x08), vni 100
IP (tos 0x0, ttl 64, id 20260, offset 0, flags [DF], proto ICMP (1), length 84)
172.16.0.11 > 172.16.0.12: ICMP echo request, id 10, seq 1182, length 64
18:34:31.145866 IP (tos 0x0, ttl 10, id 47686, offset 0, flags [none], proto UDP (17), length 134)
192.168.1.202.50208 > 192.168.1.201.4789: VXLAN, flags [I] (0x08), vni 100
IP (tos 0x0, ttl 64, id 60911, offset 0, flags [none], proto ICMP (1), length 84)
172.16.0.12 > 172.16.0.11: ICMP echo reply, id 10, seq 1182, length 64
2 packets captured
2 packets received by filter
0 packets dropped by kernel
可以看到VXLAN UDP报文的信息,如 VTEP 源、目的地址,vni id,以及原始的ICMP报文等。
** 持续发布, 欢迎 +关注 **