虚拟网络排查问题困难，传统的traceroute等工具很难起到太大作用，大部分情况下都需要到宿主机、混合云网关上抓包来troubleshooting，耗时又费力。有些场景中包的传送路径比较长（如跨域、混合云等），可能丢包的地方比较多，更增加了故障排查的难度。

为此，我们设计了一款支持全链路大规模的网络连通性内部检测系统BigBrother。基于TCP报文的染色可将检测报文和用户流量区分开，能支持物理云和跨地域的复杂场景，还打造了完整的检测框架，帮助运维同事直接定位故障点，或一键判断虚拟网络是否存在问题。

BigBrother上线后即用于云主机迁移前后的连通性验证，保证出现异常后可以及时告警回滚。从8月初至今历时两个月，共迁移2000多台主机，及时发现迁移异常近10起。

一、第一代网络连通性工具的不足

在设计BigBrother这前，我们也有第一代的网络连通性检查工具，原理就是通过SSH跳转到目标宿主机上，利用ovs的packet out命令将构造的报文发出去，最后在对端的宿主机上tcpdump该报文，从而验证两端的连通性。但是从它的原理就不难看出，这种检测方式有着很大的缺点：

检测效率低下，无论是ssh、packet out，还是tcpdump都无法支持大规模的快速检查；
适应的场景有限，对于部分dpdk、p4网关类产品，无法通过tcpdump进行抓包判断。

因此做一款支持全链路大规模的连通性检测系统是非常有必要的，我们的目标就是让运维、NOC的同学能够迅速发现并解决网络不通的问题，同时为我们的虚拟网络服务变更保驾护航。

二、BigBrother的实现原理

BigBrother（下文简称BB）一词源自乔治奥威尔的小说《1984》，将此检测系统命名为BigBrother寓意就是可以将全网资源连通情况都实时监控起来。整个BB检测系统由若干个组件配合完成，mafia提供console进行创建及展示task的结果，minitrue用于将用户传入的参数转化为注包的范围，telescreen用于构造报文及收发报文。

1 Entrypoint和Endpoint

在具体介绍BB的原理前，我们先来看两个概念。在我们的虚拟网络中，每个实例（uhost、umem、udb等）都是通过接入点来接入虚拟网络，接入点由两部分组成：

Entrypoint： inbound/outbound报文都是经由Entrypoint进行接受和发送的。
Endpoint：连接实例的端点，Endpoint为最接近实例的网元。

例如在公有云场景中，entrypoint和endpoint都是openvswitch，而在物理云场景中，entrypoint是我们的物理云转发网关（vpcgw、hybridgw），endpoint则是物理云主机的上联ToR。

以上就是各种场景中的接入点说明，之所以要明确这两个概念，是因为在BB系统中，我们将Entrypoint作为注包点，向其发送GRE探测报文，同时将Endpoint作为采样点，Endpoint会识别并镜像特殊的探测报文至BB。

2 检测流程

检测方案如图所示，可分为两部分组成，在图中的流向分为橙色和紫色。

以橙色流向部分为例（SRC->DST）：
1）BigBrother模拟DST向Endpoint发送探测报文；
2）SRC端Entrypoint收到该探测报文后转发给Endpoint；
3）Endpoint将该报文镜像至BigBrother；
4）Endpoint将报文正常转发至实例；
5）实例回复报文给Endpoint；
6）Endpoint收到该回复报文后进行GRE封装，然后镜像至BigBrother；
7）Endpoint将报文正常转发至Entrypoint；
8）SRC Entrypoint将回复报文发送至DST Entrypoint；
9）DST Entrypoint收到回复报文后发送给Endpoint；
10）DST Endpoint将回复报文镜像至Bigbrother。

至此，单边的检测结束。在检测过程中，BigBrother发送了1个探测报文，共收到了3个采样报文，通过分析这3个采样点可以确认SRC->DST方向是否通信正常。

反之亦然，紫色部分原理相同。全部检测结束后，BigBrother共可以收到6个探测报文，如果6个报文均收到则表示连通性正常。

3 探测报文设计

上文中介绍了BB的检测流程，下面我们再来看下探测报文及转发面的设计实现。公有云和混合云的设计存在很多不同。公有云转发面需要在全局hook点(table_1)，分别hook探测报文的request和response，然后进行染色、镜像至BB等步骤。而混合云转发面则需要ToR、PE交换机开启ERSPAN功能，将染色的报文镜像至BB即可。

整体数据包交互如下图所示：

而一个合格的探测报文首先应该具备以下特征：

染色信息与主机、OS无关；
ovs2.3、ovs2.6版本（现网主要版本）可以识别并处理此种染色信息。

因此我们详细比较了如下两种候选方案。
1）icmp + tos方案
第一种方案以icmp报文为载体，使用tos对icmp_request进行染色，采集时将此tos的icmp报文镜像至BB即可。

cookie=0x20008,table=1,priority=40000,metadata=0x1,icmp,icmp_type=8,icmp_code=0,nw_tos=0x40 actions=Send_BB(),Learn(),Back_0()

对于hook icmp_request的flow可以简化为如下逻辑：
action部分主要由三部分组成：

Send_BB() 将报文镜像给BB；
Learn() 通过icmp_request报文学习到一条用于匹配icmp_reply报文的flow，该条flow的主要动作包括：染色、镜像至BB；

# 1. 􏲌􏳳REG3 􏱛64200
# (global hook) reg3 load:64200->NXM_NX_REG3[], 
# 2. learn action learn(table=31,idle_timeout=2,hard_timeout=4,priority=30000,dl_type=0x0800,ip_proto=1,icmp_type=0,icmp_code=0,NXM_OF_IP_SRC[]=NXM_OF_IP_DST[],NXM_OF_IP_DST[ ]=NXM_OF_IP_SRC[],Stain(),Send_BB()),
# 3. REG3 0
load:0->NXM_NX_REG3[]

Back_0() 将该报文送回table_0，进行常规的转发操作。

对于hook icmp_reply的flow可以简化为如下逻辑：

cookie=0x20008,table=1,priority=40000,metadata=0x1,icmp,icmp_type=0,icmp_code=0,nw_tos=0x40

action部分主要由四部分组成：

Save(in_port, tun_src) 将报文中的in_port和tun_src保存下来；
Resubmit(table=31) 跳转至table31，匹配icmp_request learn生成的flow；
Restore(in_port, tun_src) 恢复in_port和tun_src；
Back_0() 将该报文送回table_0，进行常规的转发操作。

以上讨论的是公有云侧ovs的染色及镜像方法，而混合云侧就需要交换机ERSPAN来进行支持，为了使ERSPAN规则可以镜像tos染色报文，需要GRE外层Ip Header中的tos继承overlay Ip Header中标记的tos，所以需要全网对GRE隧道设置继承内层tos的隧道属性，执行命令如下：

ovs-vsctl set in <gre_iface_name> options:tos=inherit

此种方案虽然可以实现染色及镜像的功能，但是hook点预埋的flow过于复杂，不容易维护，最关键的一点在于，混合云网络中，该方案无法支持 learn flow，所以无法对反向的流量进行染色。

2）tcp方案
第二种方案以tcp报文为载体，使用特定的端口作为染色条件，采集时将此源目端口的tcp报文镜像至BB即可。

cookie=0x20008,table=1,priority=40000,tcp,metadata=0x1,tp_src=[port],tp_dst=[port]
 actions=Send_BB(),Back_0()

对于hook tcp_request的flow可以简化为如下逻辑：
action部分主要由两部分组成：

Send_BB() 将报文镜像给BB；
Back_0() 将该报文送回table_0，进行常规的转发操作。

以上两种方案进行对比不难看出，第一种方案依赖较多并且适用场景受限，所以BB采用的是第二种方案。但是tcp方案也有一定的缺陷，如何选择染色的port并且要与用户的流量区分开来，这是一个难点。经过我们几次踩坑后分析，最后决定使用tcp源目port=11来进行染色，报文如下图所示。

创作场景

BigBrother：UCloud 全链路大规模网络连通性检测系统详解（上）