堆叠交换机备机掉电异常丢包问题

发布时间:  2017-01-09 浏览次数:  209 下载次数:  0
问题描述
客户新建网络进行测试。
在测试交换机与服务器时,模拟堆叠交换机掉电时,出现了反常丢包现象。


堆叠交换机,主机下电时,服务器PING测试网关,业务秒切,无丢包;
堆叠交换机,备机下电时,服务器PING测试网关(网关在核心交换机S12708上)丢15个数据包。
不进行交换机断电操作,将备机链路断开,业务流量秒切,不会出现丢15个数据包的现象。

注:服务器与交换机连接方式,每台服务器双上联至堆叠交换机。

 拓扑如下:
  测试目的:验证堆叠环境下的设备掉电,业务流是否可以正常切换
  测试步骤:各区域堆叠交换机,主备机分别下电,查看设备状态,服务器ping测网关和外部地址;
告警信息



处理过程

正常的测试结果应该是:堆叠交换机,备机下电业务应该是无丢包或少量丢包,出现15个丢包是不正常的。

对云平台区域,核心业务区域,DMZ区域分别进行测试都出现上述现象。


经反复检查,没有配置问题,决定将交换机与服务器的连接方式,从手动负载分担,改为lacp协议。再次进行测试。

堆叠交换机备机下电,由服务器PING核心交换机网关,丢一个数据包;将三个区域交换机与服务器连接方式都改为lacp,测试结果都为不丢包或少量丢包。

根因

分析后得出如下结论:

使用手工方式做eth-trunk的时候,备机下电,直接下电之后备机eth-trunk的控制报文没有发送到堆叠主控制平面,导致服务器ping网关有丢包比较多的情况;

如果直接拔线的话备机可以把eth-trunk的报文上送到堆叠主的控制平面,流量之际切换到没有down的物理成员;

如果使用lacp的模式的话,都有lacp的协议控制报文,不管是下电还是拔线eth-trunk都能感知到备机侧的物理成员不可用,流量切换到可用链路;

建议与总结
交换机与服务器相连时,链路建议使用lacp协议,不要使用手工负载。

END