CE128虚拟RB重启起来时大量丢包

发布时间:  2016-12-14 浏览次数:  107 下载次数:  0
问题描述

网络架构:

128虚拟出RB和GW2台设备,RB透传下行所有流量,RB与接入交换机运行trill。GW运行VRRP,通过下行RB做心跳线。在冗余测试时候发现,RB重启时,往下ping包只有少量丢包,但是当RB快起来时,大量丢包。

处理过程

步骤一:检查设备配置并用lldp检查链路:

链路正确,RB配置上行接口配置如下:

互联口配置如下:

下行口配置如下:

发现配置和lldp邻居均正常,排除链路和配置问题


步骤二:重启RB1的时候长ping对端RB2的接口ip,发现RB1快起来导致大量丢包,因此怀疑是重启起来时trill的问题

128VS的重启是通过登录admin在admin上操作,我们登录admin,登录2台128RB的设备,长pingRB1的地址,并重启RB1,发现当RB1起来的时候,用admin登录RB1,通过display trill peer 命令观察到trill未收敛,但是接口已经起来。

初步判定为RB起来时,trill未收敛导致的GW双主现象(因GW心跳经过RB的eth0接口)

步骤三:为了防止trill未收敛情况下,接口已经up导致心跳口无法传送VRRP报文,尝试在接口上加上端口延时up命令,这样当RB重启起来时,因为端口还是down,GW1的VRRP状态仍然为initialize状态,不会切换为主,等待trill收敛

接口配置如下:

在RB上行接口以及GW下行接口上加上carrier up-hold-time 180000命令,当RB重启起来是,GW2为主,GW1为备,ping不丢包,问题解决。

136.4为RB1接口IP,136.5为RB2接口IP,136.10为下行接入交换机IP。发现RB1重启起来时,ping无丢包,且在等待抢占延时后,主备切换正常。

根因
RB起来时,端口up,但是trill未收敛,导致心跳口异常,出现网关双主
解决方案
在RB上行端口和GW下行端口上加上carrier up-hoid-time 180000解决trill未收敛但端口up的问题
建议与总结
trill,stp等网络均存在收敛时间的问题,如果为了更可靠的网络特性,可以使用端口延时up命令

END