出口集群交换机主设备下电后流量中断约110秒的问题

发布时间:  2016-12-27 浏览次数:  113 下载次数:  0
问题描述

版本信息:

S7706 V200R008C00SPC500

补丁: V200R008HP0017

组网拓扑:



故障现象:

XX项目出口集群交换机再主设备下电后流量中断,客户可接受的范围是10s,但是现网测试时用户到Internet业务中断约110s;

告警信息
处理过程

Step1:倒换测试

出口交换机和远端路由器建立两个EBGP链接,出口交换机接收两端发布的默认路由,当主设备下电后,由于两端都配置了GR,当主框掉电,备转主走GR流程,BGP重新建链重新进行路由计算。 原主用链路Down,BGP Peer无法建立。但是GR流程是需要等待BGP链路建立成功后才能刷新转发表,如果一个邻居始终无法建议,需要等待GR  2分钟定时器来结束GR流程。所以用户流量不能立即被转发到新的主用接口,直到GR超时后,才会刷新转发表项,从而导致主备倒换时用户流量中断了2分钟左右。

Step2:增加缺省路由

在出口交换机增加缺省路由,由于缺省路由的优先级比BGP高,当主设备掉电后,不需要等待BGP的收敛时间,所以业务很快就能正常切换,配置完成后,经过测试主备切换仅仅丢3个包,达到客户要求;

根因
对于单链路上行的场景,设备无法支持控制面和转发面同时进行主备设备倒换后的流量快速切换。
解决方案
在出口交换机配置一条缺省静态路由,静态路由优先级比BPG高,倒换测试的时候,收敛速度快
建议与总结

1、建议采用主备双链路Eth-trunk组网方案,这样在主框掉电后不需要等待路由刷新,流量能很快切换到其他备框链路;

2、在出口交换机配置一条缺省路由,加快收敛速度;



END