某客户出口交换机CSS堆叠组单台下电后流量中断数分钟的问题

发布时间:  2016-12-01 浏览次数:  153 下载次数:  0
问题描述

客户某站点进行failover倒换测试时,其中出口交换机IR设备在主下电后,用户到Internet的流量中断1-2分钟。 

处理过程

1、 IR设备和远端建立两个EBGP连接, IR接收两端发布的默认路由,主框连接的链路为优选路由,用户到Internet的流量从主用链路出去。


2、 两端均配置GR时,当主框掉电,备转主走GR流程,BGP重新建链重新进行路由计算。 原主用链路Down,BGP Peer无法建立。但是GR流程是需要等待BGP链路建立成功后才能刷新转发表,如果一个邻居始终无法建议,需要等待GR  2分钟定时器来结束GR流程。所以用户流量不能立即被转发到新的主用接口,直到GR超时后,才会刷新转发表项,从而导致主备倒换时用户流量中断了2分钟左右。

3、 不配置GR时发生主掉电的时候,BGP需要重新建链,向远端发送open报文,但是远端BGP处于Establish状态,BGP协议规定,在本端BGP状态正常的情况下不会处理open报文而是回应TCP reset报文拒绝邻居重建,因此主掉电后BGP无法快速建立,直到peer端的hold-time超时。

根因

对于单链路上行的场景,设备无法支持控制面和转发面同时进行主备倒换后的流量快速切换。

解决方案

建议采用主备双链路Eth-trunk组网方案,这样在主框掉电后不需要等待路由刷新,流量能很快切换到其他备框链路。

END