在ASBR上下发默认路由当设备重启时业务长时间中断

发布时间:  2014-12-30 浏览次数:  149 下载次数:  8
问题描述
组网描述:
某能源客户企业IPv6骨干网全网部署BGP,分配AS号为65411,厂区分配统一私有AS号,厂区与骨干网之间部署EBGP,厂区部署OSPFv3,接入交换机S5700与汇聚交换机S9700之间部署VRRP+MSTP;
厂区网络在ASBR进行路由汇总发往骨干网络,骨干网络在ASBR宣告默认路由给厂区网络,并指定前缀进行过滤,骨干网络IBGP采用OSPFv3互联,龙南_1和红区_1两台NE40E-X8作为RR。



问题描述:
用PC作测试仪分别连接骨干网络西区信息中心NE40E-X8和厂区网络S5700,模拟厂区业务发送测试流量到骨干网络,骨干网络ASBR_1(朝阳沟_ 1 NE40E-X8)下电模拟设备故障,流量切换到ASBR_2(朝阳沟_2 NE40E-X8)进入骨干网络,然后上电模拟设备故障恢复,流量回切,回切丢包时间为30s~40s。
告警信息
ASBR_1设备下电、上电模拟设备故障恢复,流量回切,回切丢包时间为30s~40s。
处理过程
处理过程:
以组网图中朝阳沟站点为例,ASBR_1上电前,厂区默认路由为ASBR_2下发,流量路径为S5700 –- A矿_1 S9700 --- 十厂_1 S9700 --- 十厂_2 S9700 --- 朝阳沟_2 NE40E-X8(骨干网ASBR_2),通过ASBR_2进入骨干网络;
ASBR_1上电正常工作后,ASBR_1与厂区S9700建立EBGP,下发默认路由,流量回切到ASBR_1,通过骨干网络IBGP路由发送到西区信息中心,回切丢包30~40s,可能是上下行路由建立时间不一致导致,故障定界至ASBR_1路由建立时间上。

骨干网络ASBR_1上电后涉及的链路恢复和路由邻居建立如下:
ASBR_1与厂区S9700之间EBGP建立;
ASBR_1与龙南_1 NE40E-X8之间OSPFv3及IBGP建立;
ASBR_1与ASBR_2之间OSPFv3建立;
ASBR_1与红区_1 NE40E-X8之间IBGP建立;

流量回切后,在ASBR_1上查看相关日志信息如下:
Jun  4 2014 11:07:50 CYG-DR-NE40E-01 %%01BGP/3/STATE_CHG_UPDOWN(l)[0]:
The status of the peer FD00:434E:5043::5 changed from OPENCONFIRM to ESTABLISHED.
(InstanceName=Public, StateChangeReason=Up)   
---- ASBR_1与红区_1 NE40E-X8之间IBGP建立

Jun  4 2014 11:07:23 CYG-DR-NE40E-01 %%01BGP/3/STATE_CHG_UPDOWN(l)[2]:
The status of the peer FD00:434E:5043::3 changed from OPENCONFIRM to ESTABLISHED.
(InstanceName=Public, StateChangeReason=Up)        
---- ASBR_1与龙南_1 NE40E-X8之间IBGP建立

Jun  4 2014 11:07:09 CYG-DR-NE40E-01 %%01OSPF/4/NBR_CHANGE_E(l)[7]:
Neighbor changes event: neighbor status changed. (ProcessId=1,
NeighborAddress=172.16.3.2, NeighborEvent=LoadingDone, NeighborPreviousState=Loading,
NeighborCurrentState=Full)  
---- ASBR_1与ASBR_2之间OSPFv3建立

Jun  4 2014 11:07:08 CYG-DR-NE40E-01 %%01OSPF/4/NBR_CHANGE_E(l)[12]:
Neighbor changes event: neighbor status changed. (ProcessId=1,NeighborAddress=172.16.1.1,NeighborEvent=LoadingDone,
NeighborPreviousState=Loading,NeighborCurrentState=Full)    
---- ASBR_1与龙南_1 NE40E-X8之间OSPFv3建立
Jun  4 2014 11:06:53 CYG-DR-NE40E-01 %%01BGP/3/STATE_CHG_UPDOWN(l)[16]:The status of the peer FD00:434E:5043:101::102 changed from OPENCONFIRM to ESTABLISHED. (InstanceName=Public, StateChangeReason=Up)       
---- ASBR_1与厂区S9700之间EBGP建立

根因
根因分析:
ASBR_1上电恢复后,11:06:53与厂区S9700建立EBGP连接,ASBR_1下发默认路由,流量回切至ASBR_1,由于IBGP连接的建立依赖OSPFv3,直到11:07:23 ASBR_1才与龙南_1 NE40E-X8建立IBGP连接,导致流量丢包30s。
解决方案
解决方案:
默认路由不在ASBR发布,改为由两台RR发布,当ASBR模拟故障恢复时,只有与RR建立IBGP连接后,默认路由才会下发到厂区S9700,此时流量才会进行回切,该方式下流量回切不丢包。
建议与总结
建议与总结:
在IBGP连接建立依赖于OSPF协议收敛的场景下,要根据客户对网络可靠性的等级要求,来合理规划默认路由在ASBR上还是在RR上下发默认路由。

END