路由规划不当导致意外情况下业务故障

发布时间:  2012-07-26 浏览次数:  101 下载次数:  11
问题描述
XX月XX日15:30-17:00,某运营商大客户反馈有业务不通的情况。赶到TB-机房,通过登录TB-NE5000E设备发现CPU达到100%。同时发现与NE80E的BGP邻居反复复位,在TB-NE5000E上观察,发现与部分NE80E间的BGP异常。(组网等详见附件)
告警信息
网管有光路告警
处理过程
重新对原有设备配置等进行规划,第一种方式是将本次工程中的NE80E都改为收全网路由,同时将两台NE5000E之间的COST值调大,不从NE5000E中横穿流量,第二种方式是在两台NE5000E之间使用物理接口地址建立IBGP邻居,在出现光纤中断的情况,IBGP PEER就会DOWN掉,避免环路产生。经过和客户沟通协调,客户最终选择使用第一种方式进行规划,避免再出现光纤意外中断或其它异外情况导致下挂业务故障的情况。
根因
因光缆被意外刨断,使得城域网部分NE80E到核心NE5000E之间的上行链路中断一条以及两台核心NE5000E之间的互连链路中断,城域网六台NE80E中只有HHD-NE80E有双链路分别连接至两个NE5000E(HHD-NE80E未收全网路由,前期规划中城域网只有两台NE80E收全网路由),假设TB-NE5000E收到数据包匹配下一跳为DS-NE5000E的LOOPBACK环回接口地址,则将这个数据包转发至HHD-NE80E,但是HHD-NE80E有到TB-NE5000E的缺省路由,并匹配这条路由又将数据包转发至TB-NE5000E,这样发生路由环路。
TB-NE5000E和DS-NE5000E之间直连链路断掉以前:TB-NE5000E和DS-NE5000E之间直连链路COST值较小,TB-NE5000E学到目的IP为国际网段的路由的下一跳为DS-NE5000E。而在TB-NE80E配置了默认路由,所有的国际网段的路由的下一跳为TB-NE5000E。
TB-NE5000E和DS-之间直连链路断掉以后:TB-NE5000E学到目的IP为国际网段的路由的下一跳为TB-NE80E,TB-NE80E的国际网段的路由的下一跳为TB-NE5000E。这样TB-NE5000E和TB-NE80E这两个路由器互为下一跳,形成环路,从而引起这两台路由器之间不断的交换路由表。
TB-NE80E检测到路由处理任务运行异常,当这种异常因素积累到一定程度后,为了避免这种异常进一步扩散,从而进行BGP复位。规划不当外加链路意外断掉形成环路,导致TB-NE80E BGP邻居复位。
      
建议与总结
在进行规划时一定要考虑全面,将可能影响业务的风险都作好相应的规避措施并多与与用户进行沟通。

END