BGP路由震荡导致城域网用户闪断处理

发布时间:  2012-07-26 浏览次数:  88 下载次数:  8
问题描述
组网见附件:
某城域网核心现状为A局和B局两台C厂家12416,城域网出口总带宽为3*2.5G,其中A局C12416到骨干C3节点带宽为1*2.5G,B局C12416到骨干C3节点2*2.5G,两骨干网C3节点出口带宽为2*10G,为适应业务的发展,该运营商对城域网和骨干网进行优化,将骨干网A局C3节点NE5000E路由器下沉至A局城域网出口核心路由器,直接与C2-1的12816-1建立EBGP邻居关系,原城域网核心路由器留做他用(城域网SR),B局城域网12416将直接上行到C2-1的12816-1,建立EBGP邻居关系,将B局骨干C12416的10G板卡插入到B局城域网C12416做为上行板,骨干12416下线,城域网保留私有AS号;两城域网核心之间建立IBGP邻居关系,原下挂在A局C12416设备上的SR和BRAS改接至NE5000E。
NE5000E成功割接上线后,割接B局时,因C厂家设备版本升级原因,将城域网12416重启后,大量网吧静态用户反馈上网不正常,经现场测试PPPOE与静态用户均不正常。
      
告警信息

处理过程
1、城域网内用户ping该运营商DNS(x.x.x.x),无法PING通。
2、城域网内用户tracert该运营商DNS(x.x.x.x),到了NE5000E便无法出网。
3、在NE5000E上查看BGP邻居状态正常,在NE5000E上PING DNS可以PING通。
4、在NE5000E上重复使用命令disp ip rou stat查看BGP路由更新条数,是否存在路由环路,不存在环路。
5、在C2-1的12816节点上查看路由,发现无到该城域网的BGP路由。
6、在C2-1的12816节点查看BGP邻居状态,发现到该城域网的EBGP邻居状态为抑制状态。
7、在C2-1的12816节点将查看LOG发现是由于NE5000E频繁向12816更新BGP路由,并且B局12416重启时,向NE5000E发送了BGP路由更新,NE5000E再向C2-1节点12816发送,此时恰好达到了12816认为BGP路由不稳定次数,直接将NE5000E的BGP邻居抑制,导致城域网内路由无法出网。
8、等待BGP抑制时间失效,BGP重新收敛,城域网内用户上网正常。
      
根因
1、12416设备重启时引起路由环路。
2、NE5000E设备配置错误导致流量导入至NE5000E时无法出网。
      
建议与总结
出现该问题的原因是NE5000E频繁的向12816发布路由,和B局C12416设备版本升级导致BGP路由更新,达到了12816默认的BGP路由更新次数,被抑制BGP邻居;而造成本次BGP路由频繁更新原因如下:
1、在NE5000E向C2-1的12816发布BGP路由时通过network加黑洞发布,并且是逐条进行更新,而这些更新都被12816记录下来。
2、此时由于B局城域网12416要升级版本支持10G POS单板,升级过程中将12416重启,造成BGP路由又一次更新,而此次更新却又达到了C2-A的12816抑制BGP的最大次数,所以将NE5000E邻居抑制,导致故障。

END