S9300 ospf邻居间断导致业务异常

发布时间:  2014-09-12 浏览次数:  375 下载次数:  7
问题描述
S9300与两台NE40相连,运行OSPF,每隔一段时间,邻居关系会断掉,路由重新收敛,严重影响该公司业务。
告警信息
登录设备查看9300只有2个peer。发现down的原因:
Dec  4 2012 10:56:43 LuochuanDL-S9306 %%01OSPF/3/NBR_CHG_DOWN(l)[23]:Neighbor event: neighbor state changed to Down. (ProcessId=1, NeighborAddress=1.1.1.2, NeighborEvent=InactivityTimer, NeighborPreviousState=Full, NeighborCurrentState=Down)
Dec  4 2012 10:56:08 LuochuanDL-S9306 %%01OSPF/4/NBR_DOWN_REASON(l)[24]:Neighbor state leaves full or changed to Down. (ProcessId=1, NeighborRouterId=1.1.1.1, NeighborAreaId=1, NeighborInterface=Vlanif100,NeighborDownImmediate reason=Neighbor Down Due to Inactivity, NeighborDownPrimeReason=Hello Not Seen, NeighborChangeTime=[2012/12/04] 10:56:08)
Dec  4 2012 10:56:08 LuochuanDL-S9306 %%01OSPF/3/NBR_CHG_DOWN(l)[25]:Neighbor event: neighbor state changed to Down. (ProcessId=1, NeighborAddress=1.1.1.1, NeighborEvent=InactivityTimer, NeighborPreviousState=Full, NeighborCurrentState=Down)
处理过程
检查发现:
<LuochuanDL-S9306>dis cu int vlan 100
#
interface Vlanif100
ip address 10.255.1.2 255.255.255.252
pim sm
ospf cost 1000
ospf network-type p2p
ospf timer hello 1            
#
return
<LuochuanDL-S9306>dis cu int vlan 101
#
interface Vlanif101
ip address 10.255.1.6 255.255.255.252
pim sm
ospf cost 1000
ospf network-type p2p
ospf timer hello 1
检查发现该设备配置OSPF的hello时间为1S,导致OSPF邻居间歇性断掉。修改hello时间为5s后,业务恢复正常。
并且在华为相关技术文档里同样介绍,建议配置的失效时间大于20秒(4倍与hello时间)。如果失效的时间小于20秒,可能会造成邻接关系的中断。

根因
OSPF邻居间断可能原因:1、中间链路故障;
                                            2、路由或者网络图谱变化;
                                            3、邻居间接口上配置的OSPF参数,必须保证和与该接口相邻的路由器的参数一致。这些参数包括  
                                                  ospf   timer  hello, ospf timer dead和authentication-mode。

采集信息查看日志和端口信息,发现设备cpcar和端口丢包,所以hello报文应该不存在丢弃的问题。但发现OSPF邻居关系有间断,初步判定网络异常为OSPF路由动荡引起。
建议与总结
在配置OSPF的时候不应该想通过缩短hello时间来达到加快收敛时间的目的,hello时间不应该太小,以免造成路由动荡,影响业务。并且尽量使hello时间大于5s。

END