NE20E主控板冗余性ping测试出现丢包

发布时间:  2012-07-27 浏览次数:  82 下载次数:  0
问题描述
NE20E_1-----------ospf----------G2/0/1 NE20E_2 loopback 10.10.10.10
现场对NE20E主控板冗余性做测试,组网如上,在NE20E_1上长ping NE20E_2的loopback地址10.10.10.10地址,然后拔出NE20E_2的主用主控,发现有20多个丢包,持续时间为10秒左右。
更改为如下的组网结构,NE20E做中间转发 ping2.2.2.2,依然存在类似丢包,配置GR后,也不能消除丢包问题。
NE20E_1------ospf101--------- NE20E_2 -----ospf101---router loopback 2.2.2.2
版本:NE20E V200R005C03B581,接口卡类型是高速卡。
告警信息

处理过程
1、现场使用的V200R005C03B581版本,默认主备主控版本是热备份,主备切换时,主要消耗时间的地方是主控业务数据和各种表项的重新学习,数据的平滑,以及低速卡的虚拟热拔插等,经过在实验室按照现场的拓扑测试发现,因ping报文需要上送CPU处理,主控倒换过程中10秒钟的ping中断是不可避免的。
2、对于第二种测试,说明NE20E主备倒换期间,ospf邻居的中断和恢复也会耗用较多的时间,会造成长时间业务中断。在NE20E间,以及NE20E和router间配置OSPF GR再次进行测试,发现丢包依旧。从该测试可以看出NE20E GR并没有达到预期的效果。
ospf 101
 enable link-local-signaling
 enable out-of-band-resynchronization
 graceful-restart wait-time 300
 opaque-capability enable
 area 0.0.0.0
  network 112.0.0.0 0.0.0.255
  network 111.0.0.0 0.0.0.255

后调整ospf的hello发包间隔,配置ospf timer hello 15后,再次进行测试,丢包现象消失。 
经确认,对于NE20E,配置GR后路由的保持也会依赖ospf keepalive的时间,如果keepalive时间内GR Restarter不能正常交互ospf报文,GR helper会退出GR过程,也会造成丢包。
经过上面的测试,找到了ping测试丢包的原因,就是NE20主备倒换耗时偏长,同时也可知GR功能可用性不高,因为现网很少会把keepalive的时间设置太大。另外,当前NE20使用的GR标准是是C厂家GR标准, 由于专利原因,我司设备已经不再支持,改用IETF GR, 当前GR不再商用,但当前所有NE20E版本均不支持IETF GR。
根因
对NE20E,ping报文上送主控的CPU处理,主备倒换的时候,肯定会出现丢包,但是在设备未承载业务的情况下,有20多个丢包,长达10秒钟,中断时间过长,并且改中间转发并配置GR的情况下依然存在丢包,需要从NE20E实现机制分析原因。
建议与总结

END