CE交换机的NQA参数配置不合理导致无法联动路由

发布时间:  2014-09-11 浏览次数:  482 下载次数:  0
问题描述
一、组网如图所示:




当断开主用S9303(左边那台)上行口,然后进行链路的恢复。发现的问题有两个:
1、链路恢复以后,下两跳的地址可达了,但是NQA的状态始终是time out,不能恢复正常,这时数据包也是从主用链路出去的;
2、主链路断掉以后,NQA也随之down掉,但是路由始终不切换;





告警信息
处理过程
1、第一个问题,需要更改的配置有: 删除source-interface vlanif1910命令,更改为source-interface vlanif 1910接口的IP,来检测远端IP地址。
2、第二个问题为参数之间设置不合理,NQA探测结果一直为no result,无法完成联动,需要更改配置,推荐配置如下:
nqa test-instance NQA  NQA1
test-type icmp
destination-address ipv4 X.X.X.X
souter-address ipv4 X.X.X.6
interval seconds 30
frequency 120
start now
根因
问题一、链路恢复以后,下两跳的地址可达了,但是NQA的状态始终是time out,不能恢复正常,这时数据包也是从主用链路出去的;
1、现网CE6850的NQA配置:
nqa test-instance zhuyong zhuyong
test-type icmp
destination-address ipv4 X.X.X.X
frequency 2
interval seconds 1
timeout 1
datasize 100
source-interface Vlanif1910
start now
2、具体原因:
1)配置source-interface Vlanif1910,系统默认为探测直连地址,报文从这个接口发出,在设备上会查找NAQ检测地址X.X.X.X对应的ARP表项,从而封装报文发出去,而检测的这个地址是个远端地址,非直连的,所以ARP学习不到,导致NQA检测失败。
2)此时在设备上可以ping通X.X.X.X这个地址,是因为ping过程中并不区分直连还是非直连IP,设备先查路由得到下一跳X.X.X.5,然后查找X.X.X.5对应的ARP表项,封装报文转发出去。
3)此种场景下,需要删除source-interface vlanif1910命令,更改为source-interface vlanif 1910接口的IP,来检测远端IP地址。

问题二、即是链路断掉以后,NQA也随之down掉,但是路由始终不切换;
 1、现场参数配置如下:
   interval seconds 1
      timeout 1
      frequency 2
2、NQA的几个参数含义
 interval命令用来配置NQA测试例的发送报文的时间间隔,默认值为4s;
frequency命令用来配置NQA测试例自动执行测试的时间间隔,无默认值,只检测一次;
timeout命令用来配置NQA测试例的一次探测的超时时间,默认值为3s;
probe-count命令用来配置NQA测试例的一次测试探针数目,默认值为3个。
3、路由不切换原因分析:
  一次NQA探测需要发送probe-count个探针,待探针都回应,或者在timeout内没有回应,得出一次NAQ探测结果,根据NQA探测结果发送给联动的静态路由,探测成功路由继续生效,探测失败按照设备上的配置切换路由,这个探测结果只有在fail和success才能联动成功,而现场一直出现的结果为no result,说明NQA探测结果没有,是fail还是success无法确认,那么设备就不知道是否要切换,默认为不切换。
  一次NQA探测中,发送的探针之间有时间间隔,即为interval秒,也就是说,完成一次NQA探测时间为interval×probe-count秒,在现场配置中为1×3=3秒,也就是说完成一次NQA探测需要3秒,而NQA探测时间周期为frequency秒,这里配置为2秒,即NQA测试到2秒时,需要执行下一次探测,测试结果还没有完成,设备上显示为no result,根据上面所述,需要得出测试结果是fail或者success才能实现联动,而这里无法切换,需要更改配置。


建议与总结
总结:
部署NQA时需要注意几个参数之间的互相关系

END