S7700 NTP协议超出最大传输距离导致NTP连接异常

发布时间:  2015-08-05 浏览次数:  545 下载次数:  6
问题描述

【版本信息】

S7700

V200R003C00SPC500

V200R003SPH010

【故障现象】

现网出现NTP偶尔可以同步,随后NTP session又断开,持续震荡问题。

处理过程

1.     问题现象分析

从日志分析,NTP在同步,随后就断开。

Dec 18 2013 15:39:26+08:00 SLT-7706-OC1 %%01NTP/4/LEAP_CHANGE(l)[18]:System leap changes from 3 to 0 after clock update.

Dec 18 2013 15:39:26+08:00 SLT-7706-OC1 %%01NTP/4/PEER_SELE(l)[19]:The peer selected by the system is 10.6.177.254.

Dec 18 2013 15:30:47+08:00 SLT-7706-OC1 %%01NTP/4/SOURCE_LOST(l)[20]:System synchronization source lost. (SourceAddress=10.6.177.254, Reason=Clock selection failed - no selectable clock)

Dec 18 2013 15:29:44+08:00 SLT-7706-OC1 %%01NTP/4/STRATUM_CHANGE(l)[21]:System stratum changes from 16 to 3. (SourceAddress=10.6.177.254)

Dec 18 2013 15:29:44+08:00 SLT-7706-OC1 %%01NTP/4/LEAP_CHANGE(l)[22]:System leap changes from 3 to 0 after clock update.

Dec 18 2013 15:29:44+08:00 SLT-7706-OC1 %%01NTP/4/PEER_SELE(l)[23]:The peer selected by the system is 10.6.177.254.

2.     问题原因分析

从日志上来看,是时钟源丢失了。为什么时钟源会丢失?

动作1:重新抓取设备和时钟源之间的报文分析。

从报文中分析,设备的系统时钟和主参考时钟的最大误差有10S之多。这个是否有关系?

动作2:打开NTP debugging开关:

Dec 23 2013 19:03:54.820.2+08:00 SLT-7706-OC1 NTP/7/debug_NTP_filter_information:

clock_filter(172.17.191.1, 0.002504, 0.008271, 0.000000)

 offset: 0.000022,   delay: 0.003130

 dispersion: 0.001766,   std: 0.003360

 

Dec 23 2013 19:03:54.820.3+08:00 SLT-7706-OC1 NTP/7/debug_NTP_select_check:

Server 172.17.191.1 not considered for clock selection. (Reason: Synchronization distance greater than distance threshold)

 

Dec 23 2013 19:03:54.820.4+08:00 SLT-7706-OC1 NTP/7/debug_NTP_select_nlist:

NTP: nlist: 0, allow: 0, found: 0

      low:   1000000000.000000, high: -1000000000.000000

Debugg信息可以看出同步距离过长。

Reason: Synchronization distance greater than distance threshold

继续找原因,同步距离过长是个什么概念,那标准是什么?

The Host will not synchronize to the selected if the distance is greater than NTP.MAXDISTANCE.

再看看我们的最大距离是多少呢?

如上图,传输距离约有4s,导致NTP断开。

根因

NTP同步距离过长,超过协议规定的1秒,导致业务故障。

解决方案

1.     现场调整NTP网络拓扑结构,采用分级时钟部署规避问题,如下图:

整改前,S7700 NTP对端在NE40E-2上,城域网物理距离较远;

整改后,将S7700 NTP对端设置在NE40E-1上,城域网物理距离缩短,规避问题!

建议与总结

业务功能性故障多用设备Debug调试进行定位。

END