NTP时钟同步异常告警处理

发布时间:  2014-09-17 浏览次数:  722 下载次数:  2
问题描述
在XX局点中通过EMS网管发现,3个NTP client 与NTP server 相差有1s、3s、10s之多。
告警信息
AlmCause = Synchronization Source Mismatch, AlmDesc=The difference between localhost(22.24.2.200) and 22.24.2.203 is 10.01 seconds and exceeds threshold 10.00 seconds.
AlmCause = Synchronization Source Mismatch, AlmDesc=The difference between localhost(22.24.2.201) and 22.24.2.208 is 3.01 seconds and exceeds threshold 3.00 seconds.
AlmCause = Synchronization Source Mismatch, AlmDesc=The difference between localhost(22.24.2.202) and 22.24.2.208 is 1.96 seconds and exceeds threshold 1.00 seconds.
处理过程
1、备份所有服务器上的/etc/ntp.conf文件
注:由于是在现网中更改NTP配置所以第一必须先备份ntp.conf文件
2、将AS主机(22.24.2.203)的/etc/ntp.conf配置文件替换为附件NTPServer文件夹中文件
注:主要的不同是将ntp.conf中后面的server 22.24.2.208及server pool.ntp.org删掉
3、将其他非AS主机所有服务器(即22.24.2.203除外)的/etc/ntp.conf配置文件替换为附件中NTPClient文件夹中的文件
注:主要的不同是将ntp.conf后面的server 22.24.2.208改为server 22.24.2.203同时将server pool.ntp.org删掉
4、重启AS主机(22.24.2.203)的NTP服务:
service ntp stop
service ntp start
5、其他非AS主机所有服务器(即22.24.2.203除外)作如下操作:
停止NTP服务:service ntp stop
手动同步:ntpdate 22.24.2.03
此时会出现如下告警:
图 6 warning
启动NTP服务:service ntp start
6、在所有服务器做如下操作,包括NTP SERVER服务器
系统时间同步硬件时间:hwclock –systohc
此时在EMS上会产生一个EMS与UAP之间的通讯告警即“网管服务器与网元通讯异常”的重要告警,但不影响,瞬间就会恢复。
图 7 EMS 告警
图 8 EMS 告警详细信息
7、10-15分钟后,验证同步
8、再次查看EMS,时钟同步异常告警消失
根因
以root用户登入各个服务器,查看NTP Server和NTP Client的/etc/ntp.conf文件,发现NTP Server 的配置如下:
 
图 2主AS服务器ntp.conf配置
其他三个NTP Client的配置如下:

图 3 备AS服务器ntp.conf配置

图 4 主DMS服务器ntp.conf配置

图 5 备DMS服务器ntp.conf配置
通过查看ntp.conf配置发现,当前是将AS服务器的浮动IP作为NTP Server,主备AS服务器均配置为NTP Server。如果现在用AS的主机作为NTP服务器,那其他非AS主机的所有主机配置里面的Server 写成了浮动ip,其中也包括AS的备机,如果双机一切换,那么AS的备机变成了主机,浮动ip就跑到了备机上,此时备机就成为了NTP的服务器,但是AS主机还是NTP服务器的配置,而备机是NTP客户端的配置;同时,对于备用的NTP 服务器server pool.ntp.org而言,在该组网中并未生效。综上,才会出现以上同步异常的问题。
建议与总结
在开局过程中,如果客户能够提供NTP服务器,直接配置;否则配置NTP服务器时,一般会选择业务量较小的服务器来作为NTP Server。

END