FusionManager上报“系统时间发生跳变”的重要告警

发布时间:  2013-08-31 浏览次数:  455 下载次数:  0
问题描述
现网使用FusionCompute V100R003C00SPC100,FusionAccess V100R003C00,运行过程中出现“系统时间发生跳变”的重要告警,告警的对象为AD、DDC、DNS、WITNESS、ITA(所有的VDI基础架构管理组件)。
告警信息
FusionManager的Portal上,上报“系统时间发生跳变”的重要告警,告警的对象为AD、DDC、DNS、WITNESS、ITA(所有的VDI基础架构管理组件)。
处理过程
1. 登录Fusion Manager Portal和Fusion Access Portal手工清除这5条告警。
2. 登录Fusion Computer Portal上修改VDS-MGR02管理组件的时间同步为自由时钟(关机后修改,然后启动生效)。
根因
ITA组件会定时检查其他几个管理组件的系统时间,当出现时间跳变超过1分钟(本次告警提示跳变了116秒)的时候,系统即会上报此告警。这几个告警不会影响用户业务,只需要手工清除即可。

VDI将时间设置为1分钟(60秒)机制的原因为:当操作系统时间跳变超过60秒时,会对java定时器产生影响,导致可能出现程序异常。所以,FusionAccess系统会报时间跳变告警。该告警出现后,需要系统管理员确认VDI管理组件的系统时间是否正常,是否影响业务,是否已经与NTP服务器的时间同步,确认无误后手工清除告警。

1. 了解VDI管理组件的时间同步机制,其VDI管理组件与AD同步,AD与上层的NTP服务器同步。

2. 从CNA节点的日志来看,NTP Server的时钟源没有发生跳变。

3. 从VDS-MGR02管理组件( 即ITA,与DDC合设)的Windows系统日志上,在上报告警之前的附近一段时间内,确实可以找到时间跳变的日志。

4. 从底层的数据库记录发现,之前VDS-MGR02管理组件配置的时钟方式是与主机同步(其他的管理节点配置的是自由时钟),该场景下VDS-MGR02会向两个时钟源同步:一个是AD,另外一个是主机的Xen时钟,如果两者出现时钟偏差,则会导致时间跳变。配置自由时钟的情况下,只会向AD同步(经过检查,其他组件没有出现时间跳变)

5. 从ITA的日志来看,由于底层时间发生跳变,导致ITA误判了其他组件发生时间跳变,其实是ITA本身的时间跳变了(ITA以所在的系统自身时间作为检查基准),误报了其他管理组件时间跳变的告警。
建议与总结
后续软件针对告警机制或者时间跳变机制进行版本优化。 

END