云计算-更换VRM主节点所在服务器主板后,出现VRM与NTP服务器状态异常的处理方法

发布时间:  2015-03-05 浏览次数:  640 下载次数:  2
问题描述
VRM主节点所在物理服务器主板故障,更换主板后将此服务器接入FusionCompute 环境内,FusionCompute页面VRM与NTP服务器状态异常,主机与NTP服务器状态异常。
告警信息
VRM与NTP服务器状态异常
主机与NTP服务器状态异常
处理过程
分析排查:
1. 登录FusionCompute,在告警页面选中当前告警,查看“告警详细信息”中的“告警对象”。
2. 进入“系统管理”的“业务配置”页面中,选择“服务和管理节点”配置项。查看管理节点信息,获取节点名称与“告警对象”一致的管理节点的IP地址。
3. 使用“PuTTY”登录该节点。
以“gandalf”用户,通过管理IP地址登录。
4. 执行以下命令,并按提示输入“root”用户的密码,切换至“root”用户。
su - root
5. 执行以下命令,查看NTP服务状态。
ntpq -p
根据不同的回显信息,判断NTP服务状态,执行相应步骤。
• 回显包含如下信息:“ntpq: read: Connection refused”,表示本节点NTP服务异常,执行service ntp restart命令,重启NTP服务。。
• 回显信息如下:“remote”列中为“LOCAL”,表示系统没有配置上层时钟源,请联系管理员配置时钟源。
•   remote           refid      st t when poll reach   delay   offset  jitter
• ==============================================================================
*LOCAL(0)        .LOCL.        5 l   32   64  377    0.000    0.000   0.001
• 回显信息如下:“remote”列中不为“LOCAL”,表示配置了上层时钟源,“reach”列如果显示为0,表示本节点与NTP服务器心跳可能中断。
• remote           refid          st t when poll reach   delay   offset  jitter
• ==============================================================================
• *172.19.1.64    132.239.1.6     2 u   8    64  0    51.743    400.912   119.378
6. 回显信息中,“remote”列中前面没有带“*”时,表示NTP服务状态异常,心跳可能中断,检查NTP服务器的可用性,确保NTP服务器正常后,获取NTP服务器IP,执行以下命令,检测VRM节点与上层NTP服务器的心跳是否正常。
ntpq -p NTP服务器IP或域名
确定故障并处理:
通过以上步骤排查,NTP服务器(VRM主节点)通讯正常,NTP服务正常,出现告警原因为更换主板,造成VRM系统时钟跳变超过一分钟。
1.使用“PuTTY”登录VRM主节点所在底层Linux系统。
以“gandalf”用户,通过管理IP地址登录。
2.执行以下命令,并按提示输入“root”用户的密码,切换至“root”用户。
su - root
3.执行date命令查看VRM主节点时间,发现时间不准确。
4.执行date 100914302014,将时间更改为2014年10月9日14:30分(当时的系统时间)
5.登陆FusionCompute页面,选择“系统管理 > 业务配置”,在左侧导航中,选择“时间配置 > 时间同步”。进入时间同步配置页面,确认NTP服务器1的IP为VRM主节点所在CNA的IP地址。
6. 在FusionCompute页面中,选择“虚拟数据中心管理 > 主机和集群”。进入“主机和集群”页面。在左侧导航树,选择“站点名称”。在“概要”页签的“操作”区域框中,单击“强制时间同步”。每个CAN节点执行一遍。执行完毕,等待30分钟左右,告警消除。
注意: 强制时间同步需要重启FusionCompute业务进程,会引起服务暂时中断。请在业务进程恢复后继续后续操作。
根因
FusionCompute 环境内,VRM主节点设置为NTP时间服务器时,若VRM主节点所在物理服务器故障,会出现此告警。
解决方案
确定NTB服务器通讯正常、NTP服务运行正常后更新NTB服务器时间,对每个CAN节点进行强制时间同步操作。
建议与总结
VRM主节点物理服务器故障,在故障修复完毕后,先登陆到BIOS及CAN底层Linux查看并更新系统时间,更新完毕后将服务器接入FusionCompute环境,登陆FusionCompute页面,对每台CAN节点执行强制时间同步操作。

END