FusionCompute平台有一台CNA节点经常出现主机与VRM心跳异常的告警,FC平台版本是V100R003C10SPC610

发布时间:  2016-03-17 浏览次数:  930 下载次数:  7
问题描述
FusionCompute平台有一台CNA节点经常出现主机与VRM心跳异常的告警,每次过了几秒钟或者十几秒钟就正常清除了,出现这个告警的同时,运行在该CNA节点上的所有虚拟机均会自动迁移,导致虚拟机会重启,影响业务。


告警信息

告警名称:主机与VRM心跳异常,告警截图如下:

处理过程

     首先通过浮动IP登录VRM,然后pingCNA节点,发现网络正常,没有出现掉包的情况,然后ssh登录该CNA节点,ping vrm的浮动IP,发现也没有出现掉包的情况,排除了因为掉包而导致该告警的原因。

     通过在该CNA节点上使用cat /proc/net/bonding/bond504命令查看网卡主备情况(如下图1所示),然后对主备网卡分别抓包,在对主网卡抓包的时候,发现除了VRMFM给该CNA发送IP报文之外,还有2台服务器(一主一备)不停的给这台服务器发送ARP报文(如下图2所示),在对备网卡抓包的时候,发现该网卡也收到了同样的ARP报文(如下图3所示),于是就猜想是不是受了该arp报文的影响才导致网络异常,为了验证这个问题,在另外一台运行正常的CNA节点上也采取同样的方式进行抓包,发现也收到了同样的ARP报文,但是该CNA节点是正常的,并没有出现该告警,所以排除了这个原因。最后通过手动将网卡主备切换,告警消除。

图1


 

图2


 

图3


根因
因为出现该告警的只有这一台CNA节点,所以可以确定问题出在CNA节点。出现该告警的原因可能是CNA节点重启或者是CNA节点的网络异常,但是该告警每次都是过了很短的时间就正常清除了,如果是CNA节点重启了,那么该过程至少需要3分钟,所以不可能是CNA节点重启了,即原因应该是网络问题。
建议与总结

在机房日常维护中,需要定期对平台设备和网络设备进行巡检,巡检遇到了问题应该及时解决。

END