FusionSphere VRM HA异常告警

发布时间:  2016-10-22 浏览次数:  264 下载次数:  0
问题描述

系统安装完成后,VRM创建成功,初次启动后,上报大量VRM节点心跳告警。


处理过程

系统安装完成后,VRM创建成功,初次启动后,需要和所在CNA同步心跳信息。主备VRM之前也需要同步心跳信息。在同步心跳成功之前,会出现VRM与心跳异常的告警,如下。


VRM心跳异常产生后,系统默认2分钟检测数据库同步状态,此时产生数据库不同异常告警。


由于VRM无法检测到主机状态,认为主机故障了,此时主机上的虚拟机触发HA,需要找到合适的目的主机进行迁移。由于VRM节点运行在本地磁盘上。

因此无法迁移,产生虚拟机HA时,资源不足告警。


经过分析日志发现,由于网络原因,主机无法上报心跳给VRM,使VRM误认为主机故障,触发虚拟机HA。实际上底层CNA运行正常。由于10.225.145.57 无法ping通,因此无法通过浮动IP访问FC portal


后主机与VRM链路畅通,告警消除


1318,从FC页面修改管理IP10.225.145.101,此时需要重启VRM服务,因此VRMCNA心跳异常,主备同步异常,虚拟机HA等告警出现,VRM重启完成,告警恢复。

此时由于本地PC到主机之间经过防火墙,因此无法通过浮动IP10.225.145.101访问FC 页面。而管理员提前配置了物理IP的防火墙策略。因此物理IP能够通信。

根因


解决方案
后续从FC页面发放虚拟机需要开放本地PCVRM浮动IP,以及本地PCCNA之间的对应端口。参考FusionCompute产品文档中通信矩阵。

END