FusionComputer V100R5C00SPC100 HA测试失败

发布时间:  2015-08-08 浏览次数:  254 下载次数:  0
问题描述

某局点,客户要求采用将管理和业务的网络断开的方法,进行HA测试。当断开管理和业务网络后,虚拟机一直处于故障恢复中,而未HA到其他主机。

告警信息

FusionComputer Portol 中显示虚拟机一直处于“故障恢复中”

处理过程
经检查、该局点采用管理和业务合布、存储平面通过FC进行连接。测试时只断开了管理和业务平面,存储网络正常。将存储网络也断开后,虚拟机HA正常,测试成功。 
根因
1. 该局点场景为:管理节点VRM通过管理业务合布网络和各个主机互通,虚拟机在主机中运行,同时各主机通过光纤和FCSAN互通。
2. 当管理员将某主机和管理节点的网络中断后,此时管理节点感知不到该主机的信息(包括该主机的虚拟机信息),此时管理节点会将该主机的虚拟机状态置为故障维护中,同时对虚拟机HA,试图将虚拟机在另一台目标主机上启动
3. 当目标主机准备启动虚拟机时,此时虚拟机仍旧在源主机运行,目标主机通过存储心跳感知到虚拟机源主机存在。系统为了防止虚拟机脑裂(即两个虚拟机同时写一块磁盘从而导致磁盘写坏,两个虚拟机均故障),不允许虚拟机在其他主机启动。因此虚拟机在目标主机启动失败。
解决方案
客户如果有诉求验收“断开主机网络场景进行虚拟机HA”,建议下面的方案之一进行测试。
方案一:
将主机的管理业务网络断开时,同时断开主机的存储网络,此时虚拟机可以HA
 
方案二:
(1) 登录FusionCompute Portal,在“计算池”中选择“主机”后, 在“配置”的“数据存储”中添加存储
(2) 将数据存储设置“虚拟化存储”
(3) 在虚拟化存储创建虚拟机
(4) 将主机的存储网络中断后, 虚拟机可以正常HA
 
方案三:
同方案二的步骤(1)到步骤(3)
(4) 选择非主VRM虚拟机所在的主机,将非VRM宿主主机的管理业务网络中断后,146S后该主机会重启,从而保证该主机的虚拟机可以HA到该集群的其他主机中

END