云计算产品FusionCompute(v100R005C00)虚拟机业务出现无法迁移和启动

发布时间:  2016-04-22 浏览次数:  155 下载次数:  0
问题描述
FusionSphere V100R005C00版本  在FusionCompute虚拟化环境下,出现某一台主机出现该主机上所有虚拟机在迁移当中失败和虚拟机无法启动情况。
处理过程

1.1 在相应的CAN节点删除之前的垃圾文件

      通过putty或者SSH工具登录到相应的CAN节点

      输入 df –h 查看目前主机的根分区rootfs占用情况,如图占用率达到100%!产生的垃圾过多会造成虚拟机自动迁移失败,在当前主机也会出现开机失败。

③  进入根目录查看相应的过大文件,再在相应的大文件中用du –sh *来查看当前文件中的打文件,直到找到VAR文件内部产生的垃圾文件CRASH,进入该文件后会看到两个文件,删除其中除了BIN文件的其他垃圾文件即可解决问题。

 

解决方案

【解决方案】

       规避方案步骤如下:

一、手动规避

1.       查看主机版本是否为上述涉及版本,如果不是,则不受此问题影响。

2.       使用putty工具,输入gandalf用户和密码登录到CNA节点,执行su - root命令切换到root用户下。执行find /sys/ -name driver|xargs ls -l | grep -E 'mptsas|mpt1sas|mpt2sas|mpt3sas'命令,查询是否有使用到1064/1068/2308/3008驱动程序的RAID卡设备。如果没有,则不受此问题影响。

3.       如果存在,则需要在CNA节点执行如下命令,vi /opt/galax/vrm/om/pma/ gatherplugins.ini注释掉红色标记的四行,停止每隔1分钟的hwdiag查询RAID信息动作。

4.   执行service pmad restart命令,重启监控进程。

END