Desktop cloud M1软件监控进程无法自动运行导致上电失败

发布时间:  2013-03-17 浏览次数:  150 下载次数:  2
问题描述
下电miniVDI(TR5版本,下电顺序:关闭用户VM,下电VDI管理节点,BMC界面下电服务器)以后,24小时内重新上电miniVDI,系统所有Galax管理节点虚拟机均无法启动
执行checkNode发现所有节点均为abnormal状态

执行xm list以后,发现Galax管理节点虚拟机马上就显示出来了,但是运行virsh shutdown i-DA000001试图重启OMM虚拟机的时候,提示此虚拟机并不在running状态,运行virsh start i-DA000001试图将其启动的时候提示缺少某image文件

随后使用virsh list命令证实确实没有在running状态的虚拟机,且在MCNA中可以ping通所有虚拟机的网关,证明网络是没有问题
告警信息
处理过程
1、 使用sh /opt/galax/gcs/watchdog/watchdog.sh –start启动软件监控进程
2、 再次运行xm list,原有的虚拟机列表没有了,等待越20分钟以后,Galax管理节点虚拟机陆续启动,系统进入正常状态
根因
在试图启动OMM虚拟机时提示缺少某image文件,路经为/dev/mapper/,经研发定位,此文件为管理节点虚拟机启动用的镜像文件,此文件不存在,证明存储与服务器的链接中断,无法从存储处挂起此文件,sh /opt/galax/gcs/watchdog/watchdog.sh –q查看软件监控程序状态,发现不在运行中,这个文件挂起的操作必须在软件监控的状态下进行,问题得到定位
建议与总结
1、 本次的下电操作其实也有问题,最优的miniVDI下电方法应该是:下电用户虚拟机(不含VDI管理VM)-〉修改BMC界面系统设置中安全下电超时时间为1800秒-〉BMC界面下电服务器
2、 上下电是最基本的可服务性,望研发重视
3、 MiniVDI没有自动备份的机制,备份需要手动去做,建议每一套miniVDI在交付以后都按指导书做一套备份,如果遇到无法解决的系统崩溃问题,可以及时还原恢复业务

END