CNA节点计算资源耗尽导致虚拟机启动失败

发布时间:  2012-12-21 浏览次数:  137 下载次数:  11
问题描述
VDS版本:R002C01SPC202
1、用户重启虚拟机之后,无法正常登陆;
2、OMSportal上查询该虚拟机状态,显示“已关闭”;后台尝试启动/唤醒虚拟机失败,该虚拟机一直处于“已关闭”状态,确认用户除正常重启之外没有做任何其他操作。
告警信息
处理过程
1、通过Putty登陆到该用户虚拟机所在集群的CRM主节点
2、通过以下命令打开日志所在文件夹,查看集群虚拟机启动日志
cd /var/locallog/galaxlog/eucalyptus/
vi cluster-vmTrack.log
如下图所示,反复启动虚拟机均失败

3、通过以下命令打开日志所在文件夹,查看集群debug日志(提前确认用户启动虚拟机失败的时间,方便查找日志)
cd /var/backuplog/backupintegritylog/
unzip 20121203-09.tar.gz.zip
tar zxvf 20121203-09.tar.gz
cd 20121203-09/
vi cluster-debug.log.2012-12-03T09\:12\:18.000000000


通过日志发现该集群内存资源耗尽,后一台虚拟机(i-3FD3OBF)关机之后,该用户虚拟机(i-4F700990)启动成功,如下图所示(查询方法同步骤2)。

4、登陆ITAportal,确认由于该集群下隔离了一故障CNA节点,导致故障用户虚拟机所在CNA节点上运行虚拟机数量过多,内存不足,启动失败。
根因
1、由于用户虚拟机无法启动,不能通过VNC登陆查看相关信息,确定用户除正常重启虚拟机之外没有做任何其他操作。
2、CRM提供管理集群内虚拟机的功能,所以登陆该用户虚拟机所在集群的CRM主节点,查看日志,分析原因
建议与总结
由于该集群下隔离了一故障CNA节点,导致该集群其他CNA节点上运行虚拟机数量过多,内存不足。
建议对CNA节点虚拟机数量进行合理规划

END