RH5885v3部署Esxi5.5虚拟机不稳定

发布时间:  2015-06-01 浏览次数:  582 下载次数:  7
问题描述

涉及到的产品及版本相关信息:

  • RH 5885 v3 *12
  • OceanStor 5600 v3 *2
  • VMware ESXi 5.5 update 1 && VMware ESXi 5.5 update 2
  • SUSE Enterprise 11 x64 SP3 
  • IBM DB2

用户12台5885 v3均安装ESXi 5.5 update1做两个Cluster,部署完虚拟机之后发现以下问题:

  1. 在对虚拟机进行快照操作的时候,会出现虚拟机断链的情况,虚拟机操作系统为SUSE Enterprise 11 x64 SP3,具体现象为可以ping通该虚拟机,但ssh连接不上,该虚拟机的克隆模板无问题,且出现这种情况的虚拟机是随机出现的,并不是某一台特定的虚拟机或者在某一台特定的ESXi主机上会出现这种情况;
  2. 在vCenter中会随机出现虚拟机掉线重连的情况,ssh也连接不上,但过几分钟就恢复正常了;
  3. 部分虚拟机在进行克隆或者迁移操作的时候直接报错,在vCenter中提示“在当前状态下不允许此操作”,且出现问题的这些虚拟机无论是在操作系统中还是在vCenter中进行关机操作,实际上执行的都是重启操作,尝试重新关闭虚拟机所在的ESXi主机仍然会出现这样的问题,必须强制将这些虚拟机下电,重新上电开机后,克隆、迁移等操作才正常,但关机的时候实际上还是重启操作。
告警信息

iMana管理页面中检查硬件状态,使用巡检工具对所有涉及的服务器进行巡检,所有服务器巡检均正常通过,无告警。

处理过程

  1. 对虚拟机进行详细测试,包括关闭虚拟机,对虚拟机进行克隆,快照,迁移等操作,确认当前问题状况,收集VMware ESXi日志。
  2. 分别登陆7RH5885 v3 iMana界面,检查硬件状态,使用巡检工具收集服务器BMC日志,发给研发同事确认。
  3. 分别升级12 RH5885 v3 ESXi 补丁包,升级为update2
  4. 再次测试虚拟机,包括关闭虚拟机,对虚拟机进行克隆,快照,迁移,在虚拟机操作系统中进行关机等操作,确认问题有无解决。
  5. ESXi升级为update 2之后,经过详细测试,问题一和问题二已解决,问题三依然存在(只有两台虚拟机中安装了DB2数据库,且只有这两台虚拟机有问题,其他虚拟机均已恢复正常)
  6. 在存在故障的虚拟机操作系统中停止DB2的相关服务,使用shutdown –P now命令可以正常关机,且克隆、快照等操作正常,经DB2工程师和SUSE 工程师确认,DB2TSA组件修改了SUSESoft Door模块中的一个超时参数,该参数默认为60sDB2 TSA将其修改为8s,导致在vCenter和操作系统中进行关机操作时,实际执行的是重启动作,而即使是重启完成后,vCenter仍然认为虚拟机正在执行关机操作,关机操作尚未完成,所以继续执行克隆,重启等操作的时候,vCenter拒绝执行,并提示“在当前状态下不允许此操作”,该问题是VMware ESXi软件自身的软件调用问题,当前版本无法解决。 
  7. 手动编写脚本,在关机的时候先停止DB2的相关服务,在开机的时候延迟启动DB2的相关服务,目前在SUSE操作系统中可以正常关机,在vCenter中可以对该虚拟机进行克隆,快照,迁移等动作且无异常。但当使用vCenter对这两台虚拟机进行关机操作的时候,仍然执行的是重启动作,且后续的克隆,快照,迁移等操作依然报错,该问题是VMware ESXi软件自身的软件调用问题,当前版本无法解决。
根因
由于VMware官方工程师在现场看到RH5885v3的BIOS版本不在其产品的兼容列表中,认为该问题是由于BIOS版本与ESXi之间兼容性问题,最后升级了ESXi补丁包之后大部分故障解决,剩余的问题是由于IBM DB2数据库修改了SUSE操作系统中特定的参数导致VCenter与SUSE之间配合有问题,与BIOS版本无关系。
解决方案
升级ESXi补丁包到update2,并重启ESXi主机。
建议与总结

遇到类似问题时,如果是需要刷BIOS,如果当前版本和期望版本号相差不大,可以刷,如果是当前版本和期望版本号相差较大,需要考虑升级或者降级之后带来的风险,最好是只升不降;安装软件的时候也注意,建议用户安装最新版本的补丁包;这个案例中的问题看起来跟上层应用毫无关系,但最终定位到的实际上是跟上层的DB2密切相关的,解决这种不常见的问题的时候建议多人一起沟通,和各部分工程师,业务使用者保持密切沟通,逐个排查可能的问题点,才有可能尽快的定位并解决问题。

END