服务器虚拟化产品Fusioncompuer(V100R003C10SPC600)虚拟机蓝屏处理

发布时间:  2015-02-06 浏览次数:  311 下载次数:  0
问题描述

XX局点对华为虚拟化资源池中两台windows2003 R2 32bit ESB业务虚拟机(名称分别为:XX-esb-app1和XX-esb-app2)变更网络,完成业务重新部署后切换动作。在对两台虚拟机操作过程出现蓝屏现象,导致业务切换动作终止,具体问题如下:

一、问题现象1

【操作对象】xx-esb-app1 虚拟机

【现象描述】

1、  管理员用户登陆FusionCompute管理平台

2、  在虚拟机页签搜索到信息、XX-esb-app1虚拟机

3、  进入xx-esb-app1虚拟机页签,web界面上执行“关闭”操作

4、  关闭过程中VNC登陆观察虚拟机状态,发现蓝屏,见截图1

5、  在虚拟机页签,web界面上执行“强制关闭”

6、  在虚拟机页签,web界面上执行“打开电源”

7、  启动后发现虚拟机蓝屏无法进入系统,蓝屏现象与关闭过程蓝屏报错相同见截图2

截图一

截图二、

问题现象2

【操作对象】XX-esb-app2 虚拟机

【现象描述】

1、  管理员用户登陆FusionCompute管理平台

2、  在虚拟机页签搜索到XX-esb-app2虚拟机

3、  进入XX-esb-app2虚拟机页签,执行VNC登陆

4、  VNC登陆后输入管理员用户密码,进入系统,发现系统提示“UVP TOOLS更新完成,请重启计算机”即华为虚拟化驱动,升级后提示要重启生效,见截图3

5、  在系统内,手动执行重启虚拟机操作,重启关闭虚拟机过程出现蓝屏,现象与HN-esb-app1一致,见截图4

6、  蓝屏后等待10s后,系统正常启动,但系统有报错。见截图5

7、  输入管理员用户密码,进入系统,发现 UVP TOOLSPV Driver Upgrade 服务未正常启动,界面显示“未运行”。见截图6

8、  卸载当前TOOLS,卸载过程发现TOOLS版本未升级成功仍为老版本。见截图7

9、  卸载TOOLS成功后,在界面挂载TOOLS重新安装,安装成功,虚拟机反复重启正常。

截图 3

截图4

截图5

 

截图6

截图7

 

告警信息

设备蓝屏

处理过程

一、XX-esb-app1异常分析

1、  web界面关闭后出现蓝屏现象

原因分析:

分析windows 蓝屏错误码,微软官网论坛回复“这个错误一般是因为Windows的系统分区存在磁盘错误或文件错误,主板的SATAIDE控制器驱动程序受到了损坏或安装不正确,计算机遭到了病毒、木马、间谍软件、广告软件、流氓软件等恶意程序的攻击等原因引起的。”链接如下:

http://answers.microsoft.com/zh-hans/windows/forum/windows_xp-system/0x0000007b0xf789e63c0xc00000340x000000000x00000000/7fd6fddf-e0c0-4744-8de3-3f09d7049e0a?auth=1  磁盘或文件错误可能性较大。

分析验证:

     按照蓝屏提示,挂载windows 2003 R2 32ISO镜像,按R键进入修复模式,执行CHKDSK C/F 成功后,重启虚拟机系统恢复正常。但是虚拟机启动后UVP TOOLSPV Driver Upgrade)服务未正常启动,见图8。卸载TOOLS,重启安装后,TOOLS运行正常。

结论:应用错误损坏文件导致蓝屏,关机过程蓝屏导致TOOLS安装失败。见截图9

 

截图8

截图9

 

 

 

1、  强制关闭打开电源后出现蓝屏现象,反复重启均出现蓝屏现象

原因分析:

除分析蓝屏错误码外,考虑到虚拟机TOOLS升级后未重启生效就直接关机,并且出现蓝屏后执行了强制关机,属于非正常操作,TOOLS未正常安装,可能会引起硬件驱动不正确导致的蓝屏现象,已有案例。

 分析验证:

     结合1验证结果,对于虚拟机TOOLS安装过程强制关机导致蓝屏,在华为云计算问题处理案例库中已有案例,链接如下:

http://platformdoc.huawei.com/hedex/hwdc/lmt/viewCase.jsp?caseid=2630

结论:TOOLS安装过程异常操作导致虚拟机重启后蓝屏,无法正常使用。

 

二、XX-esb-app2异常分析

1、  系统内部正常重启过程出现蓝屏

        原因分析:

            蓝屏错误码与XX-esb-app1一致,推测错误原因一致。

2、虚拟机正常启动后,华为虚拟化驱动UVP TOOLS未正常运行

原因分析:

进入虚拟机OS内部检查TOOLS服务,无法自动启动,手动启动报错,查看TOOLS安装日志,未安装成功,在安装过程系统出现异常终止了安装过程,导致TOOLS更新失败,重启后无法正常运行。见截图10

         分析确认:

              卸载当前TOOLS,重新安装成功。

结论:TOOLS安装过程异常,导致更新失败。

截图10

截图11

截图12

截图13


根因

问题出触发条件:

 条件一:Windows 2003 R2 32位虚拟机长期运行未重启过,运行业务存在内存泄露等诱发windows蓝屏现象。

 条件二:虚拟机TOOLS升级后未正常重启生效,导致TOOLS更新失败。

  根因分析

1、            两台虚拟机应用或操作系统异常导致第一次关机、重启过程出现蓝屏,即在平台升级前已存在蓝屏风险,但未重启排除。

依据1:对同一模板部署的另一台虚拟机(testagent-windows2003r2-x32)执行同样的重启操作,未见蓝屏现象,且TOOLS重启正常生效。见截图111213

依据2:两台出问题虚拟机配置相同,部署业务相同,发生蓝屏现象一致,而相同配置但未部署业务虚拟机正常,可见触发蓝屏的原因与具体部署业务相关。

说明:由于蓝屏过程操作系统未生成DUMP文件,无法跟踪到具体模块,只能通过对比测试推测原因。

2、            XX-esb-app1虚拟机重启后蓝屏是在第一次关闭过程执行强制关闭操作导致。

依据:已知问题属于异常操作,在华为云计算维护案例库中有归档。

3、            两台虚拟机重启后TOOLS运行不正常是由于关机、重启过程蓝屏导致TOOLS更新失败,状态异常。

依据:在系统日志中有记录TOOLS更新失败,对TOOLS卸载,重新安装后,系统正常。见截图910

解决方案

   临时解决措施

XX-esb-app1:登录FusionCompute,强制关闭虚拟机,配置光驱启动,VNC登录给虚拟机挂载操作系统镜像,打开电源,系统通过光驱引导,按R键进入恢复模式,进入系统盘dos命令输入CHKDSK C: /F检查磁盘后,输入Exit,重启虚拟机,系统恢复正常启动,卸载镜像,VNC登陆系统卸载当前TOOLS,重新安装,TOOLS运行正常后完成修复。

XX-esb-app2:管理员用户VNC进入操作系统,在控制面板-添加/卸载程序窗口,卸载华为UVP TOOLS,重启虚拟机,登录FusionCompute,在虚拟机操作页签执行“挂载Tools”,VNC登录系统,浏览光驱,安装TOOLS,重启生效,FusionCompute界面观察tools状态为“运行中”,完成修复。

  最终解决措施

1、              对于收到重启生效TOOLS提示的windows虚拟机,建议在近期协调业务部门在业务较闲时段,统一在操作系统内重启生效升级后的TOOLS

2、              重启生效TOOLS操作,要求进入操作系统关闭应用服务后,系统内手动执行重启。

建议与总结

END