RH2285服务器运行中出现蓝屏

发布时间:  2014-12-27 浏览次数:  298 下载次数:  0
问题描述
RH2285服务器运行过种出现蓝屏,重启后可以恢复正常运行,但不定时(3~5分钟)故障会重现。
告警信息
处理过程
一、对问题的认知
蓝屏报错信息代码0X0000009C当中的9C代表的就是MCE, 一般为:
1. 硬件与软件兼容性问题引起;
2. 纯硬件性问题引起(包括:内存、主板、硬盘)。
二、问题定位
1.核实此设备已运行三年时间,并未有新软件导入,排除兼容性问题;
2.收集BMC信息,并未发现任何有关硬盘日志相关信息的报错,排除硬盘故障;
3.在BMC信息中,并示发现任何有关主板硬件相关信息报错,排除主板故障;
4.在windows系统下,进入C:\windows,取出MEMORY.DMP文件,找到错误代码:0X0000009C后面的四段代码:
    0x00000008,0XF774528B0,0XFEL17CA00,0X0001009F.
    0XF774528B0代表内存颗粒故障;0XFEL17CA00代表出问题内存地址;0X0001009F代表解释地址。
   (解释地址-出问题内存地址)/128,如果能整除,那么可以确定是内存有故障,如果不能整除,即是软件写内存出错。
三、找出故障原因
   在IMANA管理界面上进入远程控制,将U盘检测工具ISO挂载到虚拟光驱当中,重新启动服务器,按F11选择光驱启动,等待
系统进入[root@localhost~]#时,输入:hwdiag -t mem -d命令,后出现以下界面:

通过检测结果来看,槽位号为:E0的内存的ECC_Value值异常。
根因
服务器内存的ECC_Value值异常,即内存本身健康状态不好,导致服务器在运行过程中内存异常而蓝屏!
解决方案
更换故障内存。
建议与总结
此案例也可通过最小化系统排查找出根因

END