RH2288H V2服务器运行中蓝屏

发布时间:  2015-08-29 浏览次数:  311 下载次数:  0
问题描述

RH2288H V2服务器安装windows server 2008 r2 sp1操作系统,并安装了Intel82576网卡,运行中蓝屏,查看BMC管理系统当中报CAT ERROR告警

 

告警信息

服务器IMana管理系统上报上报MCE(Machine Check Exception)事件,触发CPU报错。

处理过程


1.收集windows操作系统的日志,日志上除报WHEA-Logger事件后无其他日志,操作系统日志中WHEA-Logger事件指向设备Intel 82576(总线号分别为4:0:0和3:0:0,设备id为8086:10c9)。

2.查看服务器操作系统重启后bugcheck事件STOP:0x00000124,且生成MEMORY.DMP文件(Windows Crash日志)。

微软对于STOP:0x00000124的解释为不可恢复的硬件故障,一般与PCI-E设备硬件及其驱动相关。

http://social.technet.microsoft.com/wiki/contents/articles/6302.windows-bugcheck-analysis.aspx#STOP_124

Stop 0x00000124 (WHEA_UNCORRECTABLE_ERROR)

The Stop 0x00000124 message occurs when Windows has a problem handling a PCI-Express device. Most often, this occurs when adding or removing a hot-pluggable PCI-Express card; however, it can occur with driver- or hardware-related problems for PCI-Express cards.

3.解析操作系统生成的MEMORY.DMP文件,发现文件不完整,无法解析具体PCI-E位置(Slot4或Slot5),但可以解析到系统Crash是因为PCI Express类型错误引发。



4.结合操作系统频繁打印的PCI Express事件,与微软确认为扩展的Intel 82576网卡异常导致系统Crash。

5.查看Intel网卡驱动板载为OS自带版本,升级驱动后故障消除。




根因
Windows2008R2SP1自带的Intel 82576网卡驱动异常发生MCE(Machine Check Exception)事件,导致操作系统蓝屏Crash。
解决方案
升级Intel网卡驱动后故障消除
建议与总结

END