BMC日志中重复记录内存故障案例

发布时间:  2014-09-19 浏览次数:  4124 下载次数:  0
问题描述
硬件配置: BH622 V2服务器
登陆BH622 V2服务器的BMC web界面,点击系统事件日志,或telnet进入BIOS通过ipmcget –d sel –v list查看BMC日志,重复记录内存故障。
root@BMC:/#ipmcget -d sel -v list
   8 | 2012/06/20 Wed 13:03:45 | Memory (DIMM001) | Configuration error | Assert
ed  Critical
   7 | 2012/06/20 Wed 13:03:45 | System Boot / Restart Initiated (SysRestart) |
System restart,cause unknown,command from ch #0 | Asserted  Ok
   6 | 2012/06/20 Wed 13:03:45 | Memory (DIMM001) | Configuration error | Assert
ed  Critical
   5 | 2012/06/20 Wed 13:03:43 | Memory (DIMM001) | Configuration error | Deasse
rted
   4 | 2012/06/20 Wed 13:00:02 | System Boot / Restart Initiated (SysRestart) |
System restart,cause unknown,command from ch #0 | Asserted  Ok
   3 | 2012/06/20 Wed 13:00:02 | Memory (DIMM001) | Configuration error | Assert
ed  Critical
   2 | 2012/06/20 Wed 13:00:02 | Memory (DIMM001) | Configuration error | Assert
ed  Critical
   1 | 2012/06/20 Wed 13:00:00 | Memory (DIMM001) | Configuration error | Deasse
rted
图一  BMC时间日志
root@BMC:/#ipmcget -d healthevents
   1 | 2012/06/20 Wed 12:57:45 | Slot / Connector (FAN1 R Status) | Fault status
| Asserted  Major
   2 | 2012/06/20 Wed 12:57:44 | Cooling Device (FAN2 F Presence) | Device remov
ed | Asserted  Major
   3 | 2012/06/20 Wed 12:57:44 | Cooling Device (FAN2 R Presence) | Device remov
ed | Asserted  Major
   4 | 2012/06/20 Wed 13:06:52 | Memory (DIMM001) | Configuration error | Assert
ed  Critical
图二  健康告警日志
告警信息
root@BMC:/#ipmcget -d healthevents
   1 | 2012/06/20 Wed 12:57:45 | Slot / Connector (FAN1 R Status) | Fault status
| Asserted  Major
   2 | 2012/06/20 Wed 12:57:44 | Cooling Device (FAN2 F Presence) | Device remov
ed | Asserted  Major
   3 | 2012/06/20 Wed 12:57:44 | Cooling Device (FAN2 R Presence) | Device remov
ed | Asserted  Major
   4 | 2012/06/20 Wed 13:06:52 | Memory (DIMM001) | Configuration error | Assert
ed  Critical
图二  健康告警日志
处理过程
报告的异常信息为有效信息,异常信息已明确指出故障内存所处的槽位。

对应更换故障内存槽位的内存条。
根因

根本原因分析:内存检测由MRC进行检测,并在MRC阶段实时发送给BMC。
通过分析MRC代码,发现针对异常内存检测,假如Rank级别存在异常情况下,MRC会发送多次rank错误,最终体现到BMC解析,会有多次错误记录。因此内存故障会有多次报告异常的情况。属正常现象。
同时日志中反馈的内存槽位号已经明确说明此槽位的内存发生了故障,比如本例中的DIMM001,代表CPU1对应的第一个通道的主内存。也可以在主板的丝印上找到这个内存槽位的标示。

建议与总结

END