【RH5485】SUSE10操作系统突然死机

发布时间:  2014-09-19 浏览次数:  524 下载次数:  0
问题描述
OS:SUSE 10 -x64
配置有外置HBA卡
客户现场RH5485安装的是SUSE10操作系统,服务器突然死机,现场强制将设备关机,再开机后问题解决,之前设备有亮黄灯。根据分析,为NMI告警。DSA日志请参考附件。
该机器为业务运行中的服务器,导致业务中断。
告警信息
设备亮黄灯
处理过程
指导现场收集DSA日志,查看日志后,发现如下记录:
    Chassis Event Log 11/20/2011 08:22:54 PLAT0228 A software NMI has occurred on system "SN# 0683722" Major
    Chassis Event Log 11/22/2011 12:05:15 PLAT0240 A Uncorrectable Bus Error has occurred on system "SN# 0683722" Major
Chassis Event Log 11/22/2011 12:05:27 PLAT0241 System "SN# 0683722" has recovered from an Uncorrectable Bus Error Information
判断是PCI设备导致NMI告警。系统意外死机和HBA卡与PCI槽位之间的连接有关系。
关机,掉交流电。将HBA卡换一个槽位,确保安装正常。或者重装安装HBA卡,确保安装正常。然后重启服务器既可解决问题。
根因
PCI设备的接触问题导致NMI告警,系统意外死机与HBA卡与PCIe槽位的连接有关。
建议与总结
HBA卡和槽位本身都没有问题。建议现场更换HBA卡槽位,或者重新安装HBA卡。

END