Tecal RH5885V3机架服务器系统宕机的问题

发布时间:  2015-04-14 浏览次数:  540 下载次数:  17
问题描述

一台RH5885 V3出现系统宕机,BMC中上报CPU相关错误信息。

现场反馈截图信息如下:

告警信息

日志中在11174:47分出现caterr告警,并且在重启之后出现内存告警DIMM631:



处理过程

1、由于已投入生产的服务器无法收集OS日志,客户不帮忙收集OS日志信息。

2、使用U盘检测工具,对服务器中的内存,进行全面的检测,排查出可能存在的故障内存条。

1)硬件检查结果正常:

2)内存检测结果正常:

3)内存拷机结果,出现一根内存故障DIMM420),更换此槽位内存后,重新开机,又报(DIMM431)内存错误,再次从新开始后,复又报(DIMM420)出错,排除是内存故障。



4)内存评分,U盘检测工具对服务器进行内存评分的时候,发现有一个内存板上的所有内存(实际上插了4根内存条)都没识别到。


3、综上分析,故障是主板故障,导致内存不能识别、报错,从而导致CPU寄存器记录异常信息,导致CPU报错。更换主板后服务器运行正常,故障处理结束。








根因

产生CPU CAT error的原因:

硬件上,由于CPU、内存和网卡的故障导致

软件上,操作系统挂死,从而导致CPU寄存器记录异常信息,也会产生。

BMC日志分析,发现服务器A中有内存告警

由于缺少操作系统日志,无法判断是否存在系统本身异常挂死的问题。

 

解决方案

BMC上报 CPU CAT error,并非指CPU本身的故障,而是BMC检测到CPU内故障记录的寄存器有错误信息时,会产生告警记录,可通过

硬件检查,内存检测,内存拷机结果判断主板故障,更换主板,故障解决。

建议与总结

1、在故障出现后,不要立即更换故障件,要分析故障的根本原因,找出最终的解决方案。
2、设备故障排查前,做好故障排除步骤,一步一步排查故障、并参考产品文档故障处理。

END