RH2288 V2服务器内存故障

发布时间:  2015-06-01 浏览次数:  174 下载次数:  0
问题描述

XXX客户工程师邮件通知我方有一台RH2288 V2服务器有红灯告警,该服务器刚开始使用,且还未安装操作系统。

告警信息

通过IPMI管理IP地址登陆服务器iMana系统,发现该服务器有内存告警,截图如下:


处理过程

问题处理过程如下:

(1)首先怀疑内存条是不是松动导致的问题,所以下电后重新插拔了一次DIMM000和DIMM001两个槽位的内存条,结果告警依然存在;

(2)观察DIMM000和DIMM001两个槽位内部是不是有异物,发现两个槽位内均很干净,不存在异物;

(3)下电服务器,采用其他槽位的内存条来替换DIMM000和DIMM001两个槽位的内存条,然后重新上电服务器,服务器告警消失,可以确定是由于内存条引起的服务器告警;

(4)通过观察,发现两根内存条都属于CPU1,且属于同一组。而我司的服务器的内存条配置是一个组的第一根内存条故障到导致该组所有内存条告警,而该组虽然有3个内存条槽位,但实际只在DIMM000和DIMM001两个槽位插了内存条,所以只通过步骤(3)还不能确定是不是两根内存条都故障。

(5)在步骤(3)的基础上下电并将原来DIMM001槽位的内存条插回原槽位,上电后发现服务器一切正常。再下电后将原来DIMM000槽位的内存条插回原槽位,重新上电后,服务器出现DIMM000和DIMM001两个槽位的内存条告警。

所以,可以确定服务器原槽位DIMM000的内存条有问题,并导致了DIMM000和DIMM001的内存条告警。

 

 

根因
通过反复插拔,可以确定服务器不能识别DIMM000槽位的内存条,从而导致该告警。
解决方案
申请内存条备件,更换掉DIMM000槽位的内存条,问题解决。
建议与总结

类似内存条的问题,处理建议如下:

(1)查看是否内存条没插紧;

(2)查看卡槽内是否有异物;

(3)对于内存条告警,如果告警涉及一组内存条内的0号槽位内存条,则建议先排查该0号槽位内存条。

最后,在客户需要紧急恢复服务器且又无法及时获取备件的情况下,建议先用其他组非0号卡槽的内存条来替换掉有问题的0号卡槽内存条,把服务器告警先清除掉,以便客户可以正常使用服务器。带内存条备件到达后,再与客户协商换上新的内存条。

END