RH2488 V2服务器有内存Correctable ECC告警

发布时间:  2015-05-01 浏览次数:  564 下载次数:  0
问题描述
某客户的多台RH2488 V2服务器,配置4颗E7-4820,32条8GB记忆科技内存条RMS6031EC64FAF-1333,安装ESXi5.1系统。运行一段时间后,BMC中出现Correctable ECC @DIMM2A(CPU1)-Asserted告警,如下图所示:
告警信息

出现此告警以后,vCenter虚拟机不能自动迁移,只能手动迁移。
处理过程

排查步骤如下:

1)             将DIMM2A(CPU1)上的内存(即P1-DIMM2A)更换成备件Hynix 8GB内存,仍然报P1-DIMM2A有ECC。

2)             将P1-DIMM2A上的Hynix 8GB内存与其他槽位上的记忆科技内存对换,内存压测两天发现ECC跟着Hynix内存走,内存压测第三天,ECC再次出现在P1-DIMM2A槽位的记忆科技内存上。

3)             将报ECC的内存单独安装到RH2285H V2上压测,未发现ECC。初步排除内存本身问题。

4)             更换主板,再次进行压测。当全部使用记忆科技内存时,P1-DIMM2A再次出现ECC。

5)             全部更换成三星8GB内存(20根三星M393B1K70DH0-CH9(原厂验证8GB内存)、4根M393B1K70DH0-YH9(华为06200111的8GB内存)、6根M393B1K70CH0-CH9的8GB三星内存),未发现有ECC问题。

判断Correctable ECC @DIMM2A(CPU1)-Asserted为误报。

6)             重启服务器,将BIOS中,Advanced >> Advanced Chipset Control >> Cpu Bridge Configuration >> Integrated Memory Controller Configuration >> ECC check time interval,将默认的5 minutes改成Disabled,如下图所示:


将此项值置为Disabled之后,BMC中不再记录误报的ECC信息,VMware中也不会收到这个误报。同时,内存条本身的ECC纠错功能仍然使能,一旦内存真的发生单bit错误,仍然可以通过ECC纠错,从而保证系统的正常运行。

根因
满配记忆科技内存后出现内存ECC误告警,vCenter通过IPMI获取到此告警后,导致虚拟机自动迁移失败,需要手动迁移。
解决方案
重启服务器,按DEL键进入BIOS,将BIOSAdvanced >> Advanced Chipset Control >> Cpu Bridge Configuration >> Integrated Memory Controller Configuration >> ECC check time interval,将默认的5 minutes改成Disabled
建议与总结

部分型号的内存可能会出现ECC误告警。

记忆科技内存常见误告警槽位为P1-DIMM2A

Hynix内存常见误告警槽位为P1-DIMM1BP1-DIMM2B

BIOS中,Advanced >> Advanced Chipset Control >> Cpu Bridge Configuration >> Integrated Memory Controller Configuration >> ECC check time interval,由默认的5 minutes改成Disabled,不影响内存本身的ECC功能,只是不再记录相关日志。

END