RH5885 V3 报CPU CAT error

发布时间:  2015-08-26 浏览次数:  540 下载次数:  0
问题描述
客户反映RH5885 V3服务器,操作系统为Windows2008 R2,偶尔无法进入系统,重启服务器之后服务能正常运行一两个小时,然后又宕机,登录iMana检查发现CPU 1,CPU2,CPU3,CPU4报CAT error 。
告警信息

通过iMana管理平台检查告警信息

处理过程

1、进入BIOS检查是否有开启节能模式,BIOS节能都是关闭的

2、通过命令行模式登录BMC,检查imana和BIOS版本,发现版本过低,升级BIOS版本至V317、iMana版本至V712

3、输入命令ipmcget -t maintenance -d cpld -v 0x86  检查BIOS串口全打印为关闭




4、输入命令ipmcset -t maintenance -d cpld -v 0x86 0x10,设置寄存器(地址0x86)值为0x10,开启BIOS全打印功能



 

5、重启服务器,通过 FusionServer Tools uMate工具抓取fdm日志

6、收集完日志之后, 命令模式登录BMC,输入命令ipmcset -t maintenance -d cpld -v 0x86 0x00,设置寄存器(地址0x86)值为0x00,关闭BIOS全打印功能

 

 

7、收集OS日志,将OS日志和BMC全日志反馈给研发分析定位

8、研发反馈,从日志中并未发现有明显错误,但怀疑主板有异常,建议更换主板

9、申请主板到现场更换后,长时间观察服务器运行正常,cat error也消失了 。

解决方案
若遇到类似问题可先排查是否开启节能模式,再收集OS日志和BMC全日志,通过分析日志,排查出具体故障点以解决该问题。

END