E9000 SMM板出现Critical overtemperature告警

发布时间:  2016-03-02 浏览次数:  135 下载次数:  0
问题描述

E9000 SMM板出现Critical overtemperature告警,实际机房温度正常。业务无影响,服务器正常运行。
告警信息如下:

Chassis Serial#:12,Blade:blade3,Sensor:CPU1 Memory,Event:Critical overtemperature,Severity:Deassertion [Major],Event Code:0X0C8AFFFF

告警信息

Chassis Serial#:12,Blade:blade3,Sensor:CPU1 Memory,Event:Critical overtemperature,Severity:Deassertion [Major],Event Code:0X0C8AFFFF

处理过程

1,该告警代表CPU内存温度过高,产生该告警有两种可能原因:

1)机房问题偏高,服务器散热不够,CPU内存问题确实过高;

2)误告警,实际温度正常。

 

2, 通过实际检查确认机房温度正常,因此怀疑是误告警。

 

3,下一步检查SMM新版本中是否有解决过该类问题,在MM910最新版本说明中,可以看到在V516中,解决了该问题。

 


4, 检查MM910版本,发现低于5.16, 确认该问题是误告警产生,可以通过升级MM910解决。 同时根据版本说明书,CH140V3的CPLD也需要响应升级到V1.00

 

根因

版本的误告警,需要通过升级解决。

解决方案
升级MM910到V516或以上版本。
建议与总结

如果发现设备上有告警提示某系部件异常,但是实际检查发现一切正常时,需要考虑是否误告警。

如果是误告警,一般可以检查最新的版本说明书,看看历史版本中是否有解决该类误告警。

END