S5000巡检控制器温度巡检不通过

发布时间:  2015-03-25 浏览次数:  114 下载次数:  0
问题描述

日常存储设备巡检,发现控制器温度巡检不通过

同时伴随着电池寿命也不减少:

告警信息
处理过程

1.登录主控制器的mml模式。检查存储A、B控制器日志,确认是否有如下频繁异常打印,该打印表示为读取硬件寄存器超时,如果A控制器出现该打印说明A控制器的I2C通信出现异常导致,需要复位A控制器的SES尝试恢复

BSP_ReadSMBByte:7696 <2755fbafbb46d3>: Timeout!Read SMBus register failed.

2.主机上检查多路径是否生效,即主机到A、B控制器都有路径存在。
3.登录存储,showlun记录所有LUN的归属控制器。
4.chglun -i x -c b(x为步骤3查询到的归属为A的lun id),依次修改上述归属A的LUN到B控制器(间隔30s)。注:如果异常控制器为B,需要修改归属为B的LUN到A控制器上
5.输入debug,密码654321,再次输入mml,进入mml模式
6.mml模式下输入dev sesreset
7.然后exit退出到命令行下,再次showtemperature -t 0是否能查到温度信息,如下示例温度恢复正常。


如果恢复正常,参考步骤3,把原来归属A的LUN还原到A(chglun -i x -c a)。
如果无法恢复正常,建议更换A控制器。

END