XX局点S2600T异常掉电引起硬盘离线

发布时间:  2015-10-08 浏览次数:  218 下载次数:  0
问题描述
XX局点S2600T异常掉电,(0.3)、(0.4)、(0.5)、(0.6))、(0.7)硬盘全部离线,业务中断。
告警信息
控制框告红灯,硬盘离线
处理过程
1、 恢复供电后,通过Putty等工具ssh登录存储。
2、 使用命令showdisk –p 和 showdisk –l记录物理状态和逻辑状态都为Fault的硬盘。
3、 切换到Develop模式,使用命令: revivedisklun -lun lun id -e enclosure id -s slot id -rg raid group id拉起状态为Fault的硬盘。
4、 重启控制器,确认离线硬盘都正常,业务恢复正常。

根因
1、 EVENT告警中记录存储发生掉电:
2015-08-13 16:23:53    0x1202150014    Infor    None    A power failure [external power failure] occurred in the system.
2、 在对应时间点的SES日志中,记录过电源模块告警:
[324][15.08.13.16:23.08] [0x1bce9850] Power 0 status change to 2
[325][15.08.13.16:23.08] [0x1bce9850] 0 = unknown; 1 = not present; 2 = power off; 3 = power ok
[326][15.08.13.16:23.08] [0x1bce9862] Power 0 alertInfo1 change from 0x00 to 0x04
[327][15.08.13.16:23.08] [0x1bce9862] Power 0 alertInfo change  from 0x00 to 0x04
[328][15.08.13.16:23.08] [0x1bce986a] Power 1 status change to 2
[329][15.08.13.16:23.08] [0x1bce986a] 0 = unknown; 1 = not present; 2 = power off; 3 = power ok
[32a][15.08.13.16:23.08] [0x1bce987c] Power 1 alertInfo1 change from 0x00 to 0x04
[32b][15.08.13.16:23.08] [0x1bce987c] Power 1 alertInfo change  from 0x00 to 0x04
根据存储日志显示从控制框2个电源模块状态同时切换到power off状态并且电源告警错误码0x04,确定告警原因为外部输入掉电导致。
解决方案
本次故障主要因为客户存储两个电源都是接入UPS,因UPS故障导致存储电源异常掉电,控制器下电。通知客户整改电源问题,分两路接入存储。
建议与总结
1、 建议客户前期施工严格按照工程配电方案实施
2、 定期对设备软硬件巡检,及时发现安全隐患

END