S5600T存储系统高温自我保护原因导致硬盘故障

发布时间:  2014-09-04 浏览次数:  171 下载次数:  0
问题描述
某局点客户反馈S5600T存储业务中断,存储无法访问。
现场发现客户机房空调故障,机房温度过高,导致设备运行高温进行自我保护对设备下电。设备上电后发现硬盘红灯告警,ISM检查设备“提示硬盘故障,正在重构”,等硬盘重构完成,使用备件盘进行更换,发现ISM界面告警中不断提示“正在回拷,回拷失败,回拷进度0%”。
告警信息
1.ISM告警信息
槽位(1,23)的硬盘Copyback操作频繁开始/停止。

2.CLI命令查看硬盘状态

处理过程
1.起初怀疑备件硬盘问题,拿另一块硬盘进行更换,发现问题依旧。
2.收集日志信息进行分析,发现日志存在LUN频繁进行Failover导致,查询LUN映射信息。该LUN为一套2节点的Linux集群服务器使用,系统已经安装华为多路径软件。与客户沟通后,暂时关闭多路径软件的Failover功能,硬盘回拷可顺利完成。回拷完成后,开启Failover功能,原问题未复现,问题解决。
根因
分析系统日志发现存在LUN频繁进行Failover切换。
[2014-05-30 13:16:52][3523399][80015000000e0226][Failover lun0 to controller1 direct.][]]
[2014-05-30 13:16:52][3523399][80015000002f05b2][Cut sys command opcode 23 from list][]]
[2014-05-30 13:16:52][3523399][80015000002f064b][Send command [23](SYS_OP_SET_LUN_WORK_CONTROLLER) to handle][]]
……………………过程内容省略
[2014-05-30 13:16:52][3523429][80015000002f064d][Command [23](SYS_OP_SET_LUN_WORK_CONTROLLER) handle succeeded][]]
[2014-05-30 13:16:52][3523429][80015000002f05b1][][]
[2014-05-30 13:16:52][3523429][80015000000e00e4][Failover LUN 0 to controller 1 success][]]
[2014-05-30 13:16:52][3523429][80015000002f0650][Command [23](SYS_OP_SET_LUN_WORK_CONTROLLER) handle finish][]]
   //Failover切换LUN 0到控制器1
[2014-05-30 13:17:06][3527111][80015000000e0226][Failover lun0 to controller0 direct.][]]
[2014-05-30 13:17:06][3527111][80015000002f05b2][Cut sys command opcode 23 from list][]]
[2014-05-30 13:17:06][3527111][80015000002f064b][Send command [23](SYS_OP_SET_LUN_WORK_CONTROLLER) to handle][]]
……………………过程内容省略
[2014-05-30 13:17:06][3527137][80015000002f064d][Command [23](SYS_OP_SET_LUN_WORK_CONTROLLER) handle succeeded][]]
[2014-05-30 13:17:06][3527137][80015000002f05b1][][]
[2014-05-30 13:17:06][3527137][80015000000e00e4][Failover LUN 0 to controller 0 success][]]
[2014-05-30 13:17:06][3527137][80015000002f0650][Command [23](SYS_OP_SET_LUN_WORK_CONTROLLER) handle finish][]]
   //Failover切换LUN 0到控制器0
   日志文件中上述过程不断重复
建议与总结
由于设备运行温度过高导致下电,集群多路径软件检测到故障进行Failover切换,2个节点均无法正常访问存储,频繁对LUN进行切换。设备再次上电后,多路径软件未恢复正常状态,依然频繁对LUN进行切换导致硬盘回拷失败。手工设置Failover功能,多路径状态恢复正常。

END