OceanStor S2600 资源泄露导致电源报警、多盘及RAID组离线、部分业务中断案例

发布时间:  2013-09-09 浏览次数:  428 下载次数:  76
问题描述
客户反馈S2600业务中断。现场发现S2600同一RAID组5中(4,1)、(4,2)、(4,3)三块盘块盘逻辑故障,RAID组1中(1,2)盘逻辑故障, RAID组4中(4,0)逻辑故障,其中(1,2)和(4,0)均已重构到热备盘,手动恢复后,又出现多个框报电源故障,多块盘逻辑故障,导致RAID组全部故障。经分析,故障原因为S2600故障前业务压力较大,S2600启动器资源暂时耗光导致阵列S2600读写硬盘失败。多块硬盘访盘失败后被置为离线,RAID组失效,导致上层业务中断。经客户同意通过重启阵列释放泄漏的资源,恢复存储的RAID组和LUN。
告警信息
1.磁盘逻辑故障


2.RAID组失效(其一)


3.业务LUN失效


4.告警列表

处理过程
1. 经客户同意通过重启阵列释放泄漏的资源,并恢复存储的RAID组和LUN
2.由于该局S2600版本为(Product version: V100R005C02  Software version: 1.04.05.126.T03)不在补丁版本支持范围内,需要对阵列控制器软件版本升级到补丁支持的S2600R5的V100R005C02SPC009版本,对应小版本号为1.04.05.129.T05,再为阵列打补丁。
注:控制器软件版本升级,可参见升级包中控制器软件升级指导书。
3.控制器版本升级到匹配版本后,通过底层补丁修复来解决该问题。
注:补丁修复可参见“S2600大压力资源泄漏修复补丁操作指导书V1.2”。
根因
日 志 事  件
[2013-03-08 00:13:20][35837756592]IOC Active. No free Msg Frames! Count 0x1e3 Max 0x1e3
[2013-03-08 00:13:20][35837756593]IOC Active. No free Msg Frames! Count 0x1e3 Max 0x1e3
[2013-03-08 00:13:20][35837756593]IOC Active. No free Msg Frames! Count 0x1e3 Max 0x1e3
//SAS驱动资源耗光,达到483的上限(1e3为16进制)。
[2013-03-08 00:23:45][35838380922][5000001b0005][INFO][Set disk 34 media can not rw][RDDISK][RP_SetLocalDi.Status,503]  //(1,2)
[2013-03-08 00:23:45][35838380925][5000001b0005][INFO][Set disk 131 media can not rw][RDDISK][RP_SetLocalDi.Status,503]  //(4,3)
[2013-03-08 00:23:45][35838380929][5000001b0005][INFO][Set disk 130 media can not rw][RDDISK][RP_SetLocalDi.Status,503]  //(4,2)
[2013-03-08 00:23:45][35838380931][5000001b0005][INFO][Set disk 129 media can not rw][RDDISK][RP_SetLocalDi.Status,503]  //(4,1)
//由于SAS驱动资源耗光,硬盘访问失败将被置离线。
2013-03-08 00:23:45    0x201f90004    Critical    None    RAID group (raid-name:RAID05) is degraded.    Disk (enclosure-id:4, slot-id:3) is faulty. Replace this disk.
2013-03-08 00:23:45    0x201f90005    Critical    None    RAID group (raid-name:RAID05) is fault.    If a power failure occurs in the disk enclosure that houses the RAID group (raid-name:RAID05, raid-id:5), power on the disk enclosure again. If the fault persists, please contact technical support engineers.
// 多块硬盘访问失败后,导致RAID组失效。

RAID组失效原因为磁盘阵列SAS驱动资源耗光导致硬盘访问失败,硬盘访问失败后被置为离线;同一个RAID组中多块硬盘被置为离线后,RAID组失效,导致主机业务中断。
电源故障告警原因为系统查询电源状态不成功。系统每1秒会发送命令轮询电源状态,由于电源查询命令会经过SAS驱动;SAS驱动资源耗光后电源状态查询命令也会失败,系统未接收到正确的电源状态,将电源状态都置为Fault状态,并发送了电源故障告警。但实际上电源模块和供电都是正常的,只是由于查询失败而误报电源告警。

建议与总结
综上可知,RAID组失效和电源故障告警的根本原因:在业务压力较大时,阵列SAS驱动资源耗光,最终导致访盘请求和查询电源状态命令失败,为软件版本bug问题。启动器资源泄漏是一个长期积累的过程,当资源耗尽后,就会爆发大面积的硬盘逻辑故障,甚至电源故障,导致业务中断。
问题涉及版本
版本 版本号
S2600R1 1.04.01.215.T08及更早版本
S2600R2 全部
S2600R5 1.04.05.130.T06及更早版本
若当前系统版本在上述范围内,则需要打上该补丁。

END