S2600存储单路断电测试

发布时间:  2014-09-04 浏览次数:  194 下载次数:  0
问题描述
1、存储组成:冗余双控制框+7*硬盘框,主机端业务涉及到VMware虚拟化平台,红帽平台下的Oracle数据库RAC集群等;
2、客户对双控存储进行掉电演练,在对华为存储A控侧连接的PDU电源断电后,发现设备告警灯亮,3号硬盘框的所有电源指示灯全灭,仅框柜风扇仍然继续工作,通过ISM查看,此时3号硬盘框的RAID组出现故障。3、S2600存储在A控侧PDU电源断电后,通过日志确认3号框出现电压不稳现象,电压从12V跌落到9.5V,该硬盘框无法满足额定电压供电需求,因此3号框的所有硬盘同时离线,导致RAID组失效。4、3号框11个硬盘创建了一个RAID组,划分2个LUN做数据归档业务,RAID组故障,导致归档业务暂时不可用。
告警信息
1、在掉电完成后约8秒后,3号框所有硬盘同时离线,RAID组RAID004变为故障状态。2、系统检测到B控的电压不满足对该硬盘框供电的需要,于是系统将该框的硬盘整体下电
处理过程
1、登录存储,收集故障存储信息。
2、确认故障现象和确认业务恢复方案(为了避免双控电源都存在异常隐患,申请两块硬盘框电源,在业务压力小的时间点,对3号硬盘框的电源全部进行更换)。
3、完成对存储RAID组的恢复,请客户继续恢复业务。
4、客户完成主要业务恢复,并验证数据完整性。
根因
1、3号硬盘框的电源供电异常;当A控侧PDU停止供电后,B控的电源电压无法达到正常供电需求,整框硬盘同时掉电。2、存储硬盘框正常工作电压为12V,从存储日志中发现:在A控侧断电时间点,3号框B控的电源电压降为9.5V,并且持续在9.4~9.5V之间波动。3、客户继续对B控侧进行电源掉电演练,但是未再出现电压波动情况,由此能断定此次3号硬盘框硬盘全部离线是由于B控的硬盘框电源出现异常导致
(框柜电源异常原因需要将电源返回原厂研发后进一步分析。)
建议与总结
1、为了避免双控电源都存在异常隐患,申请两块硬盘框电源,在业务压力小的时间点,对3号硬盘框的电源全部进行更换。2、通过此次演练发现虽然当前设备均设计为冗余结构,但是系统演练还是尽量选择在生产业务压力较小或业务空闲时候进行,万一出现故障对业务的业务系统的影响也能降至最低。3、通过此次演练发现的故障问题经过分析与处理最终成功解决,总结发现演练的行动还是必要的(只是还是演练时间点的选择还是要尽量选择在对业务系统较为空闲的时间段进行),能尽早发现问题,能在有准备的情况下发现问题。

END