RH2285服务器1TB SATA硬盘故障

发布时间:  2014-12-22 浏览次数:  992 下载次数:  0
问题描述
某局点一台RH2285服务器硬盘故障报修,客户对华为RH2285机器硬盘的物理槽位分布和告警状态不熟悉,让安排工程师现场分析处理。
告警信息
到达现场发现机器满配12个1TB SATA硬盘,其中2pcs硬盘Fault指示灯黄灯常亮告警、HLY健康指示灯红色闪烁告警。如下图所示:

处理过程
1、跟客户沟通了解12pcs硬盘配置raid5和raid1,其中1~5号槽位5个硬盘配置1个raid5阵列,6~10号槽位5个硬盘配置1个raid5阵列,11~12槽位2个硬盘配置raid1(其中:11~12槽位为系统盘)。

2、RAID 5中,在一块硬盘发生故障后,RAID组从ONLINE变为DEGRADED方式,但I/O读写不受影响,直到故障盘恢复。但如果在DEGRADED状态下,又有第二块盘故障,整个RAID组的数据将丢失。

3、本次2pcs故障硬盘分布在2个raid5阵列中,根据客户要求先更换7槽位故障硬盘,更换故障硬盘后该raid5组中的5个硬盘指示灯同步闪烁(更换的硬盘active指示灯和fault指示灯同步闪烁,其余4个硬盘Active指示灯同步闪烁)自动进行数据重构。
根因
raid5阵列组中的1pcs硬盘故障导致LSI逻辑盘降级,根据硬盘Fault指示灯状态分析是硬盘掉线和故障引起。
解决方案
根据硬盘Fault指示灯状态更换指定的故障硬盘,更换硬盘后raid5阵列的其余4pcs硬盘根据数据信息和奇偶校验信息自动参与rebuild重构,将数据拷贝到新更换的硬盘中,没有业务中断,没有造成客户数据丢失。
建议与总结
1、RH2285 R1版本服务器硬盘排序规则是从上到下,从左往右,编号slot number从1开始。其它机架机器服务器硬盘排序规则大都是从上到下,从左往右,编号从0开始。因此在处理RH2285 R1老版本机器硬盘更换时要注意硬盘排序规则,避免拔错硬盘造成客户数据丢失。硬盘排序规则如下:


2、客户现场raid配置不清楚时,要跟客户沟通了解raid配置和对应硬盘分布,不要盲目拔掉raid5中的其它硬盘造成双盘失效数据丢失问题。

END