某公司RH2285H V2服务器RAID重构过程中另一块硬盘故障处理

发布时间:  2015-12-16 浏览次数:  413 下载次数:  1
问题描述

某公司RH2285H V2服务器RAID重构过程中另一块硬盘故障,导致RAID失效

告警信息

硬盘故障,RAID重构失败

处理过程
1.服务器有8块硬盘做RAID5,没有热备盘,之前一块4号盘故障。
2.更换4号故障盘,在重构过程中,1号硬盘故障,RAID组失效。
3.将更换的新硬盘(4号备件硬盘)拔出。
4.重启进入RAID管理界面,默认进入Logic View视图,点击后故障硬盘(重构过程中故障的1号硬盘),进入Drives界面。(截图为示例Logical View视图,实际中看到4号盘和1号故障)

5.选择Make Drive Online,单击Go,单击Yes。使RAID进入降级状态。(截图为示例Drives界面,实际故障盘Drives界面Make Drive Offline变为Make Drive Online)

6.重启服务器,此时服务器应该可以正常工作,先将数据拷出。
7.将新硬盘(4号备件盘)插入。
8.生词服务器进入RAID管理界面,在Drives区域框中,选中新硬盘(4号备件盘),选择Rebuild,并单击Go,进行重构。(截图为示例Drives界面)

9.重构完成后,更换后故障硬盘(1号硬盘);如果重构仍然失败,则更换后故障硬盘(1号硬盘)重做RAID后将第6步拷出的数据拷回。
根因

RAID5只有一个校验位,只允许同时坏一块硬盘,当两块硬盘故障时,RAID失效。更换故障硬盘时,同一个RAID组里另一块硬盘故障,导致RAID失效。

解决方案

通过将后故障硬盘设置Online强行拉起,让RAID进入降级状态,再将数据拷出或者更换新硬盘重构。

建议与总结

1.建议服务器做RAID6,如果要做RAID5,最好加一块热备盘。

2.有告警及时查看,尽早更换故障硬盘。

END