RH2288 V3硬盘重构过程中插拔硬盘出现硬盘故障

发布时间:  2015-09-27 浏览次数:  286 下载次数:  0
问题描述

XX客户处有一套singleCLOUD桌面云业务系统,其硬件基础为一台RH2288 V3服务器,该服务器后置硬盘DISKA存在健康分数过低告警。于是客户更换了新硬盘,但新硬盘更换后,由于无法打开iMana,无法及时查看新硬盘状态,且业务系统上硬盘健康度分数过低告警依然存在,所以客户再次拔出硬盘,且时隔1min后再次插入。结果业务系统出现DISKA故障告警。

该服务器RAID卡型号为LSI2208,BOQ信息如下:

  RAID Card and Other Accessories  
02310KTL BC1MESMDR802 Functional Module,Tecal RH2285,BC1M02ESMD,LSI 2208 RAID Card,SR320,RAID0,1,10,5,50,512MB,16 HDD,Board ID 0X22,Commercial Computer Only 1

告警信息

业务系统上的硬盘故障告警如下:


随后登录iMana管理界面,发现以下硬盘故障告警。

处理过程

处理分析过程如下:

1、通过FusionServer Tools-InfoCollect-V103工具搜集MCNA节点的操作系统日志信息;

2、通过日志信息和操作过程分析,初步确定该故障是由于硬盘重构过程中新硬盘被拔出所导致;

3、拔出新硬盘,等待1分钟后再次插入;

4、上传FusionServer Tools-InfoCollect-V103工具中MegaCli RPM软件包到MCNA节点,并通过以下命令安装:


4、找到MegaCli软件安装位置,并执行以下命令:

将新硬盘状态设置为good;

5、通过命令:./MegaCli64 -pdlist -a0查看该新硬盘状态为:

6、通过命令./MegaCLI64 -cfgforeign -import -a0重新接入硬盘;

7、再次查看硬盘状态,状态信息如下:


新硬盘已经进入重构状态。

8、返回iMana和业务系统,硬盘故障告警消失。

根因

根本原因如下:

新硬盘重构过程中被突然拔出,导致系统认为硬盘故障,所以在设置该硬盘状态为good后重新接入,硬盘状态恢复,告警消失。

解决方案

硬盘重构过程中不要拔出硬盘,且需要确定硬盘状态则必须登录iMana进行确认。因为业务的硬盘告警可能由于其他原因而不会马上清除。

END