RH2288H V3配置SAS3108卡在操作系统重启后几率性检测热备盘failed故障

发布时间:  2017-03-06 浏览次数:  501 下载次数:  4
问题描述

三套RH2288H V32008 R2 SP1Raid1+hotspares)重启过程中都几率性检测热备盘状态failed,,槽位都是slot2,开机启动画面停止在“some configured disks have been removed from your system,or are no longer accessible.Please check your cables and also ensure all disks are present.press any key to continue,or"c"to load the configuration utility”,需要敲任意键后才能正常进入系统,同时服务器前面板告警指示灯红灯亮,硬盘故障指示灯也亮,登陆iMana查看硬盘状态failure。如下图所示:

处理过程
 

步骤1、三台服务器同时slot2热备盘检测failed,首先考虑是否阵列卡驱动版本及阵列卡固件版本导致,登陆华为网站确认三台机器版本为最新,登陆lsi网站也未找到更新固件,因此考虑重新做热备盘,重做后反复重启服务器,故障又开始复现

步骤2、开始分析Raid卡日志,利用FusionServer Tools-InfoCollect收集日志,通过日志分析发现热备盘Unalbe to access 后状态由UNCONFIGURED_GOOD 变为 UNCONFIGURED BAD,如下图四所示,当状态BAD后就会导致服务器重启后报错“   some configured disks have been removed from your system,or are no longer accessible.Please check your cables and also ensure all disks are present.press any key to continue,or"c"to load the configuration utility

 

图四:

 

步骤3找到报错提示后继续分析日志发现30分钟后热备电源状态变为POWERSAVE如图五所示

图五:

 

步骤4、通过日志分析判断故障应该在热备盘节能导致,关闭热备盘节能后故障排除。可采取如下两种方法处理

方法一:进入阵列卡配置界面关闭热备节能,不选中“[X]Spin down Hot Spares

 

方法二:复制infocollect里面windows版本的storcli工具到操作系统任意路径

        在CMD命令行切换至storcli路径执行storcli /c0 set ds=off type=4关闭节能模式

根因
热备盘30分钟未使用会处于spun down状态,重启时会概率出现硬盘不能及时上线
解决方案
关闭SAS3108阵列卡热备盘电源节能模式
建议与总结
 

1、 遇见此类故障勿直接更换硬件,需要多分析Raid卡日志,同时利用uMate收集信息分析

2、 多了解阵列卡参数配置

 

END