所选语种没有对应资源,请选择:

本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

提示

尊敬的用户,您的IE浏览器版本过低,为获取更好的浏览体验,请升级您的IE浏览器。

升级
案例库

FAQ-RH5885H V3 2块系统盘同时故障如何处理

发布时间:  2019-06-28  |   浏览次数:  112  |   下载次数:  2  |   作者:  xWX479034  |   文档编号: EKB1100020479

目录

问题描述


问题现象描述
硬件配置:2208raid卡+2x 900G HDD硬盘,客户在机房现场发现两个硬盘同时故障,然后尝试拔盘手动恢复,此时已经影响客户业务下发,需要分析硬盘同时故障原因。

解决方案

1. 分析日志硬盘disk0和disk1无坏道,无异常,查看各盘的media error count、other error count和Predictive Failure Count,可以看到都是0。


2. message日志中,对应时间点无Raid卡,磁盘等异常打印。

3. Raidsasraidlog日志中,发现如下打印:

03:36:51时间,看到wide port 0 lost link on Phy X的打印时,说明RAID-SAS线缆-硬盘背板PortB之间的链路出现了不停的闪断。

16153: 19-01-14,03:36:40 WARNING:SAS wide port 0 lost link on PHY 4

16154: 19-01-14,03:36:40 WARNING:SAS wide port 0 lost link on PHY 5

16155: 19-01-14,03:36:40 WARNING:SAS wide port 0 lost link on PHY 6

16156: 19-01-14,03:36:40 WARNING:SAS wide port 0 lost link on PHY 7

同时查看链路误码,发现硬盘背板接收端之间确实存在有链路误码:


但是在Raid卡接收端没有发现误码计数,说明是硬盘背板PortB-SAS线缆-Raid”的回路没有发现误码。

Disk0disk1出现异常Error,随后状态从online置成sheild进行故障诊断,此时对应的RAID1optimal变成degraded降级再变成offline状态;

16157: 19-01-14,03:36:51 WARNING:Error on PD 02(e0x00/s1) (Error f0)

16158: 19-01-14,03:36:51 Info:State change on PD 02(e0x00/s1) from ONLINE(18) to SHIELD(90)

16159: 19-01-14,03:36:51 Info:State change on VD 00/0 from OPTIMAL(3) to DEGRADED(2)

16160: 19-01-14,03:36:51 CRITICAL:VD 00/0 is now DEGRADED

16161: 19-01-14,03:36:51 WARNING:Error on PD 01(e0x00/s0) (Error f0)

16162: 19-01-14,03:36:51 Info:State change on PD 01(e0x00/s0) from ONLINE(18) to SHIELD(90)

16163: 19-01-14,03:36:52 Info:State change on VD 00/0 from DEGRADED(2) to OFFLINE(0)

16164: 19-01-14,03:36:52 FATAL:VD 00/0 is now OFFLINE

03:36:53磁盘disk0disk1shield状态变成 failed,系统挂死重启

16167: 19-01-14,03:36:53 CRITICAL:Diagnostics failed for PD 02(e0x00/s1)

16168: 19-01-14,03:36:53 Info:State change on PD 02(e0x00/s1) from SHIELD(90) to FAILED(11)

16169: 19-01-14,03:36:53 CRITICAL:Diagnostics failed for PD 01(e0x00/s0)

16170: 19-01-14,03:36:53 Info:State change on PD 01(e0x00/s0) from SHIELD(90) to FAILED(11)

16171: 0:0:0 Info:Firmware initialization started (PCI ID 005b/1000/d206/19e5)


结论:“Raid-SAS线缆-硬盘背板之间链路出现了闪断造成硬盘异常。

 

解决方案:需申请1块硬盘背板和1SAS线缆,更换硬盘背板和SAS线缆。

 

更换方法:

参考RH5885H V3 服务器 V100R003 用户指南 - 拆卸和安装RH5885H V3的部件-拆卸/安装硬盘备板(8硬盘&23硬盘配置)

 SAS线缆连接图请参考RH5885H V3 服务器 V100R003 用户指南 产品简介-内部布线-8&23硬盘配置的内部布线

RH5885H V3 服务器 V100R003 用户指南https://support.huawei.com/enterprise/zh/doc/EDOC1000039563/3e0944ef