FAQ-硬盘隔离如何处理

发布时间:  2014-10-14 浏览次数:  232 下载次数:  0
问题描述
硬盘隔离如何处理?
解决方案
硬盘隔离的可能原因有如下三个:

Ø 误码

Ø 反复拔插硬盘

Ø 硬盘电源接触出现问题

1 误码

查看SAS后端硬盘误码情况

SES日志中搜索关键字err inc 和 disable disk phy



说明:

日志中的phy:9 phymon***disable disk phy表示Phy 9被隔离,即9号槽位硬盘被隔离(phy0~phy23对应硬盘0~23)。

处理建议:

1, 拔插故障硬盘前,收集硬盘的S.M.A.R.T信息。

2, 在允许的条件下,将隔离硬盘插入到其他槽位,判断隔离现象是跟着硬盘走还是跟着槽位走。假如跟着硬盘走,申请硬盘备件进行更换。若跟着槽位走,观察槽位内是否有异物。

查看FC硬盘误码:

SES日志中搜索FC误码关键字lcv:


说明:

看到HD 0,lcv ffff表示0号槽位产生了大量误码,0号槽位隔离为误码导致,由于FC后端误码具有扩散性(即:端口上产生的误码可能传播到盘上),当FC盘被隔离时,需进一步考虑是否端口产生误码,有两种方式查看端口是否产生误码:

通过ISM界面来查看:



在MML模式下输入fc allinfo查看,显示结果如下:



说明:

以上有任何值如不为0就表示有误码,如果端口上检测到误码,则需要先排查是否链路上存在误码,排查方法请查看《误码导致FC框硬盘单链路故障案例》。

处理建议:

如果只有一块硬盘出现故障,请按上诉方法进行排查,如果是链路的问题,更换光模块和光纤线并继续确认故障源;如果不是链路问题,按照SAS硬盘一样的方法进行处理。

如果有多块硬盘出现故障,请按照《误码导致FC框硬盘单链路故障案例》进行排查。

2 反复拔插硬盘

说明:

驱动对于硬盘有闪断隔离策略,多次频繁拔插硬盘有可能导致硬盘隔离。请确定该盘是否短时间内进行了多次频繁拔插,如果存在该情况,那么就可能是由于重新拔插硬盘后导致的硬盘隔离

处理建议:

再次拔插该硬盘即可恢复。

3 硬盘电源接触出现问题

说明:

如果硬盘框出现震动等外力影响,有可能导致硬盘的电源接触出现问题,从而导致硬盘被隔离。

处理建议:

联系研发进一步分析。



END