OceanStor 18800硬盘故障问题

发布时间:  2016-01-28 浏览次数:  250 下载次数:  0
问题描述
1月6日21:38:17,存储报硬盘域降级,硬盘域中的硬盘被拔出告警,在21:38:37报硬盘重新接入,随后告警恢复。
告警信息
1月6日21:38:17,存储报硬盘域降级,硬盘域中的硬盘被拔出告警,在21:38:37报硬盘重新接入,随后告警恢复。
处理过程

日志分析

1、 存储事件记录如下:
 2015年11月6日21:38:17硬盘DAE000.20从系统中removed;
 随后上报硬盘被移出硬盘域0006_D10告警,硬盘域0006_D10降级告警;
 21:38:46硬盘DAE000.20重新接入,随后告警恢复。

2、 底层驱动的日志在相同时间点也记录了硬盘在链路上发生了物理断开和恢复连接。该现象与硬盘内部自复位修复会导致数秒间隔内先后上报out/in事件吻合。
3、 硬盘故障重构机制:硬盘断开/接入间隔时间小于2分钟,系统暂不会执行硬盘重构,通过降级读写的方式保证IO正常访问和数据正确保存,并记录期间的数据变化地址,以便硬盘接入后快速将变化地址的数据恢复重构入硬盘。超过2分钟未接入,系统会通过热备空间对该硬盘中的数据进行完全重构。
4、 存储事件记录如下:
 21:38:56 开始“恢复重构”并在同一秒重构完成;
 21:38:56开始均衡,21:39:24均衡结束;

恢复重构1s内完成表明数据变化量较少或无;恢复重构完成后会例行启动均衡流程,遍历所有空间是否有需要均衡的数据,由于对硬盘数据遍历会耗用一定时间,此次均衡流程耗时28秒。

硬盘内部主动自复位详细介绍

1、厂商手册定义
各硬盘厂商都对其硬盘有类似的主动自复位机制。本次故障硬盘为希捷SAS硬盘,希捷对该机制命名为:“FLASH LED”。

日立厂商的硬盘主动自复位机制命名为:“Self-Initiated reset”。

硬盘主动进行自复位流程是硬盘自我修复和错误处理的常规机制之一,通过主动复位,能将硬盘状态快速恢复正常并可继续使用,最大程度保证系统运行,提高硬盘可用性。
2、硬盘闪断自复位的场景
目前硬盘在运行过程中常见的闪断修复场景如下:
 硬盘电机管理系统(简称伺服系统)运行中出现异常,硬盘Firmware需要通过复位对伺服系统和硬盘健康状态进行纠正。
 硬盘控制芯片接收到意外的硬件中断信号,硬盘Firmware需要通过复位对硬盘自检,使硬盘恢复正常状态。
 硬盘PCB电路板上内存出现奇偶校验错误,导致硬盘Firmware运行状态出现异常,需要复位进行恢复。
 硬盘Firmware出现空指针、数组越界等Firmware自身软件问题,需要复位修复。
此次硬盘具体复位原因需要使用硬盘分析器收集硬盘内部日志,并将未消磁的硬盘返回硬盘原厂详细分析才能给出。

解决方案

1、更换产生告警的硬盘

2、 硬盘自复位是硬盘的常规故障和修复模式之一,基于中国建设银行的业务重要性,对于此类故障华为公司采取更换硬盘的策略,彻底消除硬盘隐患,保证系统和业务正常运行。

3、 例行对设备(含硬盘)进行巡检,提前识别存在风险的部件,对高风险部件进行预更换。

根因

DAE000.20硬盘出现故障发生闪断。
硬盘闪断的原因为在运行过程中检测到可修复性错误,硬盘内部主动复位,进行自修复。该过程属于硬盘自身的错误处理和修复机制,通过主动复位,能将硬盘状态快速恢复正常并可继续使用,最大程度保证系统运行。
由于该硬盘域配置RAID6,硬盘单盘闪断不会影响业务连续性和数据安全性。

系统报硬盘被拔出短时间后又重新接入根本原因为:硬盘发生了主动自复位修复。硬盘自复位原因可收集硬盘内部日志,并将未消磁的硬盘返回硬盘厂家分析。

解决方案

1、更换产生告警的硬盘

2、 硬盘自复位是硬盘的常规故障和修复模式之一,基于中国建设银行的业务重要性,对于此类故障华为公司采取更换硬盘的策略,彻底消除硬盘隐患,保证系统和业务正常运行。

3、 例行对设备(含硬盘)进行巡检,提前识别存在风险的部件,对高风险部件进行预更换。

建议与总结
此类硬盘故障可通过硬盘内部自复位进行错误修复,该硬盘域已配置RAID6冗余机制,在硬盘自修复期间,可保证业务正常读写,数据正确保存。当硬盘重新接入后,系统能够通过恢复重构机制,将闪断期间的变化数据快速重构入原硬盘,保证硬盘域完全恢复正常。
硬盘在2分钟内的自动断开/接入,数据由降级读写机制记录到其他硬盘上,可以保证硬盘闪断期间的数据不会丢失。
该设备上硬盘域配置为RAID6和RAID10,单个硬盘闪断不会影响业务连续性和数据安全性。

END