西数SATA盘因报abort cmd而失效的处理措施

发布时间:  2013-06-09 浏览次数:  607 下载次数:  43
问题描述
在CLI命令行输入showdisk –l,发现西数SATA盘逻辑fault,输入showdisk -p,发现硬盘物理状态也是fault。
1. 通过CLI命令showdisk –p查看硬盘SN为WD-××××,且firmware为03.00C06;
2. 分析A控的messages日志,搜索关键字sensekey,判断失效原因是否为abort command(sensekey=0xb asc=0x0 ascq=0x0):

由于硬盘返回Aborted Command(0xb)错误码,导致IO失败,于是RAID置盘不可读写,硬盘逻辑失效,若返回此错误码,访问硬盘的IO都会失败,且此错误码我们无法处理,正常情况下,西数SATA盘不会返回0xb错误码。
告警信息
处理过程
1. 现场临时解决措施:若确认是因Abort Command故障,换盘或拔插硬盘可恢复。
2. 后续彻底解决措施:升级硬盘的firmware,但升级硬盘firmware需暂停业务。
3. 升级硬盘firmware方法详见下面指导书:
升级方法遵循的原则:保证阵列外部和内部都没有IO,否则升级可能失败。
适用于S2600R1:请参见
适用于S2600R5:请参见
升级硬盘fw需要上传到阵列的文件(需要解压后上传):请参见
根因
西数SATA盘返回Aborted Command错误码问题,西数已确认,该问题为西数SATA盘自身的firmware问题,建议升级硬盘的firmware解决。
建议与总结
硬盘恢复后,showdisk –p和showdisk –l看到的硬盘的物理、逻辑状态都是normal的。

END