FAQ-双盘失效后手动标记BST

发布时间:  2014-10-15 浏览次数:  283 下载次数:  0
问题描述
  • BST功能版本的阵列发生双盘失效,RAID组失效。
  • 故障硬盘sense key为Medium Error,Additional sense为不是下列任一错误码UNRECOVERED、DATA SYNCHRONIZATION MARK ERROR、DATA SYNC ERROR - RECOMMEND REWRITE,系统踢盘(如果为上述任何一种错误码,控制器软件有BST,系统会自动标记或修复)。
  • 确认sense key方法为在A、B控制器的/OSM/log/cur_debug/messages里搜索关键“Current sd”,查看该关键后的部分是否为Medium Error。
  • 确认Additional sense方法为,在A、B控制器的/OSM/log/cur_debug/messages里搜索关键“Additional sense:”,查看该关键后的部分是否为上述描述的错误码。
解决方案
  • 通过管理界面确认硬盘失效先后顺序。
  • 对于故障现象如上的硬盘,并且该盘是后失效硬盘的硬盘导致RAID组失效,恢复后失效硬盘的逻辑状态为正常状态(注:x、y故障硬盘所在的用户框号和槽号):
图1

  • 并恢复失效LUN到正常状态,失效RAID到降级状态(注:x为失效的RAID组ID):
图2

  • 查看阵列message,搜索关键字OS_NotifyDiskBadEvent,确认故障硬盘报Medium Erro的地址和长度(如下示例,426a0d该地址为十六进制表示,长度为115字节):
图3

  • 登录主控制器的mml模式,手动标记故障硬盘指定地址为BST(x为故障硬盘的外部框号*32+槽位号,y为坏道地址的十进制表示,z为坏道地址长度,1为逻辑坏道):
图4

  • 确认是否手动标记成功。
图5

  • 此时该盘可用来重构第一块失效的硬盘,当读取到该地址时会自动跳过该地址,避免再次故障从而重构失败,标记为BST的地址,后续可依赖主机上的文件系统、数据库等的容错机制来写修复。

该方法适用场景如下:

1、对数据完整性要求不是非常高的业务场景。

2、如果硬盘读固定区域报其它错误导致硬盘失效,也可尝试使用该方法,把该
区域标记BST,跳过该区域的读操作。

3、请在研发的协助下使用该操作指导。
 




END