18500Hotspare容量巡检项不通过

发布时间:  2015-10-27 浏览次数:  185 下载次数:  0
问题描述

设备巡检不通过,不通过项为“Hotspare容量”。

告警信息

巡检不通过,提示Domain[x]Hotspare Used Capacity大于0

处理过程

1、 首先观察告警,有硬盘即将失效或故障相关的告警,此时通常热备空间被占用的的容量很大(硬盘的容量),有如下类似告警:

Major        2015-08-18/11:56:00 +08:00  The System Failed To Monitor A Disk In A Disk Enclosure 

Major        2015-08-18/11:36:01 +08:00  Disk Is About To Fail 

2、 如果无硬盘相关告警,通常此时热备空间被占用的容量比较小(64MB的整数倍)。此时通常是硬盘有坏块(每个CK64MB),解压一键收集日志,打开所有控制器下other文件夹下的pool_info文件,搜索“ckgiof ckisolateshow”关键字,确认坏块来源于哪些硬盘。例:如下打印说明硬盘791上有两个坏块,占用了128MB的热备空间。

diagnose>ckgiof ckisolateshow

Pool id: 3, disk Id: 791, zone 1 ioslated chunk num: 2.

3、 再通过收集的运行数据搜索“Disk ID: 791”,可以看到具体槽位号。

Disk ID: 791

Disk Domain ID: 3

Disk Frame and Slot ID: DAE030.19

根因

1、  硬盘故障,数据重构到热备空间上(同时会有硬盘即将失效或故障的告警)

2、  硬盘有坏块时会进行隔离,原数据拷贝到热备空间上

解决方案

1、 硬盘即将失效或故障解决方法:更换硬盘。

2、  硬盘坏块解决方法:

a)         硬盘达到4个坏块时会即将失效,如果硬盘只有1个或2个坏块时暂不用处理。

b)        硬盘有3个坏块时,建议收集硬盘SMART信息,研发分析下该硬盘的风险,看是否需要更换(如果研发确认需要更换该风险硬盘,会提供toolkit预拷贝更换风险硬盘的方法)。

建议与总结

1、如硬盘坏块少不需处理,不涉及

2、如进行了硬盘更换,硬盘状态恢复正常后输入命令show disk_domain general查看已使用热备空间容量是否为0,或再次使用toolkit巡检工具巡检确认Hotspare容量巡检项通过。

 

【适用范围】

1OceanStor 18000 V100R001C00及之后产品、OceanStor TV200R002 全系列产品

END