所选语种没有对应资源,请选择:

本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

提示

尊敬的用户,您的IE浏览器版本过低,为获取更好的浏览体验,请升级您的IE浏览器。

升级

ES3000 V3 NVMe PCIe SSD 用户指南 21

本指南针对华为ES3000 V3 NVMe PCIe SSD(以下简称ES3000 V3)进行说明,介绍ES3000 V3产品信息及如何使用ES3000 V3(包括安装配置、操作与维护等)。

评分并提供意见反馈 :
华为采用机器翻译与人工审校相结合的方式将此文档翻译成不同语言,希望能帮助您更容易理解此文档的内容。 请注意:即使是最好的机器翻译,其准确度也不及专业翻译人员的水平。 华为对于翻译的准确性不承担任何责任,并建议您参考英文文档(已提供链接)。
盘片内部故障或者其他故障

盘片内部故障或者其他故障

盘片内部故障主要是指在OS能正常识别磁盘的情况下,磁盘出现内部告警,导致磁盘无法使用或影响正常使用。如遇到此种场景,可以按照如下实例进行甄别。

使用实例

  1. 查询指定设备的基本信息章节描述的步骤初步鉴定盘片的健康状态。

    # 查询nvme0的基本信息。

    [root@localhost tool]# hioadm info -d nvme0  
      
    Namespace<1> size:  1.6TB,    1600321314816Byte   
                 formatted LBA size:         512 Byte   
                 formatted metadata size:    0 Byte   
       
    maximum capacity                 : 1.6TB    
    current capacity                 : 1.6TB    
    volatile write cache             : Enable   
    serial number                    : 0503023HDCN107C80013   
    model number                     : HWE32P430016M00N   
    firmware version                 : 2.14   
    NVMe version                     : 1.2   
    device status                    : healthy     

    系统回显信息中的“device status”项取值表示SSD设备的控制器健康状态。

    如果为“healty”表示设备健康状态正常。

    如果为“warning”表示设备存在异常。详见步骤2

  2. 查询指定设备的SMART信息章节描述鉴定盘片的SMART状态。

    # 查询nvme0的SMART信息。

    [root@localhost tool]# hioadm info -d nvme0 -s  
    critical warning              : no warning  
    composite temperature         : 308 degrees Kelvin (35 degrees Celsius)  
    available spare               : 100%  
    available spare threshold     : 10%  
    percentage used               : 0%  
    data units read               : 68.8 MB  
    data units written            : 0.0 MB  
    host read commands            : 17748   
    host write commands           : 0   
    controller busy time          : 0 mins  
    power cycles                  : 89 times  
    power on hours                : 1164 h  
    unsafe shutdowns              : 35 times  
    media and data integrity errors: 0   
    number of error information log entries: 0   
    warning composite temperature time: 0 min  
    critical composite temperature time: 0 min  
    data status                   : OK     

    “Critical Warning”表示设备存在严重异常需要紧急处理。

    表5-1 “Critical Warning”参数说明及取值

    参数

    参数说明

    bit位

    critical warning

    紧急告警(例如超温、冗余空间低于阈值等)

    • “0”:无告警
    • “1”:可用空间低于阈值
    • “2”:温度超过阈值范围
    • “3”:内部错误导致NVM子系统可靠性降级
    • “4”:介质只读
    • “5”:备份设备失效

    典型故障原因:

    • 可用空间低于阈值:典型原因如坏块数过多等。
    • 温度超过阈值范围:典型原因如盘片温度低于0度或高于78度。
    • 内部错误导致NVM子系统可靠性降级:典型原因如盘片颗粒失效过多或者内部子系统运行异常等。
    • 介质只读:典型原因如电容失效等。
    • 备份设备失效:典型如电容电压小于28V或者大于35V。

故障判断实例

  • 可用空间低于阈值
  1. 查看SMART信息中的“available spare”,当“available spare”达到或者低于10%时,请停止硬盘使用,并马上备份数据;否则,进入步骤2
  2. 请参考一键式日志收集章节描述,获取盘片日志信息,并联系华为技术支持工程师协助解决。
  • 已用寿命超过阈值
  1. 查看SMART信息中的“percentage used”,当“percentage used”超过或者达到100%时,请停止硬盘使用,并马上备份数据;否则,进入步骤2
  2. 请参考一键式日志收集章节描述,获取盘片日志信息,并联系华为技术支持工程师协助解决。
  • 温度超过阈值范围
  1. 请检查安装硬盘的服务器散热是否良好,如果服务器没有温度告警并且风扇运转正常,进入步骤2
  2. 请检查机房室内温度是否过高导致盘片超温,如果室内温度正常,进入步骤3
  3. 请参考一键式日志收集章节描述,获取盘片日志信息,并联系华为技术支持工程师协助解决。
  • 内部错误导致NVM子系统可靠性降级
  • 介质只读
  • 备份设备失效
  1. 请参考一键式日志收集章节描述,获取盘片日志信息,并联系华为技术支持工程师协助解决。
翻译
下载文档
更新时间:2019-11-22

文档编号:EDOC1000101090

浏览量:85766

下载量:3043

平均得分:
本文档适用于这些产品

相关版本

相关文档

Share
上一页 下一页