所选语种没有对应资源,请选择:

本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

提示

尊敬的用户,您的IE浏览器版本过低,为获取更好的浏览体验,请升级您的IE浏览器。

升级

华为服务器 故障处理 13

用于指导用户进行故障诊断和处理,以及日常的巡检工作。
评分并提供意见反馈 :
华为采用机器翻译与人工审校相结合的方式将此文档翻译成不同语言,希望能帮助您更容易理解此文档的内容。 请注意:即使是最好的机器翻译,其准确度也不及专业翻译人员的水平。 华为对于翻译的准确性不承担任何责任,并建议您参考英文文档(已提供链接)。
FC控制器问题

FC控制器问题

FC控制器常见故障现象及处理步骤

请根据以下故障现象进行诊断。

故障现象

处理步骤

存储无法识别主机WWPN

  1. 登录交换机查看端口连接状态(brocade:switchshow)。
  2. 根据端口连接状态,诊断HBA卡是否无法注册到交换机(switchshow查询到交换机无法识别主机WWPN),请通过以下方法排查故障。
    1. 确认硬件是否在位:排查HBA卡、对应的pcie总线的CPU是否在位。
    2. 确认HBA卡与交换板槽位对应关系(仅适用于E9000和E6000)。
    3. 检查HBA到交换机FC链路(仅适用于E9000:HBA卡工作模式是否匹配),主要查看光模块光功率、光纤。
    4. 确认是否安装华为兼容性配套发布lpfc驱动和firmware(E9000对驱动和firmware有配套要求)。
    5. 对于多交换机连接的场景,检查交换机连接的模式(AG、TR)等是否正确。
    6. 收集OS的Message日志,查找lpfc驱动打印信息。
    7. 收集交换机日志。
  3. 根据端口连接状态,HBA卡已经注册到交换机但存储无法识别主机WWPN(switchshow查询到交换机已经识别主机WWPN),通过以下方法排查故障。
    1. 检查存储是否注册到交换机:排查交换机到存储的FC链路(光模块、光纤)。
    2. 检查HBA与存储端口是否在同一个zone。
    3. 对于同厂家多交换机级联场景,检查zone的配置是否一致。
    4. 收集OS的Message日志,查找lpfc驱动打印信息。
    5. 收集交换机日志。

存储已经识别HBA卡WWPN但无法映射LUN

  1. 确认是否安装华为兼容性配套发布的lpfc驱动和firmware(E9000对驱动和firmware有要求)。
  2. 检查OS的Message日志,查找lpfc驱动打印信息。
  3. 检查交换机日志。
  4. 如果以上步骤均无问题,说明FC的协议已经正常交互,主机侧是正常的,问题聚焦在存储侧或者OS SCSI应用层,请联系存储厂家分析或OS厂家分析。

存储LUN多路径链路 部分丢失

  1. 确认是否安装华为兼容性配套发布lpfc驱动和firmware(E9000对驱动和firmware有要求)。
  2. 排查HBA到存储的FC链路误码。
  3. 检查OS的Message日志,查找lpfc驱动打印信息和多路径驱动信息。
  4. 检查交换机日志。
  5. 联系OS多路径驱动厂家或存储厂家分析。

LUN读写性能慢

  1. 确认是否安装华为兼容性配套发布lpfc驱动和firmware(E9000对驱动和firmware有要求)。
  2. 排查HBA到存储的FC链路误码。
  3. 分析主机的iostat输出,检查io时延和io并发数。
  4. 检查OS的Message日志,查找lpfc驱动打印信息,检查HBA卡驱动io队列深度配置。
  5. 从HBA到存储控制器前端的硬盘性能测试是否正常(100G大文件读写和100M小文件读写)。
  6. 联系存储分析工程师。

FC控制器快速恢复场景

FC控制器常见快速恢复场景以及处理手段如表6-14所示。

表6-14 FC控制器快速恢复场景和手段

故障现象

快速恢复手段

HBA卡均断链

  1. 确认当前多路径情况。
    • 若存在链路冗余,则复位与故障HBA卡连接的交换机端口,执行2
    • 如果链路不存在冗余,执行3
  2. 复位后,查看与故障HBA卡连接的交换机端口是否恢复。
    • 是,检查问题是否解决。
    • 否,将所有业务进行迁移后,将服务器进行安全下电,拔插计算节点,尝试上电服务器进行恢复,如果故障仍然存在,则申请HBA卡备件进行更换。
  3. 建议先迁移业务,然后收集交换模块日志、操作系统日志、LLD组网信息和各设备时间差后联系华为技术支持工程师。

存储业务受影响但HBA无断链

  1. 将所有业务进行迁移后,将服务器进行安全下电,拔插计算节点,尝试上电服务器进行恢复,查看故障是否解决。
    • 是,无需任何操作。
    • 否,建议联系存储厂家进行快速恢复处理。
  2. 建议先迁移业务,然后收集交换模块日志、操作系统日志、LLD组网信息和各设备时间差后联系华为技术支持工程师。

存储LUN性能问题

  1. 在FC交换模块上检查FC链路误码情况。如果存在误码,执行porterrshow命令,根据端口对应关系确认问题点:
    • 如果是交换模块与交换机之间的链路问题,若现场有光纤和光模块备件,则更换链路两侧的光纤和光模块,否则,插拔光纤和光模块。
    • 如果是HBA卡和交换模块之间的链路问题,请进行交叉验证,将计算节点换至另一正常槽位,确认是HBA卡问题还是交换模块问题或背板问题。根据实际情况更换故障模块。
  2. 清除历史误码计算,观察10分钟查看误码情况并验证性能,同时联系存储厂家进行快速恢复处理。
下载文档
更新时间:2019-01-23

文档编号:EDOC1000086281

浏览量:88422

下载量:37261

平均得分:
本文档适用于这些产品
相关文档
相关版本
分享
上一页 下一页