OceanStor 18000 主机和阵列间出现FC链路不稳定告警

发布时间:  2015-07-06 浏览次数:  259 下载次数:  8
问题描述

DeviceManager出现主机到阵列间链路不稳定告警,且该告警可能会不定期自动消除后重新出现告警,也可能会告警一直存在。

告警信息

阵列上出现告警。

告警标题为:Link Between A Host And Storage Array Is Unstable

告警内容为:The link between the initiator (type FC, identifier 0x10000000c995b100) of the host (name hostname) and the host port (Engine 0, interface module A2, port number P0) is unstable.

处理过程

1、  逐个排除可能原因,界定误码产生的位置范围。

2、  将误码产生位置范围的光纤线、光模块、扣卡依次进行更换后观察误码是否继续增长。

根因

可能原因:主机-交换机-阵列,这三层设备中一层或多层设备的链路传输质量较差。

根据经验,问题可能性由高->低排序分别为:

1、  主机-交换机之间的光纤线质量差;交换机到存储之间的光纤线较差。

2、  主机、交换机、阵列上的光模块故障。

3、  阵列上FC扣卡故障。

解决方案

步骤一:排查交换机上的误码增长情况。以博科和SNS系列交换机进行说明,登陆交换机的CLI命令行,通过CLI命令statsclearporterrshow清除和查看当前误码情况。

       运行一段时间(如1小时)后重新使用CLI命令porterrshow查看端口统计情况。若enc inenc out增长速度较快,可通过尝试更换该端口对应的线缆、模块单元,甚至改用其他端口来消除误码。

       步骤二:排查存储上对应端口的误码情况。排查方法:根据告警信息确认存储端口,如告警信息是The link between the initiator (type FC, identifier 0x10000000c995b100) of the host (name hostname) and the host port (Engine 0, interface module A2, port number P0) is unstable.表示引擎0A2扣卡上P0 FC端口与主机连接不稳定。

       请参考DeviceManager主界面由上角的图标的联机帮助,首页”>“管理硬件设备”>“监控控制器”>“管理FC接口模块的操作提示,清除所有FC端口误码统计。如下图所示

       系统运行一段时间(如1小时)后,重新查看告警内容中的端口的线路误码统计增长情况。若误码增长速度较快,可通过尝试更换该端口对应的线缆、模块单元,甚至改用其他端口来确认误码消除情况。

       步骤三:交换机和存储设备的误码情况排查完成后,观察1小时,若告警没有消除,或消除后又出现了。通过步骤二的告警内容,确认是哪个控制器报链路不稳定。在DeviceManager的主界面导航栏上,设置”-“导出数据”-“系统日志,解压系统日志的压缩包。打开对应控制的日志(..\log_controller_x\Messages\ messages_YYYYMMDDHHMMSS_mem, YYYYMMDDHHMMSS表示最新的运行日志),搜索“---->ABTS”

若能够发现如上含关键字“ABTS”的打印,说明从主机IO仍然存在超时。

根据现网此类问题的分析经验,超时原因是主机与交换机侧存在误码,导致IO超时,存储上无法感知到误码类型,只能感知到主机IO超时了。

推测误码存在于主机HBA卡上。目前主机HBA卡排查误码没有很好的手段,且不同操作系统的排查方法不一样。通常情况下,通过更换主机侧的线缆、模块单元或更换端口来排除误码,然后重新收集日志确认误码是否已消除。

       步骤四:若交换机、存储系统和主机的链路误码都排查完成后,观察1小时。若告警没有消除,或消除后又出现了,请联系华为工程师处理。

END