某局点18800报主机侧链路不稳告警

发布时间:  2015-11-19 浏览次数:  239 下载次数:  0
问题描述

现象描述包括版本信息、组网概述、故障现象的全面详细记录。不可填写“无”

版本: OceanStr 18800 V100R001C20SPC200

故障现象:

1、 主机(主机名vl70205)上的启动器FC到阵列上主机端口的链路不稳,10分钟后又恢复正常,之后主机vl70205、主机名vl70118等几台主机陆续报警,vl70205vl70204这两台主机最频繁。

2、 主机侧安装华为Ulrpath多路径,告警是由多路径发出。

告警信息

主机上的启动器FC到阵列上主机端口的链路不稳,如下图:

处理过程

 该告警为主机侧io超时报错,由华为多路径推送到阵列,阵列上报主机报错不合理,阵列也无法确认主机业务是否正常,建议屏蔽该告警

根因

1.   该告警为华为多路径检测到主机侧异常后推送到阵列,由阵列上报;

2.   分析华为多路径日志,该告警为多路径软件检测到主机报某条路径上IO timeout超时错误,认为这条路径是不健康的路径,需要降级,作为次优的备选路径,并将链路不稳告警推送到阵列;

3.   导出主机v170205的内部错误日志(主机侧执行命令errpt -a)看到在主机时间117日对hdisk59产生5timeout错误;

SENSE DATA里面的红色框起来的03表示timeout

4.   该告警恢复策略:华为多路径通过定时发送码流检测命令,如果在一段时间内(一共10分钟,每0.1秒下发一个码流I/O),该条路径上的这些命令都成功,则恢复为优选,并向阵列推送恢复告警,所以告警在10分钟后自动恢复。

建议与总结

由于主机侧一个io超时就会引发华为多路径告警,建议将多路告警级别调高。

END