E9000产品CX311交换板FCOE网关与存储链路异常导致E9000上面部署的业务系统告警。

发布时间:  2016-07-04 浏览次数:  167 下载次数:  0
问题描述

E9000产品CX311交换板的FCOE网关与存储链路异常导致E9000上面部署的业务告警,对端存储为IBM存储,E9000上部署的是华为虚拟化软件,组网采用双交换组网,虚拟化平台上存在告警为:主机光纤通道中断。

告警信息

主机上运行的虚拟化平台存在告警如下:



处理过程

1.按照虚拟化平台的告警提示查看告警主机信息。

2.找到对应主机后登陆CX311的FCOE平面查看到E9000内部刀片到FCOE平面的WWWN号可以识别,排除主机到FCOE平面的链路问题。

3.分别登陆到光纤交换机及存储查看到刀片到光交和存储的端口物理链路正常。

4.登陆交换板的FCOE平面查看端口的状态输出,发现1号端口存在误码率较高的情况,端口误码输出如下:



分析可能是端口模块或者物理链路问题导致。

5.在业务停止的情况下,将交换板的1号端口上行链路线缆更换到2号端口,发现2号端口的误码率存在增长现象,判定为交换板FCOE平面的上行链路存在物理故障。

6.更换了上行链路的光纤后,交换板的端口误码消失,业务系统告警消失。故障处理完毕。


根因

E9000交换板的FCOE平面的上行链路存在物理链路故障,导致FCOE平面的上行端口存在误码,从而导致主机到存储的链路故障,引起业务告警(由于刀片到存储采用双交换冗余组网,所以业务未受影响)。

解决方案

1.按照虚拟化平台的告警提示查看告警主机信息。

2.找到对应主机后登陆CX311的FCOE平面查看到E9000内部刀片到FCOE平面的WWWN号可以识别,排除主机到FCOE平面的链路问题。

3.分别登陆到光纤交换机及存储查看到刀片到光交和存储的端口物理链路正常。

4.登陆交换板的FCOE平面查看端口的状态输出,发现1号端口存在误码率较高的情况,端口误码输出如下:




分析可能是端口模块或者物理链路问题导致。

5.在业务停止的情况下,将交换板的1号端口上行链路更换到2号端口,发现2号端口的误码率存在增长现象,判定为交换板FCOE平面的上行链路存在物理故障。

6.更换了上行链路的光纤后,交换板的端口误码消失,业务系统告警消失。故障处理完毕。


建议与总结

针对以上出现的问题,建议及时关注设备硬件及上面的业务系统运行状态。


END