VIS双活登录缓慢

发布时间:  2016-03-21 浏览次数:  208 下载次数:  0
问题描述



组网图如图所示,两台VIS分别在两个楼层,搭建好VIS集群后,登陆VIS任意节点,登陆ISM界面,发现设备时间都超过五分钟。

告警信息

VIS上告警信息为:

告警信息:存储设备LUN到VIS节点I/O响应超时。

无其他告警信息

实际操作体验:登录设备时发现设备界面停留在74%进度后等待时间超过5分钟才能登陆成功。登录后操作VIS,做任何配置响应都很慢。

因客户网络涉密,告警信息无法截图。

处理过程

排查问题思路:

1:检查级联光纤交换机到各个设备之间光纤跳线是否有损坏(弯折/挤压/拉扯等)

2:检查光纤交换机配置,是否符合配置规范

3:查看光纤交换机端口及存储/VIS端口误码

4:检查VIS双活配置是否准确

根因

根因:

更具排查思路,我们检查了线路,端口,配置都没有问题。

通过光纤交换机端口误码率检测发现光纤交换机级联端口有一个端口误码率过高,

通过更换光纤跳线和光模块排查光口及跳线均无问题,

最后猜测是楼层间线路问题,更换楼层光纤后问题解决。

两台光纤交换机由两根级联线级联,一根出现故障不影响级联,也不影响业务。但此场景因为级连线没有断开,只是因为误码过高但还能通信,导致负载均衡的两条链路

任然同时传输数据,又因一根误码过高,导致整体传输速度严重下降,从而使分别在两个楼层的VIS设备传输数据缓慢,无法正常登录设备。

解决方案

更换线缆,观察光纤交换机端口误码率是否是正常值。

建议与总结

通常此类问题分两种:

第一类:硬件问题,硬件故障排查,不能遗漏链路所过的每个节点,不然会因为疏忽无法准确定位问题。

第二类:软件问题,项目交付往往多个厂家设备组成一个网络,本案例所出的问题可能性很多,所以要明确思路排查问题。


写本案例,看似更换线缆就解决问题,但是在排查问题定位问题时,现场工程师和400工程师想了很多故障点,进行排查却迟迟不能准确定位。因为

级联为双链路,让人忽略了双链路级联端口模式为负载均衡,在错误的方向上浪费了很多时间。

END