eSight上出现U1900系列概率性离线现象

发布时间:  2015-11-11 浏览次数:  592 下载次数:  0
问题描述
某局点U1900系列采用V200R003C00SPC200版本,网口0为管理网口,网口1为业务网口,通过管理网口与eSight通信,接入网管。

eSight上概率性出现U1900系列断连告警,该告警在一段时间后会自动消除。此现象一直重复出现。
处理过程

步骤 1 通过分析eSight日志发现,通道首先出现IO异常,导致网管无法从通道中读取数据,因此网管关闭通道,导致设备离线。



步骤 2 在eSight侧和设备侧防火墙同时抓取网络包,从eSight侧网络包发现,100秒内eSight没有收到设备的任何消息,设备的心跳周期为60秒,正常情况下100秒内肯定能收到一次心跳消息。



步骤 3 从设备侧的网络包发现,和eSight侧网络包对应时间有一个92字节的数据丢失,比较前面一次的正常报文看出这个92字节的数据就是设备U1900系列发出的心跳消息。

----结束

根因
现场的网络环境划分了VLAN,而U1900采用双网口模式,网口0为管理IP,网口1为业务IP,但是网口0和网口1属于不同VLAN,而MAC地址是同一个。U1900上行是二层交换机LSW,交换机到网关是一条物理链路,使用子接口区分管理和业务VLAN。

LSW端口获取到U1900的MAC表项后,无法区分不同VLAN的MAC地址,导致网口1偶尔断链,网口0偶尔断链的现象。
解决方案
在交换机上增加VRRP配置,通过VRRP的虚拟地址作为管理和业务的网关地址,VRRP的虚拟地址使用了不同的MAC地址,问题解决。

END