S9300与Cisco3750对接出现ping不通故障案例

发布时间:  2014-12-11 浏览次数:  174 下载次数:  0
问题描述
S9300设备与Cisco3750直连,通过vlan200建立OSPF邻居,分别发布各自设备上vlan100以及vlan300的网段路由到对端。在网络中,Monitor Server 172.19.2.2通过ping操作监控下游的Server 172.19.3.2是否在线。

现网问题发生时,每隔18个小时,大约发生一次ping不通的现象,半小时后自动恢复,影响了客户的视频监控业务。


处理过程
1)            在问题发生时刻,通过流量统计发现监控服务器发出的icmp请求通过9300正常转发,但未收到icmp-reply回应报文,初步判断问题出现在cisco设备上;

2)            在Cisco设备上观察路由信息,发现问题发生时,到监控服务器的网段路由消失,导致回程的icmp-reply报文在Cisco设备上丢弃;

3)            对比一下故障发生时,CISCO和93设备上LSDB的所有信息,发现,cisco设备比93设备少如下两个Network LSA

Type      LinkState ID    AdvRouter        Age  Len   Sequence   Metric

Network   172.19.5.1      172.19.1.250      1256  32    80000208    0

Network   172.19.5.1      172.19.99.10      3600  32    800026C9    0

172.19.99.10产生的这个LSA是93后收到的,向所有邻居洪泛,CISCO收到之后

的处理是将原先172.19.1.250发布的LSA删除,造成路由计算时路由丢失。30分

钟之后,172.19.1.250,也就是93设备做LSA刷新,会把自己的Network LSA再发

给35设备,35设备上路由就自然恢复了。

说明:

1、OSPF协议中,LSA由三要素唯一标识,Type、LinkStateID,AdvRouter,也就是

说,这两个LSA在93上认为是不同的LSA。 怀疑CISCO设备将两个LSA认为是同一个

LSA,因此使用172.19.99.10发布的这个将原LSDB中的覆盖,另外由于该LSA的Age是

3600,因此将其老化删除,造成路由丢失。

2、 172.19.99.10产生的这个LSA有DC标识

Type      : Network

Ls id     : 172.19.5.1

Adv rtr   : 172.19.99.10  

Ls age    : 3600

Len       : 32

Options   :  DC  E  

seq#      : 800026c9

chksum    : 0xd55

Net mask  : 255.255.255.0

Attached Router    172.19.99.10

Attached Router    172.19.8.1

协议RFC1793中有描述,由于DoNotAge bit(Age字段的最高位)置为1,那么这个LSA不需要被删除,即使发布者不存在于网络。

那么这些LSA什么时候删除呢?需要同时满足两个条件:

1).  LSA在LSDB中存在至少3600s;

2).  LSA发布者不可达;

     Because LSAs with the DoNotAge bit set are never aged, they can

     stay in the link state database even when the originator of the

     LSA no longer exists. To ensure that these LSAs are eventually

     flushed from the routing domain, and that the size of the link

     state database doesn't grow without bound, routers are required to

     flush a DoNotAge LSA if BOTH of the following conditions are met:

       (1) The LSA has been in the router's database for at least

           MaxAge seconds.

       (2) The originator of the LSA has been unreachable (according to

           the routing calculations specified by Section 16 of [1]) for

           at least MaxAge seconds.

根因
Cisco设备上路由非正常老化,使到Monitor server的网段路由172.19.2.0消失,造成ping不通问题。

解决方案
将9300与Cisco设备的OSPF邻居类型改为P2P,可有效避免错误LSA消息的干扰;

修改9300与cisco的邻居接口的互连地址,也可避免错误LSA消息的干扰;

END