双机热备组网某终端ping备墙丢包问题技术分析

发布时间:  2012-12-06 浏览次数:  342 下载次数:  0
问题描述
业务故障组网图:



业务简介:OA系统业务

版本信息:USG5000 V100R002C01SPC006
告警信息
故障现象:从终端PING备墙存在丢包现象。
处理过程
1、  从终端上PING备墙300个报文,丢6个报文。

2、  从备墙debug统计来看,只收到294个报文,并都回应了ICMP应答报文。




3、  从主防火墙debug统计来看,ICMP请求报文只收到275个报文(说明另外25个ICMP请求报文没有经过主防火墙再到备墙),但是ICMP应答报文转发了294个。其中ICMP请求报文被主防火墙丢了6个,原因为收到ICMP请求报文时查MAC转发表时发现报文出入接口一样。




4、  从备墙G0/0/0抓包,发现确认有一些ICMP请求报文从G0/0/0收到,而大部分ICMP请求报文从G0/0/1收到。




5、  查看了主防火墙、内网C2960的备墙MAC表项存在漂移现象。

6、  从备墙内网口抓包,发现有与Secospace服务器交互的COPS心跳报文,查看此时备墙上终端ARP表项出接口为G0/0/1,而核心交换机网关的ARP表项出接口为G0/0/0。说明终端、Secospace服务器与备墙交互都通过主墙绕一下。当主墙收到ICMP请求报文时,刚好备墙MAC表项的出接口为G0/0/0时丢会导致丢包。

解决方案
为Secospace服务器在SACG单独划分一个VLAN供它们之间通讯,防止Secospace服务器在访问备墙时从主墙绕到备墙, 导致业务受影响。




1.操作步骤

1.1 更改SACG配置[以下IP及VLAN仅为举例,可根据实际网络规划调整]

在SACG主备上面各增加一个VLAN 201,将G0/0/1,G0/0/2口分别加入其中。并在上面增加VLANIF口,IP地址配置为主:168.1.2.7 ,备:168.1.2.8

主墙配置:

HRP_M [USG5320-A]vlan 201

HRP_M [USG5320-A-vlan-201]hrp track master

HRP_M [USG5320-A]interface GigabitEthernet 0/0/1

HRP_M [USG5320-A-GigabitEthernet0/0/1] port trunk allow-pass vlan 201

HRP_M [USG5320-A]interface GigabitEthernet 0/0/2

HRP_M [USG5320-A-GigabitEthernet0/0/2] port trunk allow-pass vlan 201

HRP_M [USG5320-A]interface Vlanif 201

HRP_M [USG5320-A-Vlanif201]ip address 168.1.2.7 24

备墙配置:略




在SACG主备上面个增加一条到Secospace的路由。

主墙配置:

HRP_M [USG5320-A] ip route-static 168.1.63.46 255.255.255.255 168.1.2.1

备墙配置:

HRP_S[USG5320-B] ip route-static 168.1.63.46 255.255.255.255 168.1.2.1




1.2 Cisco防火墙修改点

1.将Cisco防火墙上和SACG连接口都加入VLAN 201,并在该VLANIF口上添加IP地址:主墙实IP:168.1.2.2 主墙虚IP: 168.1.2.1;备墙实IP:168.1.2.3  备墙虚IP:168.1.2.1



2. Cisco防火墙上将168.1.2.0网段路由从OSPF发布到出去,这样Secospace服务器才能够访问SACG。



1.3 Secospace配置修改点

配置Secospace服务器上防火墙的IP地址为:主:168.1.2.7  备:168.1.2.8
根因
1、发现终端PING备墙存在丢包现象,但从备墙上查看本身并没有丢包。

2、从会话表和ARP表项、MAC转发表发现终端PING备墙存在从主墙绕一下情况。

3、制定测试步骤进行测试检验,最终发现终端PING备墙丢包是由于主墙丢包引起,丢包原因为报文出入接口一样。

4、在备墙内网口抓包,发现有与Secospace服务器交互的COPS心跳报文。
建议与总结

1、基于目前的组网,建议终端管理备墙可以先ssh到主防火墙,然后从主防火墙再telnet到备防火墙进行维护。

2、后续定位问题时不能仅仅从单台设备考虑问题,只要认为我们设备不丢包就没有问题,而是需要养成全局观,需要从全网结合数据流走向分析问题原因。

END