Anyoffice网关设备SVN5560业务口丢包故障

发布时间:  2016-01-19 浏览次数:  203 下载次数:  0
问题描述
某局点维护工程师反馈华为SVN5560防火墙出现丢包故障,影响客户业务。现网进行了主备切换后,由备设备承载业务业务恢复正常。问题发生时存在不同程度的丢包情况。
处理过程

一、 网络组网拓扑如下:

二、对连接基础服务区的业务口进行丢包故障复现。

1.在办公终端ping安全沙盒虚拟网关、主备机物理接口,虚拟网关和主机物理接口出现不同程度的丢包现象,且丢包率均在20%以上,ping备机物理接口无丢包;

2.远程登录华为SVN主机设备,从设备ping基础服务区侧网关,丢包依然;

3.手动切换业务到备机,恢复用户业务;

4.进入机房,直连华为SVN主机业务物理接口,互ping丢包;

5.启动设备丢包端口环回测试,测试失败:

6.征得客户同意,重启主机设备,故障端口使用正常;

7.定位根因,切换业务至双击热备状态,业务运行正常。

根因

一、SVN5560防火墙的硬件架构如下所示:

二、业务口丢包根因定位:

1.业务报文从物理接口收到之后,经过 交换网BCM567202路Higig链路KANAS逻辑2路SPI4链路,然后送给CPU,由CPU处理完以后会原路返回。

2.故障发生时防火墙业务口丢包,而管理口正常,两者的区别是管理口数据报文走的是PCI总线,而业务口数据报文是通过Kanas逻辑转发。两者都有通过CPU转发数据,管理口正常说明CPU转发正常,转发问题应该发生在kanas逻辑部分。

3.Kanas内部处理逻辑图如下所示:

cpu <--> SPI4.2(10G带宽) <--> logic <--> higig(16G带宽) <--> 交换芯片(bcm56720)

CPU(XLR732)芯片与Kanas逻辑之间的SPI4通道共有2路(SPI4_0、SPI4_1),当有数据流量时,kanas逻辑作为中间管道在CPU和交换芯片(BCM56720)之间转换数据。当数据流接收后,CPU会根据具体报文内容Hash确定流量走哪一路SPI4通道,当此SPI4通道故障时,此时正好解析到此路的数据流就会中断,导致业务受到影响,当通道恢复后,业务又能短暂恢复。

解决方案

1.SVN设备手动主备切换(shutdown其中一个业务接口),待业务切换到备墙后重启原主墙可恢复正常工作;

2.华为公司将于2016年2月底发布新的软件版本,升级新版本后在检测到Higi/SPI4链路故障情况下将自动触发恢复措施:设备首先会将该链路关闭,保证所有报文切换至正常的链路转发,如果两条链路均检测到出现问题,则自动重启设备,触发业务切换到备墙,避免长时间影响业务。

 

END