E8000E防火墙配置源地址哈希导致流量在CPU负载不均出现丢弃

发布时间:  2015-05-19 浏览次数:  327 下载次数:  0
问题描述

组网:

GGSN和流量经营平台的FWE8000E)根墙建立GRE隧道,数据经过流量经营平台后送到FW的虚拟防火墙做NAT访问互联网

问题描述:

GGSN流量通过GRE隧道引导到流量经营平台后,手机用户高峰期上网速度慢,ping测试有丢包

告警信息

处理过程

处理过程:

1、  在组网图中可以看到在业务流经的网元中存在流量经营防火墙和GPRS防火墙,分析流量经营防火墙未发现异常;

2、  割接走部分GGSN业务后,测试丢包和速率慢现象消失,业务恢复正确,确认故障和流量相关;

3、  调取网管流量图,发现GPRS下行流量超过5G时,没按照规律继续上行,而是冲顶后回落并维持;

SCG防火墙GRE流量图

4、  分析故障期间GPRS防火墙的日志发现SPU16 CPU 1每分钟都会打印多条SPI4接收空闲资源低的信息,该接收资源低说明此时该CPU用于存放接口板上送报文的数据结构资源已经不足。
Apr  3 2015 12:30:02+08:00 YNKM-PS-EPC-FW03-SN8000E %%01SRM/4/SPUHARDWARECHECK(l)[193389]:Slot=16/1,Vcpu=0;RESTORE  SPU:16 CPU:1  SPI4  RX FREE DESC LOW

5、  分析GPRS防火墙,发现配置“firewall hash-mode source-only”模式,即当接口板收到需要防火墙业务板处理的报文时,根据报文源地址进行HASH运算的结果,决定该报文将会被发送至防火墙上哪个业务板的哪个CPU进行处理;

6、  对流量模型分析,多个GGSN和流量经营平台的防火墙LOOPBACK地址建立GRE隧道,这样下行流量到达GPRS防火墙时,数据全部封装在GRE中,且GRE报文的源地址只有一个,这样会导致所有流量全部哈希到防火墙的一个CPU

根因

根因:

GRPS防火墙配置和流量经营平台的流量模型不匹配,导致回程流量哈希到防火墙的一个CPU,出现超规格(单CPU性能5G)导致丢弃

解决方案

解决方案:

GRPS防火墙的哈希方式修改为默认的五元组哈希,并且在流量经营平台防火墙上配置多个LOOPBACK地址,每个GGSN和流量经营平台防火墙建立多个GRE隧道,避免出现GRE大象流。

建议与总结

建议与总结:

对新业务的流量模型要掌握清楚,了解业务割接后在IP承载网各个网元的路径和转发机制,提前评估网络风险点,对网络有冲击的流量和风险进行规避。

END