E1000E XX移动WAP2部分终端业务受阻问题分析

发布时间:  2012-12-28 浏览次数:  183 下载次数:  0
问题描述
某友商GGSN下部分手机终端(酷派、索爱、LG)业务受阻。
告警信息
处理过程
Tunnel接口mtu使用默认值1500,后续发布版本解决,当tunnel接口接收到syn/syn+ack报文,取报文的mss,与该接口mtu减40的值、全局配置的tcp-mss值三者进行比较,取三者最小值调整报文的mss。
根因
1、分析现网业务受阻时终端抓包,发现终端发起的syn报文mss为1460。

2、结合现网故障现象,radius消息交互正常,说明udp报文以及gre隧道均正常,而主页推送也正常,说明tcp小包交互正常,上网不正常很有可能跟tcp大包有关。
3、实验室使用V100R002C01SPC003版本和现网配置组网验证,两端传输FTP文件走走tunnnel721接口。在GRE隧道中间抓包,GRE报文存在分片;而相同的配置使用V100R002C01SPC008版本验证,传输文件不成功,从服务器抓包来看,服务器一直在重传1500字节大包,并且这些报文都置上不分片标识;
而在GRE隧道中间抓包,没有封装这些大包的GRE报文。在防火墙上查看丢包统计,有如下计数:
[JSNJ-PS-WAP2-FW01-hidecmd]display dataplane discard verbose                                                                       
13:42:52  2009/12/06                                                                                                               
                                                                                                                                   
DP_FW_Output                        :exit 5:     11                                                                                
FPATH_ETH_Input                     :exit 5:     2                                                                                 
DP_Tunnel_Output                    :exit 17:     10
DP_Tunnel_Output第17个丢包原因就是在判断报文长度大于tunnel接口mtu时,需要分片但是报文置上了不分片标识引起丢包。
4、经研发分析代码,确认V100R002C01SPC008版本修改了V100R002C01SPC003版本存在的一个问题,GRE tunnel接口mtu设置不生效问题,即V100R002C01SPC003版本tunnel接口mtu配置不生效,但是V100R002C01SPC008版本配置生效,这样索爱手机MSS为1460时,WAP主机给终端传数据时,防火墙收到1500字节大包时,由于大于tunnel接口mtu,需要对该报文进行分片而该报文又置上了不分片标识导致丢包。而为什么华为GGSN下挂终端没有问题,是因为防火墙与华为GGSN对接的tunnel接口mtu为默认的1500字节。
故障总结:防火墙收到1500字节大包时,由于大于tunnel接口mtu,需要对该报文进行分片而该报文又置上了不分片标识导致丢包。
建议与总结

END