由于配置NAT地址探测功能导致业务中断

发布时间:  2014-09-20 浏览次数:  321 下载次数:  0
问题描述
如图4-5所示,防火墙上存在多个出接口,现阶段所有出接口均由同一运营商提供。在防火墙上配置NAT策略对私网用户进行地址转换并使能NAT-IP探测功能。

防火墙使能NAT-IP探测功能后在现网平稳运行了15天,无任何问题。运行到第16天时用户反馈防火墙业务中断,已将流量暂时割接至其他设备。
处理过程
恢复NAT地址池状态后业务正常。
根因
1. 经确认防火墙无板卡重启,运行时间显示设备和板卡已运行16天,防火墙上业务无异常及断言。
2. 查看防火墙接口状态,发现连接内网的接口为Down,外网接口为Up,经过确认是用户因为业务中断手动将内网接口Down掉。
3. 执行display firewall statistic system discarded命令,查看防火墙丢包情况,发现大量的Pool no section packets丢包。


防火墙没有NAT会话,同时又有大量地址池里没有公网地址的丢包,由此判断地址池里面的地址可能被排除。可能是NAT探测功能出现故障。查看NAT-IP探测地址池状态。



从上面显示信息中可以发现,地址池里面的所有地址都被排除,没有地址进行转换导致业务中断。地址池里面的所有地址都被排除,这种现象不正常,肯定是非正常IP封杀引起的地址池排除。从NAT-IP探测原理推测,有可能是在探测时间内所有的地址池地址都没有收到反向流量导致地址池地址都被排除掉,找到没有反向流量的原因也就找到了问题所在。
4. 检查防火墙上连接外网的接口是否正常,因为反向流量是由外网接口进入的。经确认外网接口一直是Up的,没有问题。
5. 往上行设备排查,和客户确认上行设备或者宽带供应商是否有流量异常,经确认事故当天凌晨宽带供应商流量有过中断,中断时间超过NAT-IP的探测时间。
防火墙使能NAT-IP探测功能后,在5分钟内如果某一个地址池地址反向无任何流量则将该地址排除,进行地址转换时不再使用该地址。事故当天上行ISP链路中断导致没有反向流量经过防火墙,使防火墙将NAT地址池里面的所有地址排除无法进行NAT转换,因为NAT地址池排除时间缺省为一天,所以ISP链路恢复后地址池地址还处于排除状态,影响了正常业务。

建议与总结
恢复NAT地址池状态后业务正常,并将NAT地址池探测时间修改为半个小时,减少上行链路故障对防火墙NAT-IP探测的影响。NAT地址池探测时间不是越长越好,越长会降低NAT-IP探测的灵敏性。过短又会因为链路中断导致NAT地址池中的所有地址被排除。此局点在跟客户协商后,确认链路故障一般半个小时即可恢复,所以修改为半小时。

END