由于MA5200下挂用户拨号量忽然增加导致radius报文报文被防火墙过滤从而用户上线失败

发布时间:  2012-07-26 浏览次数:  68 下载次数:  0
问题描述

版本:与版本和设备类型无关
组网:用户--LS2--MA5200G--Internet--防火墙--RADIUS
现象:MA5200下挂的用户出现拨号在某一个时间突然出现不能上线的情况,已经在线的用户上网正常。

告警信息
设备有大量radius频繁up/down的告警。
处理过程
1、同区域使用同radius的MA5200没有任何异常,说明RADIUS工作应当是正常的。
2、从MA5200上ping radius服务器不丢包且延时稳定。
3、debug radius报文发现大量的code 4的计费报文没有响应。(此时修改配置为计费失败不处理暂时让业务正常)
4、查看MA5200的用户离线及上线失败记录发现在短时间内有很大的增加,主要表现为部分用户疯狂拨号以及部分用户在线时间很短(是已经上线的用户)下线后立刻重拨,进行上下线操作。
5、让用户协调检查radius服务器,发现radius记录所有收到的radius请求报文都已经回复包括code 4的报文,但是同MA5200发送的报文相比有很多请求报文RADIU 没有收到,进一步了解radius服务器情况后发现radius服务器是位于一个状态防火墙的保护下的。让用户在防火墙前抓包,发现所有MA5200的请求报文都到达了防火墙,但是很多报文被防火墙过滤掉了;了解后是因为MA5200下用户忽然进行大量上线、下线操作导致MA5200的radius报文流量较正常流量有很大增长,触发了防火墙对radius服务器的保护机制,防火墙丢弃了部分报文。
6、让用户调整了防火墙的参数后,将所有报文送到radius,问题得到根本解决。
根因
1、radius出现故障。
2、MA5200到radius的链路出现故障。
3、MA5200和radius的报文交互出现问题。
建议与总结
经过后来调查发现首先是部分用户中毒导致拨号成功后立刻发送ppp中止报文,导致这部分用户频繁起送RADIUS报文。此部分中毒用户首先导致MA5200和radius出现一定阻塞,影响了其他用户,其他用户由于一次拨号无法上线于是多次再进行拨号,于是更多用户受到影响,产生了一个多米诺骨牌似的效应,最终导致很多用户异常。

END