所选语种没有对应资源,请选择:

本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

提示

尊敬的用户,您的IE浏览器版本过低,为获取更好的浏览体验,请升级您的IE浏览器。

升级
案例库

某客户小Bars NE20E-S4升级后下挂用户出现下线后无法正常上线

发布时间:  2019-07-12  |   浏览次数:  186  |   下载次数:  5  |   作者:  453685637  |   文档编号: EKB1100014914

目录

问题描述

某用户于某日00:00分进行Bars NE20E-S4升级,于01:00分重启设备,重启前锁定相应domain,cut掉相应domain下所有用户,01:30分设备重启完毕,解锁相应domain,版本升级成功,对比升级前后配置以及各种表项无异常,在线用户数也无明显波动。于当日12时接到用户保障,故障反馈少量拨号用户下线后无法正常上线,需在AAA上手动踢掉后才可再次上线,故障出现无明显规律,分布地区不一且发生率也较低。

以下为设备配置

radius配置:

拓扑:Bars与AAA服务器网络可达无NAT VPN等


告警信息

查看设备告警信息,发现设备有如下告警:

 

在AAA侧查看故障用户有如下信息:

Bars下收到AAA发出拒绝认证信息:

处理过程

根据以上告警信息显示,Bars与认证服务器存在通信中断的现象,又进一步排查,得到以下回显信息:

 

根据回显显示,Bars与AAA之计费端口(1813)存在经常性中断,(再此同时认证端口1812一直处于连接状态无异常,也在1813端口中断时做过网络测试,排除网络方面影响),查看收发radius包数量,发现发出包收到回包而且差值还在增长(说明持续存在发出但AAA没回现象)。

把此现象告知AAA侧工程师协助排除,在AAA服务器接口进行抓包过滤,发现服务器收到Bars发来的计费报文,但没有做出回应。

根因

网络设备升级版本需重启设备,重启前下线在线用户,同时下线几万在线用户导致AAA服务器压力过大,处理数据异常,导致部分计费报文没有回复。

解决方案

升级重启后,几万个用户同时上线服务器负载均衡算法失效,服务器侧修改负载均衡算法,由轮询修改为主备模式连接,修改后Bars与AAA间1813端口通信再无异常。


建议与总结

1、Bars与AAA通信异常首先查看系统日志,看有无可疑告警,先排查网络侧故障。

2、升级需重启,重启前需手动下线Bars上在线用户,(AAA工程师推荐在Bars下线后,也要在AAA上下线对应用户)。

3、判断故障原因后,最好先做流统或通过镜像获取报文交互信息,判断出故障设备,再进行下一步排查。