内网终端异常占用NAT会话资源导致设备CPU异常

发布时间:  2016-06-14 浏览次数:  414 下载次数:  0
问题描述
使用AR1200-S作为出口NAT设备,下面终端用户经常出现上网不稳定等现象,把设备重启后能正常使用一段时间然后故障又复现;
告警信息

处理过程

1、查看CPU使用率
[Huawei]disp cpu-usage
CPU   Usage Stat. Cycle: 10 (Second)
CPU   Usage Stat. Time : 2016-06-12  13:45:07
Control Plane
    CPU Usage: 34.5%   Max: 84.3%
    User: 15.7%   System:  9.6%   SoftIrq:  0.0%   HardIrq:  9.0%   Idle: 65.5% 
    CPU utilization for ten seconds: 34.5%  one minute:  34.0%  five minutes:  34.0% .
Data    Plane
    CPU Usage: 100%   Max: 100%
    CPU utilization for ten seconds: 100%  one minute:  99.9%  five minutes:  99.9% .

PID   ProcessName         CPU%     CoreIndex      Runtime     State
202   cap32              100%      CPU1           2014855     R
201   main_task          34.6%      CPU0           1127687    S
出现故障是发现CPU使用率已经达到100%
2、接口使用率
  ===============display interface brief===============
===========================================================
Ethernet0/0/1               up    up       10.51%  0.03%          0          0
GigabitEthernet0/0/0        up    down      0.04%  3.28%          0          0
通过查看接口使用率正常,没有异常高的端口;
3、查看会话资源基本已经快达到上限值64k,按着客户反馈内网的终端数量,平均每个终端3200个session,按着一般业务不应该有这么多会会话数量;
[Huawei]disp session number
  The total number of session tables is: 63996
4、检查内网NAT会话资源,几乎全是192.168.100.248的会话信息;
===========================================================
  ===============display nat session all===============
===========================================================
  NAT Session Table Information:
     Protocol          : UDP(17)
     SrcAddr  Port Vpn : 192.168.100.248 55706                               
     DestAddr Port Vpn : 15.48.133.134   137                                 
     NAT-Info
       New SrcAddr     : 106.59.210.88 
       New SrcPort     : 45250
       New DestAddr    : ----
       New DestPort    : ----
     Protocol          : UDP(17)
     SrcAddr  Port Vpn : 192.168.100.248 55706                               
     DestAddr Port Vpn : 15.48.154.115   137                                 
     NAT-Info
       New SrcAddr     : 106.59.210.88 
       New SrcPort     : 14925
       New DestAddr    : ----
       New DestPort    : ----
     Protocol          : UDP(17)
5、让终端192.168.100.248下线,内网立即恢复正常;

根因

内网终端异常占用NAT会话资源导致设备CPU异常;

解决方案

让此终端下线或者进行全盘杀毒;

建议与总结

设备出现CPU高的问题处理流程
1、设备CPU占用率是持续高还是瞬间变高。瞬间变高可能是因为某个操作导致,比如设备刚启动、在某一时间点集中读取光模块信息、瞬间流量增多等,一般不影响设备运行。
2、查看是什么任务进程导致了CPU占用率过高,对该任务进行分析。
3、查看日志和告警信息,确定是否存在硬件故障告警。
4、通过日志或者告警查看设备上是否存在端口频繁Up/Down的情况,如果存在,请检查端口上光模块是否发生故障,是否使用了华为非认证光模块。同时需要对端口配置和端口流量进行分析。
5、是否有网管频繁操作设备。
6、检查设备是否发生STP震荡或者路由协议震荡。
7、网络结构是否发生了变化,网络中是否存在环路。
8、网络上是否存在恶意攻击行为。

END