由于光模块故障导致MA5200G升级到V3R3后某槽位接口板CPU利用率达到百分之95以上

发布时间:  2012-07-27 浏览次数:  63 下载次数:  0
问题描述
某局点MA5200G升级版本从V3R2到V3R3后发现某槽位接口板CPU利用率达到百分之95以上。
设备提示如下告警:
2009/7/30 11:26:25 Warning:Slot:7 CPU usage overload!
CPU Usage            : 96%  Max: 96%
告警信息
2009/7/30 11:26:25 Warning:Slot:7 CPU usage overload!
CPU Usage            : 96%  Max: 96%
处理过程
1、升级完成后,登录设备查看该槽位CPU利用率
<5200G>disp cpu-usage slot 7
TaskName        CPU        Runtime(CPU Tick High/CPU Tick Low)
 SRM             88%               0/ 8112a77
发现其中SRM进程的CPU占用率基本上维持在88%左右。
2、初步判断该单板整体CPU高的原因是由SRM进程导致的。SRM进程主要负责设备硬件管理、端口流量统计以及物理接口状态检查等等。
3、虽然SRM进程导致CPU利用率很高但此时单板注册状态等均正常,初步确认应该是单板接口故障导致的。通过排除法,逐一拔出光模块观察CPU利用率情况。当拔出前两块光模块后,单板CPU利用率立刻降到正常水平。由于升级前这两块光模块已出现故障,但由于该光模块下联设备未带业务且V3R2版本采集接口信息相对新版本较少,所以未能及时发现。升级版本后,由于V3R3版本加强了对物理接口所使用光模块的信息统计种类和轮询次数,当首次轮询失败后会不断的轮询,从而导致单板CPU利用率过高。因此确认是由于这两块光模块故障导致了单板CPU利用率高。更换新光模块后,问题解决。
根因

1、可能是系统软件故障导致升级后出现CPU利用率高。
2、可能是升级后单板故障导致升级后出现CPU利用率高。
3、可能是光模块故障导致轮询异常,导致单板CPU利用率高。
此问题是第三个原因导致。

建议与总结
在跨大版本升级前,需要仔细确实升级后的差异和风险。在升级完成检查阶段,同样需要仔细确认是否存在异常。

END