E6000 MM模块Flash Usage过高告警

发布时间:  2012-12-27 浏览次数:  185 下载次数:  0
问题描述
环境配置
SMM版本:2.07
问题现象
在某局点巡检时发现MM模块存在Flash Usage使用率过高的告警,如图3-27所示。
图 SMM Flash使用率过高告警
告警信息
处理过程
结论:
SMM软件与web相关的诸多问题键打开后又立即关闭,使得snmpd进程持续占用SMM Flash不释放,导致SMM Flash使用率过高。
解决方案:
从命令行以telnet方式分别登录到主、备MM模块,执行命令reboot重启主、备MM模块。
根因
1. 从命令行登录MM模块,使用命令df -ah查看MM模块当前Flash的使用情况,发现根目录的使用率达到85%,如图所示。SMM Flash告警阀值为85%,即已达到告警阀值。
图 查看当前Flash使用率


2. 在根目录下使用命令du -sh *查看根目录文件夹及文件的大小,如图所示。
图 故障MM模块文件大小


3. 找一块未出现Flash Usage使用过高告警的正常MM模块,以同样的方法查看根目录文件夹及文件的大小,如图所示。
图 正常MM模块文件大小


4. 将两块MM模块根目录下文件夹及文件大小进行对比,发现各文件夹及文件占用Flash空间基本相同,没有异常文件存在。
5. 排除了异常文件存在的情况,最大的可能就是某个进程持续运行没有及时释放资源。MM模块运行的主要进程有:
− 各部件监控及日志输出进程,包括vpem.out、vfan.out、vnem.out等。
− web相关进程,包括httpd、snmpd等。
6. 使用top命令查看CPU使用率,发现CPU负荷小,load average远低于5,且CPU使用率远低于80%,如图所示。说明从CPU使用率未排查到异常进程,下面需要采用其他方法对各个进程一一排查。
图 CPU使用率


7. 排查关键进程,使用ps-ef命令查询风扇、电源、交换板等监控进程的PID,如图所示,红框内数字即为进程PID。

只有主用MM模块才能查询风扇、电源、交换板等监控进程。
图 风扇、电源、交换板等监控进程的PID


8. 使用kill命令(格式“kill 进程PID”)结束风扇、电源、交换板等监控进程,在命令行使用df-ah命令,依然显示根目录使用率在85%。
9. 使用同样的方法结束httpd进程,根目录使用率仍然在85%。
10. 使用同样的方法结束snmpd进程,发现根目录使用率从85%降至75%。反复使用df-ah命令发现SMM Flash使用率逐步回落到64%(正常为65%左右),如图所示,所以可以断定是snmpd进程出现了异常。
图 SMM Flash使用率


11. 采取故障注入的方式复现问题,通过软件专用工具查看,发现有大量的web相关问题键在打开后又立即关闭,但snmpd进程并没有及时释放占用的Flash资源。
建议与总结

END