xxx局点IGWB网元出现RCM进程故障告警

发布时间:  2014-03-28 浏览次数:  231 下载次数:  0
问题描述
xxx局点,IGWB网元出现RCM进程故障告警,告警30S后恢复。
告警信息
具体告警信息如下:
Managed Element ID = 0
Alarm Severity = Major
Alarm Name = Module Fault
Raised/Cleared Time = 2014-02-15 11:29:38+04:00/2014-02-15 11:30:06+04:00
Parent Serial No. = 0
Serial No. = 713
Alarm ID = 1003
Event Type = Software
Module No. = 200
Location Info = Rack number=0, Position number=0, Subrack number=0,
Slot number=9, Location=Front, ME ID=50, Faulty
module number=1803, Faulty module type=RCM
Repeat Times = 0
Auto Clear = Yes
Cleared Type = Normally cleared
处理过程
1、由于资源检测时长,保护机制超时时长,都属于代码内部的宏,无法使用配置命令修改,现网无规避方案。
2、延长资源检测时长,保证在资源响应较慢的情况下,仍能正常检测。
3、优化保护机制,延长超时时长;避免在新OS下,误杀RCM进程。
4、解决问题的补丁:V500R007C00SPC202,升级后解决;
根因
1、IGWB网元在整个网络中,它的作用是负责计费和话单处理。RCM进程作为iGWB网元的资源检测进程,它不负责iGWB网元的业务处理(计费和话单处理);
2、RCM进程属于iGWB网元的一个进程,负责对iGWB网元的硬件资源进行检测,以判断硬件资源是否存在问题。如果硬件资源存在问题,RCM进程会发送告警,提醒用户进行硬件更换。
3、RCM进程故障告警,是由于RCM进程被保护机制重启;进程重启,会发送进程故障告警,提示用户。在iGWB V500R007C00SPC200版本,OS进行了升级。升级后的OS,在某些情况下,会导致RCM资源检测时间延长;保护机制误以为RCM进程出现问题,把RCM进程重启。
建议与总结
处理网络故障告警时应首先判断是否影响现网业务,进而分析根因,不是所有问题都是通过告警处理手册能搞定的,必要时要考虑版本问题;

END