EMS网管Corba北向接口告警发送性能降低

发布时间:  2014-05-14 浏览次数:  413 下载次数:  4
问题描述
EMS网管的Corba北向接口向上级网管发送告警信息延迟。网元产生的告警信息能够在EMS网管上立即显示,但发送到上级网管要延迟几小时。
告警信息
1. 查看日志文件:/opt/huawei/ems/run/var/runtime.center/log/oms/nbicorba/nbicorba_20140219133917519.log
关注上述文件中类似如下内容的日志
[com.huawei.oms.corba.fm.listener.CorbaFMEventListner.onEvent() 77] It is a New Alarm event:AlarmSN = 1335875
其中AlarmSN = XXXXX为告警流水号
2. 与亿阳核对,只要在上述日志中新打印出一条告警流水号,就能够立即在亿阳接口机上同步看到。说明亿阳和华为网管的接口通讯是正常的。
3. 比对上述日志中“新打印出来的告警流水号”和“EMS网管界面中最新的告警流水号”,发现“日志中的流水号”滞后于“EMS网管界面中的流水号”。
4. 发现上述日志文件中还存在以下报错:
couldn't reconnect to 10.221.41.222:8888
couldn't reconnect to 10.99.205.97:8888
说明Corba接口还在向上述两个IP发送告警信息,但是由于上述两个地址不存在,所以告警信息发送失败,且每个连接要占用4秒的时间。
处理过程
1. 开启debug日志 i2kuser@huaalin:/opt/huawei/ems/run/bin/runtime.center/bin> ./omscli.sh log all debug
2. 查看日志文件:/opt/huawei/ems/run/var/runtime.center/log/oms/nbicorba/nbicorba_20140219133917519.log
关注上述文件中类似如下内容的日志
[com.huawei.oms.corba.fm.listener.CorbaFMEventListner.onEvent() 77] It is a New Alarm event:AlarmSN = 1335875
其中AlarmSN = XXXXX为告警流水号
3. 与亿阳核对,只要在上述日志中新打印出一条告警流水号,就能够立即在亿阳接口机上同步看到。说明亿阳和华为网管的接口通讯是正常的。
4. 比对上述日志中“新打印出来的告警流水号”和“EMS网管界面中最新的告警流水号”,发现“日志中的流水号”滞后于“EMS网管界面中的流水号”。
5. 发现上述日志文件中还存在以下报错:
couldn't reconnect to 10.221.41.222:8888
couldn't reconnect to 10.99.205.97:8888
说明Corba接口还在向上述两个IP发送告警信息,但是由于上述两个地址不存在,所以告警信息发送失败,且每个连接要占用4秒的时间。
6. 华为网管系统新产生的告警较多,由于上述两个无用IP导致接口每发送一条告警都要尝试重连,传输告警效率降低,从而造成系统新产生的告警不能立即发给亿阳,即接口堵塞;
7. 找到omssys.t_Notification_Info表,里面记录了corba需要发送告警的对端IP地址,每个IP一条记录。删除上述两个无用IP,无需重启进程,再告警被立即发送到了亿阳,问题解决。
8. 关闭debug日志 i2kuser@huaalin:/opt/huawei/ems/run/bin/runtime.center/bin> ./omscli.sh log all error
9. 测试业务正常。
根因
分析日志文件,发现下报错:
couldn't reconnect to 10.221.41.222:8888
couldn't reconnect to 10.99.205.97:8888
说明Corba接口还在向上述两个IP发送告警信息,但是由于上述两个地址不存在,所以告警信息发送失败,且每个连接要占用4秒的时间。

华为网管系统新产生的告警较多,由于上述两个无用IP导致接口每发送一条告警都要尝试重连,传输告警效率降低,从而造成系统新产生的告警不能立即发给亿阳,即接口堵塞;
建议与总结
处理此类问题除了要分析日志文件,还要与上级网管的维护人员进行实时沟通, 同步确认告警是否及时发给对方。

END