NGSDH设备瞬报HP_LOM告警问题

发布时间:  2012-12-07 浏览次数:  144 下载次数:  0
问题描述

NGSDH设备与无线设备对接,在NGSDH设备的线路板上发现瞬报HP_LOM告警,客户需要知道原因。

    

 897273     3    HP_LOM               MJ         end        2012-10-01 00:01:19 2012-10-01 00:01:20 0x0d  0x00  0x01  0xff  0xff  

 897279     3    HP_LOM               MJ         end        2012-10-01 00:23:49 2012-10-01 00:23:50 0x0d  0x00  0x01  0xff  0xff  

 897283     3    HP_LOM               MJ         end        2012-10-01 00:33:46 2012-10-01 00:33:47 0x0d  0x00  0x01  0xff  0xff  

 897287     3    HP_LOM               MJ         end        2012-10-01 00:52:01 2012-10-01 00:52:03 0x0d  0x00  0x01  0xff  0xff  

 897305     3    HP_LOM               MJ         end        2012-10-01 02:14:25 2012-10-01 02:14:26 0x0d  0x00  0x01  0xff  0xff  

 897368     3    HP_LOM               MJ         end        2012-10-01 07:30:52 2012-10-01 07:30:53 0x0d  0x00  0x01  0xff  0xff  

 897510     3    HP_LOM               MJ         end        2012-10-01 17:37:55 2012-10-01 17:37:56 0x0d  0x00  0x01  0xff  0xff  

 897522     3    HP_LOM               MJ         end        2012-10-01 18:32:26 2012-10-01 18:32:27 0x0d  0x00  0x01  0xff  0xff  

 897571     3    HP_LOM               MJ         end        2012-10-01 22:38:06 2012-10-01 22:38:08 0x0d  0x00  0x01  0xff  0xff  

 897575     3    HP_LOM               MJ         end        2012-10-01 22:52:07 2012-10-01 22:52:08 0x0d  0x00  0x01  0xff  0xff  

 897581     3    HP_LOM               MJ         end        2012-10-01 23:19:15 2012-10-01 23:19:16 0x0d  0x00  0x01  0xff  0xff  

 897631     3    HP_LOM               MJ         end        2012-10-02 02:47:19 2012-10-02 02:47:20 0x0d  0x00  0x01  0xff  0xff  

 897675     3    HP_LOM               MJ         end        2012-10-02 04:52:59 2012-10-02 04:53:00 0x0d  0x00  0x01  0xff  0xff  

 897680     3    HP_LOM               MJ         end        2012-10-02 05:14:31 2012-10-02 05:14:32 0x0d  0x00  0x01  0xff  0xff  

 897684     3    HP_LOM               MJ         end        2012-10-02 05:28:44 2012-10-02 05:28:45 0x0d  0x00  0x01  0xff  0xff  
处理过程

因为告警持续时间都是1-2秒,因此首先看告警滤抖使能情况:

           #0x955f4:alm-get-condetect;

                               ALM-CONTINUOUS-STATE                             

                                 CONTINUOUS STATE                               

                                 disable                                        

 Total records :1

      上述结果表示告警滤抖禁止了,因此当产生瞬间的告警以后,并不会被滤掉,而是会显示在网管上。

 然后查看瞬间告警产生的原因,通过告警特点,因为是瞬报,首先怀疑是不是由于通道误码引起,查看性能数据如下:

  3    24h    2012-09-26 08:00:00 aupjchigh            13     1            1          

 3    24h    2012-09-28 08:00:00 aupjchigh            13     1            8          

 3    24h    2012-09-29 08:00:00 aupjchigh            13     1            6          

 3    24h    2012-09-30 08:00:00 aupjchigh            13     1            12         

 3    24h    2012-10-01 08:00:00 aupjchigh            13     1            9          

 3    24h    2012-09-26 08:00:00 aupjcnew             13     1            4          

 3    24h    2012-09-28 08:00:00 aupjcnew             13     1            32         

 3    24h    2012-09-29 08:00:00 aupjcnew             13     1            24         

 3    24h    2012-09-30 08:00:00 aupjcnew             13     1            48         

 3    24h    2012-10-01 08:00:00 aupjcnew             13     1            36         

 3    24h    2012-09-26 08:00:00 hpbbe                13     1            25         

 3    24h    2012-09-28 08:00:00 hpbbe                13     1            196        

 3    24h    2012-09-29 08:00:00 hpbbe                13     1            167        

 3    24h    2012-09-30 08:00:00 hpbbe                13     1            288        

 3    24h    2012-10-01 08:00:00 hpbbe                13     1            219        

 3    24h    2012-09-26 08:00:00 hpes                 13     1            1          

 3    24h    2012-09-28 08:00:00 hpes                 13     1            8          

 3    24h    2012-09-29 08:00:00 hpes                 13     1            6          

 3    24h    2012-09-30 08:00:00 hpes                 13     1            12         

 3    24h    2012-10-01 08:00:00 hpes                 13     1            9


以上性能数据中我们可以看到对应产生HP_LOM告警的通道存在高阶误码,并且与告警产生的时间吻合。

根据以上数据我们就可以得出HP_LOM告警瞬报产生的原因是由于无线设备业务存在误码并且告警滤抖未开启导致。
根因
此问题的根因在于无线设备业务存在误码并且告警滤抖未开启导致。
解决方案

紧急恢复措施:需要无线设备定位VC4通道误码产生原因并解决。

彻底解决措施:排除无线设备VC4通道误码。
建议与总结
HP_LOM告警以及其他高阶通道误码产生的原因有时候是因为误码导致,并不一定只是因为告警对应开销本身问题导致。

END