NE40E由于设备温度过高导致CR53LPUF0单板NP失效

发布时间:  2014-09-15 浏览次数:  353 下载次数:  0
问题描述
某局点反馈NE40E的1块LPUF单板下带的所有业务中断,设备上不停弹出异常告警,业务单板告警指示灯常亮,但在设备上通过display device命令查看,单板是注册正常的,设备版本为:V600R001C00SPC800 + SPC023。

告警信息
1、LPUF告警灯亮
2、在设备在通过命令看LPUF单板在设备上注册正常,但不停的弹出以下告警信息:
pts_send_ok                : 0
pts_send_error             : 0
pts_send_fail              : 0
unfomat_buffer_err         : 0
data                       : 103147
event                      : 185
wrap                       : 0
EMeTxNum=                  : 6426
send2cp_high               : 100335
send2cp_low                : 3857
read_ring_high             : 106961
read_ring_low              : 3857
read_ring_high_err         : 0
read_ring_low_err          : 0
write_msg_to_proc_high     : 0
write_msg_to_proc_low      : 0
write_msg_to_proc_high_err : 0
write_msg_to_proc_low_err  : 0
get_msg_high_err           : 0
get_msg_low_err            : 0
send_data2cp_err           : 0
dram_addr_err_low          : 0
packet_length_err_low      : 0
dram_addr_err_hi           : 0
packet_length_err_hi       : 0
msf_dip4_err_cnt           : 0
msf_dip2_err_cnt           : 0
msf_detect_no_dalender_cnt : 0
msf_rev_train_data_cnt     : 0
receive_buffer
[YL-GD-NE40E-8-B]
[YL-GD-NE40E-8-B]_num         : 110818
free_buffer_num            : 110818
buffer_size_err            : 0
to_cp_ixscale              : 0
bfd_to_cp_ixscale          : 0
eth_oam_pkt_recv           : 0
right_aps_packet_recv      : 0
bad_aps_packet_recv        : 0
cc_or_rdi_msg_recv         : 0
ulres1                     : 0
ulres2                     : 0
eth_oam_mismatch_msg_recv  : 0
eth_oam_mismatch_recover_msg_recv: 0
cc_first_waken_packet_recv : 0
pbt_group_tbl_update_msg_recv: 0
HeartbearB                 : 0
imac_learn_msg             : 0
emac_learn_msg             : 92
flapmac_tocp_msg           : 0
xsc_proc_hb_receive        : 860
xsc_proc_hb_size_invalid   : 0

Jul 11 2012 16:55:32 YL-GD-NE40E-8-B %%01SRM/4/STARTMODE(l): LPU1 sent startmode: Reset by MPU.

Jul 11 2012 16:54:14 YL-GD-NE40E-8-B %%01SRM/3/NPERROR(D): NP xscale reset fail is abnormal. (Lpu=1, Xscale=0, MeId=5, Context=62, PcValue=61409072)

Jul 11 2012 16:49:17 YL-GD-NE40E-8-B %%01FPI_DBG/4/MEFWDMODELINFO(D):-Slot=1; Ingress ME forward model:
    ----- Current Forward Model : Ingress -----
    MicroEngine Packets Processing Flow :
        * ->   packet_rx1 ( 0:4 )
          ->   packet_rx2 ( 0:5 )
          ->   fwd1_ingress ( 0:7 , 1:0 , 1:1 )
          ->   fwd2_ingress ( 1:3 , 1:4 , 1:6 )
          ->   fwd3_ingress ( 1:7 )
          ->   meter ( 0:0 )
          ->   spi4_tx1 ( 0:1 )
          ->   spi4_tx2 ( 0:2 )
          -> * spi4_tx3 ( 0:3 )
    Other MicroEngine(s) :
               msg_dispatch_ingress ( 0:6 )
    Isolated MicroEngine(s) : 1:2 , 1:5.

处理过程
1、登录设备,查看设备单板注册正常,其它单板运行都没有问题,软件出问题的机率不大。
2、采集设备的dia信息及告警信息:
Jul 11 2012 16:55:32 YL-GD-NE40E-8-B %%01SRM/4/STARTMODE(l): LPU1 sent startmode: Reset by MPU.
Jul 11 2012 16:54:14 YL-GD-NE40E-8-B %%01SRM/3/NPERROR(D): NP xscale reset fail is abnormal. (Lpu=1, Xscale=0, MeId=5, Context=62, PcValue=61409072)
Jul 11 2012 16:49:17 YL-GD-NE40E-8-B %%01FPI_DBG/4/MEFWDMODELINFO(D):-Slot=1; Ingress ME forward model:
    ----- Current Forward Model : Ingress -----
    MicroEngine Packets Processing Flow :
        * ->   packet_rx1 ( 0:4 )
          ->   packet_rx2 ( 0:5 )
          ->   fwd1_ingress ( 0:7 , 1:0 , 1:1 )
          ->   fwd2_ingress ( 1:3 , 1:4 , 1:6 )
          ->   fwd3_ingress ( 1:7 )
          ->   meter ( 0:0 )
          ->   spi4_tx1 ( 0:1 )
          ->   spi4_tx2 ( 0:2 )
          -> * spi4_tx3 ( 0:3 )
    Other MicroEngine(s) :
               msg_dispatch_ingress ( 0:6 )
    Isolated MicroEngine(s) : 1:2 , 1:5.

3、查看设备的温度信息:
[YL-GD-NE40E-8-B]dis tem sl 1

CPU-Monitor, I2CID:7 Unit:C
Address Channel Status  Minor   Major   Fatal   Adjust_speed    Temp      
                                                TMin    Tmax    
----------------------------------------------------------------------
175     0       FATAL   65      75      81      55      65      82      
175     1       NORMAL  90      96      102     80      90      52      

Base-Board, I2CID:1 Unit:C
Address Channel Status  Minor   Major   Fatal   Adjust_speed    Temp      
                                                TMin    Tmax    
----------------------------------------------------------------------
1       0       NORMAL  70      80      90      60      70      65      
2       0       FATAL   60      70      80      50      60      77      
3       0       MINOR   70      80      90      60      70      70      
4       0       NORMAL  70      80      90      60      70      53      
5       0       NORMAL  80      90      100     70      80      74      
6       0       MINOR   70      80      90      60      70      70      
7       0       MAJOR   60      70      80      50      60      71      

Base-Board, I2CID:2 Unit:C
Address Channel Status  Minor   Major   Fatal   Adjust_speed    Temp      
                                                TMin    Tmax    
----------------------------------------------------------------------
76      1       FATAL   90      96      102     80      90      98      
76      2       FATAL   90      96      102     80      90      108    

PIC0, I2CID:3 Unit:C
Address Channel Status  Minor   Major   Fatal   Adjust_speed    Temp      
                                                TMin    Tmax    
----------------------------------------------------------------------
73      0       NORMAL  80      86      100     80      100     53      
74      0       NORMAL  80      86      100     80      100     57      

PIC1, I2CID:4 Unit:C
Address Channel Status  Minor   Major   Fatal   Adjust_speed    Temp      
                                                TMin    Tmax    
----------------------------------------------------------------------
73      0       NORMAL  80      86      100     80      100     45      
74      0       NORMAL  80      86      100     80      100     46

3、从日志分析发现单板发生过复位,原因是NP Xscale复位失败后主控将单板复位。从日志信息可以看到,有两个ME被隔离,造成NP失效了,查看单板多个温度节点都超过了fatal门限,很可能就是发生器件失效的触发原因,跟现场人员了解到现场设备的温度的确较高,风扇运转正常,检查发现防尘网灰尘过多。
4、更换单板后设备业务恢复正常,同时马上对设备的防尘网进行清洗,避免后续过高的温度加速器件的老化及硬件的高故障率。
根因
1、可能是设备软件处理机制问题。
2、可能是单板硬件出现故障。
3、其它问题。
建议与总结
1、防尘网主要作用是为机框内部各组件的散热进风提供灰尘过滤功能。NE5000E/80E/40E系列路由器在进风框和电源面板安装有防尘网,二者的维护方法相同。
2、为了保证系统散热和通风状况良好,避免防尘网被灰尘堵住,必须定期清洗防尘网。建议至少半年定期清洗一次,机房防尘环境较差的清洗频率应更高。
3、把指导书发给用户,提醒用户后期定期进行清洗。

END