exception导致ME03BSUF21单板丢心跳复位问题

发布时间:  2014-12-16 浏览次数:  184 下载次数:  0
问题描述

某运营商一台设备11槽位单板异常重启,重启原因如下:

Sep  6 2014 01:37:12+08:00 ME60-X %%01SRM/6/BOARDRESETCODE(l)[810480]:Board 11 reset, the barcode is: XXXXXX001076.

Sep  6 2014 01:37:12+08:00 ME60-X %%01SRM/3/LPULOSHEARTBEATRESET(l)[810481]:LPU11 reset because of the heartbeat loss.


处理过程

  步骤 1     日志记录单板复位前存在exception异常

查看日志信息,发现在单板复位前存在exception;exception是单板正常运行中CPU器件出现异常导致,CPU运行出现异常后无法回应主用主控的管理心跳,最终表现为单板丢心跳复位。

%2014-Sep-06 01:36:49.550.1+08:00 ME60-X 01VOSADPT/0/EXCEPTION(D)[63661975]:-Slot=11; Exception information:

-------单板出现exception

Sep  6 2014 01:37:12+08:00 MAN.ME60-X %%01SRM/3/LPULOSHEARTBEATRESET(l)[810481]:LPU11 reset because of the heartbeat loss.

------单板丢心跳复位

 

 步骤 2     单板发生exception原因

发生exception前后,单板会分别记录内存的ECC情况。从现网的ECC情况看,发生exception后内存同时出现了多bit、单bit错误。说明单板下挂内存存在故障导致CPU运行中出现exception复位。

After exception, It's extend info:

Reg: sdram_err_addr, Val = 0x2141a260 ---错误地址

Reg: sdram_ecc_ctrl, Val = 0x00ff0001 ----单bit错误

Reg: sigbit_ecc_err_cs0, Val = 0x80000008----多bit错误

 

Before exception, It's extend info:

Reg: sdram_err_addr, Val = 0x00000000

Reg: sdram_ecc_ctrl, Val = 0x00ff0000

Reg: sigbit_ecc_err_cs0, Val = 0x00000000

----结束

根因

单板CPU下挂内存故障导致CPU exception,CPU异常无法回应主控板管理心跳最终出现丢心跳复位。

解决方案
【Resolution Summary】硬件故障,复位后恢复
【Resolution Details】申请备件更换//

单板CPU下挂内存故障,更换返回研发分析。

END