交换机CE6855HI(V200R001C00)出现异常重启故障

发布时间:  2017-02-25 浏览次数:  159 下载次数:  0
问题描述
用户的一台CE6855HI设备出现异常复位,复位原因是FE domain failure。
处理过程

1、查看设备的复位原因为Fe domain failure


FE为Forward Engine,即转发芯片的模块,Fe domain failure复位,表示设备检测到转发芯片存在异常而尝试复位修复。

2、收集设备上的诊断信息,诊断模式下执行collect diagnostic information,在生成的诊断问中查看设备重启的调用栈信息(diagnostic_information\slot_1\tmpdir

\VRP_RebootOS_back_trace.log)

Reset Time:Fri Feb 10 00:59:00 2017
Reset Reason:0x80000162
_dc_reboot_function_disable_ not exist
level 0: /opt/V200R001C00SPC700B391/vrpv8/bin/../lib/libbootdrv.so(print_func_backtrace+0x8c) [0xfb239ac]
level 1: /opt/V200R001C00SPC700B391/vrpv8/bin/../lib/libbootdrv.so(VRP_RebootOS+0xcc) [0xfb23e3c]
level 2: /opt/V200R001C00SPC700B391/vrpv8/bin/../module/liblsw_sdk.so(FE_RebootOS+0xec) [0xb957cec]
level 3: /opt/V200R001C00SPC700B391/vrpv8/bin/../module/liblsw_sdk.so(_soc_trident2_ser_process_mmu_err+0x57c) [0xc578fcc]
level 4: /opt/V200R001C00SPC700B391/vrpv8/bin/../module/liblsw_sdk.so(_soc_trident2_process_ser+0x328) [0xc579578]
level 5: /opt/V200R001C00SPC700B391/vrpv8/bin/../module/liblsw_sdk.so(_soc_trident2_ser_process_all+0x244) [0xc57c224]
level 6: /opt/V200R001C00SPC700B391/vrpv8/bin/../module/liblsw_sdk.so(soc_trident2_ser_error+0x44) [0xc57c454]
level 7: /opt/V200R001C00SPC700B391/vrpv8/bin/../module/liblsw_sdk.so(sal_dpc_thread+0xb0) [0xbc691a0]
level 8: /opt/V200R001C00SPC700B391/vrpv8/bin/../module/liblsw_sdk.so(+0x1178d74) [0xc0ecd74]
level 9: /opt/V200R001C00SPC700B391/vrpv8/bin/../lib/libdefault.so(tskAllTaskEntry+0x17c) [0xf354d9c]
level 10: /opt/V200R001C00SPC700B391/vrpv8/bin/../lib/libpthread.so.0(+0x7fa0) [0xfd9bfa0]
level 11: /opt/V200R001C00SPC700B391/vrpv8/bin/../lib/libc.so.6(clone+0x84) [0x480fb880]

3、从设备重启调用栈可以看出,转发芯片MMU模块出现软失效(bit位跳变),设备无法进行热修复,采用冷修复,即设备复位。

根因
由于设备转发芯片软失效(bit位跳变),设备无法热修复,只能进行冷修复,即设备复位。
解决方案

采用复位设备的方法规避。

建议与总结
当设备出现复位,并且复位原因为FE domain failure时,可以判断是设备的转发芯片出现故障,需要重启修复或者更换设备。

END