S9706交换机单板重启问题

发布时间:  2016-05-09 浏览次数:  118 下载次数:  0
问题描述

9706交换机1槽位EH1D2X16SFC0接口板发生复位。

查看日志信息display logbuffer

Apr 30 2016 18:23:26+08:00 XXXX BASETRAP/4/ENTITYRESET:OID 1.3.6.1.4.1.2011.5.25.129.2.1.5 Physical entity is reset. (Index=67371017, Severity=6, ProbableCause=153, EventType=4, ContainedIn=67371013, PhysicalName=LPU Board 1, RelativeResource=, ReasonDescription=Reset for memory use out)

复位后单板重新注册成功,但该单板于51日凌晨2:43再次发生单板复位。

查看日志信息display logbuffer

May  1 2016 02:50:27+08:00 XXXX BASETRAP/4/ENTITYRESET:OID 1.3.6.1.4.1.2011.5.25.129.2.1.5 Physical entity is reset. (Index=67371017, Severity=6, ProbableCause=153, EventType=4, ContainedIn=67371013, PhysicalName=LPU Board 1, RelativeResource=, ReasonDescription=Reset for memory use out)

告警信息

Apr 30 2016 18:23:26+08:00 XXXX BASETRAP/4/ENTITYRESET:OID 1.3.6.1.4.1.2011.5.25.129.2.1.5 Physical entity is reset. (Index=67371017, Severity=6, ProbableCause=153, EventType=4, ContainedIn=67371013, PhysicalName=LPU Board 1, RelativeResource=, ReasonDescription=Reset for memory use out)

处理过程

1.从采集到的信息来看,1槽位单板共复位过两次,两次记录的复位原因都是memory use out,也就是单板内存不足而导致的复位。

查看日志信息display logbuffer

The LPU frame[1] board[1]'s reset total 2, detailed information:--  1. 2016/05/01   02:50:27, Reset No.: 2 Reason: Reset for memory use out--  2. 2016/04/30   18:23:26, Reset No.: 1 Reason: Reset for memory use out

同时在该时间点上,设备也向网管上报了单板由于内存耗尽而导致的告警信息,这里可以确认单板是由于内存耗尽导致的复位,下面需要对问题发生时故障单板的内存使用情况进分析.

查看日志信息display logbuffer

Apr 30 2016 18:23:26+08:00 xxxx BASETRAP/4/ENTITYRESET:OID 1.3.6.1.4.1.2011.5.25.129.2.1.5 Physical entity is reset. (Index=67371017, Severity=6, ProbableCause=153, EventType=4, ContainedIn=67371013, PhysicalName=LPU Board 1, RelativeResource=, ReasonDescription=Reset for memory use out.

May  1 2016 02:50:27+08:00 xxxx BASETRAP/4/ENTITYRESET:OID 1.3.6.1.4.1.2011.5.25.129.2.1.5 Physical entity is reset. (Index=67371017, Severity=6, ProbableCause=153, EventType=4, ContainedIn=67371013, PhysicalName=LPU Board 1, RelativeResource=, ReasonDescription=Reset for memory use out)

2.进一步分析设备的内存情况,在单板复位前,从内存申请的统计数据来看:

查看内存状态:display memory

Block Memory Status

Block Size    32  Free   365 Used   30098 Total   30463

Block Size    64  Free   519 Used   32726 Total   33245

Block Size   128 Free    60 Used   23370 Total   23430

Block Size   256 Free   153 Used   33078 Total   33231

Block Size   512 Free    19 Used   29766 Total   29785

Block Size  1024 Free    50 Used   56170 Total   56220

Block Size  2048 Free    39 Used     674 Total     713

Block Size  4096 Free    10 Used      95 Total     105

-----------------------------Summary-------------------

Used(Byte)100586296 Free  1215  Used  205977  Total  207192

Memory total used size: 100586296    Used Ratio For Memory : 98%

 

 

Dos Memory Status

 Memory Usage:

 

Block Size > 4096   Free       6 Used     562 Total     568

-----------------------------Summary-------------------

Used(Byte)59592924  Free     6  Used     562 Total     568

Memory total used size: 59592924 Used Ratio For Memory : 91%

 

3.设备的Block内存分区的大部分被321024字节的内存块所占用。再从设备上各个模块的内存统计数据来看,发现绝大多数被FF82模块所申请。

查看命令:display inspect mem-debug-info 29 0 0 0


FF82模块为单板底层发包模块,此时可以确认底层发包模块占用了设备上的大量内存信息,初步怀疑单板发包存在异常。




根因

该问题的故障原因为单板DMA器件个体失效,致使单板发包持续失败,进出引起设备内存持续挤压,最终导致单板内存耗尽复位。

解决方案

该问题系单板器件个体失效导致,现场请使用备件更换故障单板解决问题。

建议与总结

END