ME60单板NP下挂SRAM奇偶检验MEM Parity Error的告警问题

发布时间:  2012-07-27 浏览次数:  156 下载次数:  0
问题描述
ME60 在LOG日志中有如下告警,未影响业务。
XSCALE information is
XScale LOG < Slot =  5 , NP = Egress >
MEM Parity Error, level=1, id=16, timeLow=0x33cc00bc, timeHigh=0x002972b2, status1=0x300b3155, status2=0x80920002
Dec 18 2009 09:03:21 nx-yc21-dc-me60b %%01NP_FPI/3/XSC_SEND_LOG(l):-Slot=5;
XSCALE information isXScale LOG < Slot =  5 , NP = Egress >
MEM Parity Error, level=1, id=16, timeLow=0xb7844b3d, timeHigh=0x002972ab, status1=0x300b9300, status2=0x80920002
   上述告警为5槽位下行NP的QDRSRAM奇偶校验错。status1和status2的含义,当硬件发生奇偶校验错误的时候,会把信息记到这个寄存器,然后xscale会一秒钟读取一次这两个寄存器,发现有问题,会直接上送CPU,然后记到诊断日志中。
告警信息
XSCALE information is
XScale LOG < Slot =  5 , NP = Egress >
MEM Parity Error, level=1, id=16, timeLow=0x33cc00bc, timeHigh=0x002972b2, status1=0x300b3155, status2=0x80920002
Dec 18 2009 09:03:21 nx-yc21-dc-me60b %%01NP_FPI/3/XSC_SEND_LOG(l):-Slot=5;
XSCALE information isXScale LOG < Slot =  5 , NP = Egress >
MEM Parity Error, level=1, id=16, timeLow=0xb7844b3d, timeHigh=0x002972ab, status1=0x300b9300, status2=0x80920002
处理过程
解决方法:
1、若版本me60v100r005,建议打上sp22以上补丁,me60v100r006c05spc006版本应该不存在此问题。
2、到现场重新用命令上下电一次单板。下电命令 <ME60>power off slot <SlotID>  ,断电1-3分钟之后,使用上电命令 < ME60>power on slot <SlotID>上电。然后观察半个小时,看是否有告警。如果重新上电后没有告警了,说明单板已经正常了,无需换板。
注意:带一个备件到现场,以防万一不能恢复的情况下换板。
根因
1、在日志中一直有错误记录,未影响业务,报奇偶校验说明发生了单bit错误非SRAM失效,又因未影响业务,所以发生错误的地址为未存储转发表项的空间,即并没有使用。因为NP下挂的SRAM容量巨大,根据现网告警分析, SRAM的软失效可能性最大。软失效是高能粒子引起的比特跳变,可以通过芯片重新上下电恢复,实际芯片无故障,单板上下电后恢复正常和更换新的单板没有物理区别,该单板可继续使用。
2、触发软失效是一个概率问题,如果阿尔法粒子、高能中子束、热中子等高能粒子,击中芯片后会积累电荷,若电荷能量足够大那么会产生漂移,形成脉冲,造成数据翻转,发生BIT跳变,该问题在IT界称RAM软失效,基于RAM结构的IC都存在发生的机率,因电路规模和工作方式的不同SRAM发生的机率相对要高,应用中通过增加奇偶检验等机制来加强可靠性。
建议与总结

END