ECC子网过大导致多个OSN7500网元主控上报chip_abn告警

发布时间:  2012-12-11 浏览次数:  88 下载次数:  0
问题描述
某局现网同一环上有5个OSN7500设备GSCC上报chip_abn告警,告警参数:0x01 0x00 0x01 0x01 0xff;主机软件:5.21.16.13。每次持续十几秒至2分钟之内不等,间隔十几分钟上报。更换主控后(与原主控板版本一致),新换上去的主控板又产生了chip_abn告警。
处理过程
 

1、经过统计上报该告警的网元主控板使用的温度芯片DS18S20为同一批次,因此更换其中一个网元的主控板(版本一样,但不是同批次生产),但新更换的主控板很快又产生了chip_abn告警,排除批次温度芯片故障因素

2、通过对上报chip_abn告警网元主控的工作温度进行采集,发现其工作温度分别为16.5,19,28.5,30,28且查看现场环境未发现异常因素,因此排除环境因素

3、由于所用的版本5.21.16.13为主流发货版本,且其他地方都没有上报此告警,独只有该局的上报告警,因此排除软件版本问题

4、换下的单板在实验室一直没有重现故障,最后通过研发分析,联系到该局这几个站点同时有ECC的Qufull丢包现象,而ECC丢包是因大数据量DCC通信引起的,而CPU的ECC处理肯定时全负荷运行,ECC数据处理占用大量的CPU资源。研发在实验室用SmartBits来对网管以太网口进行大数据量的冲击,模拟DCC大数据量通信,CPU全负荷处理通信数据,然后对此进行验证,现象重现。

5、因此定位为子网过大,导致产生大流量的ECC通信和额外开销,抢占了温度巡检的这样的低优先级任务,造成软件模拟温度芯片DS18S20的时序不准,从而检测到错误的温度值,导致chip_abn告警上报

6、划分ecc子网,观察发现告警消失,故障解决
根因
ECC子网过大导致多个OSN7500网元主控上报chip_abn告警
解决方案
重新划分ecc子网,建议不超过64

END