OSN7500主控故障导致通过本网元转发ECC的网元全部脱管

发布时间:  2012-12-10 浏览次数:  74 下载次数:  0
问题描述
 

1、某局由OSN7500设备下挂接入网经常发生ECC振荡,导致所带网元频繁脱管;

2、OSN7500设备主机版本为5.21.13.47P01,网管版本T2000V2R2CO1;

3、OSN7500设备为网关网元,下挂数个SNCP和MSP环,下挂网元出现脱管,而网关网元能正常登陆。

4、每次发生故障时,从ECC路由表中发现会出现越来越多的距离为60以上的网元,但是这些网元却非实际网元。

5、软复位或者硬复位主控无效。更改网关但是只要经过此网元效果还是得不到改观。

6、通过关闭所有与此网关网元组成的SNCP环和MSP环的一路ECC,暂时解决网元脱管问题。

处理过程
 

1、软复位或者硬复位主控无效。更改网关但是只要经过此网元效果还是得不到改观。

2、通过关闭所有与此网关网元组成的SNCP环和MSP环的一路ECC,暂时解决网元脱管问题,但是没有根本解决。

3、更换主控板,发现更换后所有网元能正常登陆,查询ECC路由表不再出现距离为60以上的网元;

4、把单板返回公司分析,将返回的待分析件插入7500网元

并以此网元做网关网元,下挂其他网元做非网关网元,在通过网关网元发送数据到其他网元的(通过ECC传送)时候,发现有零星误码出现,现象是低位数据由1变为0。数据传输的通路是:本板SDRAM--CPU--SD701--zl80007―下游网元,由于SDRAM到CPU侧有底层的误码校验机制、SD701到zl80007侧有HDLC校验机制都没有发现误码。

5、通过分析发现是由于ECC传输途径上的SD701芯片在进行数据传输的时候产生零星误码造成的,在实验室对比测试了出现误码单板和正常单板板上的电源文波和时钟等等可能引起误码的外部原因,没有发现有异常,所以判断是芯片自身产生的误码;
根因
 

1、网关网元所带网元过多,实际上只带70多个网元,此问题可以排除;

2、OSI协议引起,关闭OSI协议故障依旧;

3、主控板故障问题;

4、单板版本问题,查询资料证实此版本无此问题;

5、关键点是查询路由表发现会出现越来越多的距离为60以上的网元,路由表明显出现异常。
解决方案
无。

END