OSN9500主控替代倒换出现ECC风暴

发布时间:  2014-12-26 浏览次数:  93 下载次数:  0
问题描述
OSN 9500主控JSCC替换为ESCC后进行主控板倒换后出现ECC风暴,而且还有部分智能业务出现异常降级了
处理过程
客户反馈路由表震荡时,路由信息是9-xxxx,并不是一些异常的值,说明这些路由信息是网络上真实存在的网元,并不是由于误码等原因产生了异常路由,而是串网导致。那么这些路由从何而来?经过代码分析和实验室验证,完成了对现场情况的复盘。 

问题出现操作过程:

添加ESCC-插入ESCC(等待3态)-删除备用板数据库(出现删除完的事件后立马)-硬复位备用ESCC(到3态后)-主备倒换

 

原理:

1、 操作过程中比较关键的操作是删除备用板数据库后复位。此时备板启动时,因没有数据库,而是用默认配置,将所有支持DCN的端口的D1-D3通道都设置为HWECC。

2、 在此之后,主备主控进行数据库同步,会将备主控上的数据库同步为主主控上的数据库。但此所有DCN端口上的D1-D3通道的运行设置还是HWECC。对于在数据库中配置关闭或删除DCN的通道来说,数据库中的值与运行设置中的值不一样。

3、 当被主控刚刚切换为主主控、备升主数据库平滑完成之前,运行状态设置为HWECC的通道会开始收发HWECC数据。如此时对端网元位于其他DCN子网中,且通道上的DCN功能也是开启的,网元就能从对端网元上学习到所有的HWECC路由,并将路由向其他网元传播。在HWECC路由过大的情况下,就会造成网元CPU繁忙或DCN通道带宽耗尽,引起网元脱管。

4、 在备升主数据库平滑完成之后,数据库中的配置会被重新设置到各通道。此时数据库中设置为关闭或删除的通道就会停止收发DCN报文。

5、 在一段时间之后,其他DCN子网中的HWECC路由表会被老化,路由表最终稳定后,网元会恢复管理。

根因
当备主控刚刚切换为主主控、备升主数据库平滑完成之前,运行状态设置为HWECC的通道会开始收发HWECC数据。如此时对端网元位于其他DCN子网中,且通道上的DCN功能也是开启的,网元就能从对端网元上学习到所有的HWECC路由,并将路由向其他网元传播。在HWECC路由过大的情况下,就会造成网元CPU繁忙或DCN通道带宽耗尽,引起网元脱管;
解决方案

在硬复位备用ESCC后,再做一次软复位。让备主控的DCN通道运行状态也与数据库保持一致

 

END