PTN与无线之间ETH连接环路,导致无线广播风暴,引起业务中断

发布时间:  2013-04-25 浏览次数:  140 下载次数:  0
问题描述
OptiX PTN 3900系列产品,无线的反馈其数据业务出现成片中断,语音业务正常,出现问题的业务在同一个RNC上,通过2个GE口与一台配置E-LAN业务的PTN相连。PTN上检查发现相关链路正常,没有告警,对相关业务进行OAM测试发现均正常。PTN上与RNC相连的GE口有10M左右的广播报文,其他报文接近为0,PTN 3900版本:V1R2CO2SPC600+SPH601,PTN 950版本:V1R2CO1SPC600。



处理过程
1、单板故障;
2、业务配置问题;
根因
PTN与出现问题NodeB相连的站中间的微波被施工方错误的连接成了自环,导致了无线内部的广播风暴
解决方案
1、PTN检查与RNC相连的网元,部分出现问题站点相连的PTN网元,发现没有异常告警,tunnel,pw均up,端口上也有业务流量,进行OAM测试均正常。反馈给无线,PTN内部没有异常;
2、RNC换板后给反馈PTN,问题没有解决,且其内部有大量广播报文,在PTN上查询与RNC相连的GE端口的性能计数,发现端口上有10M左右的广播流量,其他报文计算基本为0。问题原因找到,是无线内部出现广播风暴导致其成片数据业务中断。
3、对与RNC相连的GE端口设置广播报文抑制,参数值为最小值1,(可选值1-100,表示的是百分比,0表示不抑制),问题依然存在,因为参数1,能通过的广播流量就已经有10M了,RNC已经承受不了这么多广播报文。
4、在该E-LAN上新添加一个端口,并用pc对与之相连,对该广播报文进行抓包,根据报文的MAC,找到了出现风暴的源头NodeB。
5、关断与该NodeB相连的PTN的端口,除被关断站外,其他中断的数据业务恢复。
6、下站检查发现,PTN与出现问题NodeB相连的站中间的微波被施工方错误的连接成了自环,导致了无线内部的广播风暴,取消该自环,打开PTN关断的端口,该站业务也恢复正常。


建议与总结
对现网所有ETH端口全部设置环路检测使能。监控告警ETHOAM_SELF_LOOP。是否需要使能环回关断,可以根据需要考虑。
经验建议:1、广播抑制粒度过大,是按百分比来做的,建议实现成按报文个数可设置
          2、环回检测的默认值为不使能,建议做成使能,减小开局的工作量。

END