传输链路异常倒换导致组播业务直播频道黑屏现象

发布时间:  2016-04-19 浏览次数:  139 下载次数:  0
问题描述

某组播网络核心S12700通过传输环网下挂各地市S7700交换机,传输互联链路中断,待物理链路恢复后,S7700下挂组播用户出现部分直播频道黑屏。

组网拓扑:

 

 

告警信息
处理过程

A.从业务恢复后采集的信息,查看S12700交换机的PIM(*,G)和(S,G)组播表项规模,对应的(*,G)表项的数目为1146,(S,G)表项的数目为753。

B.然后查看下挂的业务异常的S7700交换机上PIM(*,G)和(S,G)组播表项规模,对应的(*,G)表项的数目为521,(S,G)表项的数目为417。

C.以组播组239.49.254.16为例,S12700交换机上对应组播组表项存在6个出接口,并且其部分表项生成时间不足一小时,说明在一小时之前业务是中断的。

D.查看该S12700故障时间的日志信息,以及和客户确认后,15点06分时S12700与下挂的10台S7700交换机之间的Eth-trunk物理链路同时出现中断,然后立刻又恢复正常。

E.由于现网组播业务规模较大,S12700同时下挂了十多台的S7700交换机,在互联链路闪断后,S12700会清除全部组播表项的出接口,需要下挂的S7700重新发送PIM Hello和PIM Join协议报文生成出接口; S7700由于同时恢复上行接口,导致十多台S7700交换机会在同一时间向上发送PIM Hello和PIM Join协议报文,引发S12700交换机在短时间内收到超过CP-CAR的PIM协议报文,部分PIM协议被丢弃,引发PIM邻居中断和部分出接口无法生成。

   

 
根因

由于S12700下挂各地市S7700同时恢复上行接口,导致十多台S7700交换机会在同一时间向上发送PIM Hello和PIM Join协议报文,导致S12700交换机在短时间内收到超过CP-CAR的PIM协议报文,部分PIM协议被丢弃,引发PIM邻居中断和部分出接口无法生成,导致业务异常。

解决方案

在S12700交换机上将PIM协议报文的CP-CAR值放大到384Kbps,即每秒可以处理48KByte的PIM协议报文后,组播业务全部恢复正常。正常情况下挂的S7700存在正常加入离开动作,此时单台S7700发送PIM Join的分组情况不会那么集中于1~2秒全部发送出去,而是分摊到60秒的周期内。这次的情况是恰好多台S7700同时链路恢复,并且链路恢复后重新分组时,各台S7700都会集中在前1~2秒发送PIM Join报文,从而导致此S12700交换机上接口板和主控板均出现PIM协议报文CAR丢包,导致业务故障。

建议与总结

对于部署组播业务的网络,建议对组播参数进行修改:

    在S7700上开启set multicast forwarding-table super-mode命令(需要重启设备后命令才生效),或者升级到V2R8版本,对设备发送PIM Join报文的长度进行优化,此时在单个PIM Join报文中填充更多的组播组地址,减少发送出去的PIM Join报文的数目。

END