ELAN业务MAC地址空间不够导致广播流量增加

发布时间:  2012-06-06 浏览次数:  307 下载次数:  0
问题描述
国内某局点落地层设备5-XX5(PTN3900)到核心设备18-XX1(PTN3900)之间10GE链路下行流量带宽占用率平均值为67%,最大值到96%,但是现网其他核心层链路带宽利用率很小。同时在接入层汇聚层部分GE链路下行流量带宽占用率也很高,平均在80%,高峰到100%。

现网存在较多的Flow_over告警,该告警出现说明现网端口负载已经超过75%。
处理过程
链路负载过大,原因有多种可能:(1)现网业务流量负载很大,严重占用了链路带宽资源,导致带宽出现拥塞。(2)网络出现大量的广播风暴,严重占用有限的带宽资源。基于这两种原因,对现网情况做了分析,首先确认这些流量是否为正常业务流量,如果是的话,需要尽快疏导和均衡流量,将流量分摊到其他链路上。如果不是真实的而业务流量,需要查明这些流量的来源,如果为广播风暴,则需要查看风暴原因,并及时处理。
根因

MAC地址学满,导致未知帧广播

解决方案
1、排查是否有现网真实业务流量:
现网所有的高带宽占用流量均来自于5-XXX扩5,而该节点UNI业务侧端口入方向流量,发现带宽占用均很小。UNI用户侧入方向流量加起来不到300M,但是下行流量合起来基本上快到10G。因此可以确定这些流量并非真实业务流量。
2、排查是否为广播报文流量:
分析大流量在现网的流向发现,所有的大流量从核心层,汇聚层到接入层,而且是专门对特定的链路有影响,对比这些链路的流量变化趋势,发现完全相同,因此可以明确,现网所有的高负载链路的流量均来自于同一个节点,也就是5-XXX扩5节点。而且由于流量变化趋势完全相同,说明该流量为广播复制报文。由于该节点落地业务包括TD,专线和专网业务,TD和专线业务都通过PWE3承载,不会产生广播,唯一可能产生风暴的业务就是ELAN专网业务。
为了进一步验证这个结论,对该节点的专网业务作了配置修改,将“未知帧处理”方式改为从“广播”改为“丢弃”,然后观察现网高负载带宽占用全部降下来。包括接入层设备的流量也降下来,可以进一步说明,大流量确实来自于广播。
3、广播产生原因:一般来说ELAN业务产生广播的原因包括UNI用户侧风暴,但是现网已经配置了水平分割组,这种原因的可能性很小,另一种原因就是现网的MAC地址不够用,产生了很多的未知帧,而对未知帧处理的方式为广播,则导致广播报文的增加。查看现网MAC地址学习参数,只有默认的512,而该专网业务的叶子节点有250多个,因此MAC地址确实较小,将该空间改为2000后,故障现象消失,流量恢复到5%以下。
4、现网ELAN业务如果出现MAC地址紧缺的时候,会报FDBSIZEALM_ELAN告警,但是现网发现该告警之前报过,但是被屏蔽了。
建议与总结
1、PTN专网业务的规模不能过大,否则一旦出现广播风暴影响范围过大,一般来说NNI侧节点建议不超过40个。
2、专网业务的MAC地址空间规格一定要根据现网的用户规模来设置,不能保持默认的512不变。
3、不要屏蔽FDBSIZEALM_ELAN告警,同时根据该告警适当调整MAC学习限制个数,减少广播流量; 

END