因为Gb流量只在BSC和SGSN中建立一条隧道导致NE40E逐流负载严重不均

发布时间:  2012-04-29 浏览次数:  82 下载次数:  0
问题描述
如下拓扑所示,两个站点ALX和DMN,每站点各有两台NE40E,通过dot1q子接口连接,中间通过传输设备,传输侧为VLAN分配带宽(共使用825、826、827、828、829、830六个VLAN),VLAN带宽为共享式,如给VLAN825分配32M,那么ALX-01与DMN-01之间所用的VLAN825和ALX-02与DMN-02之间所用的VLAN825加一起共用32M,在计算利用率时把两边子接口的流量加和再比较。
路由器跑OSPF,正常情况下,ALX上的NE40E到达DMN下端设备(NodeB、BSC)有6条等价路由,流量应该在6个VLAN上负载分担。


但是,我们发现,除了VLAN828之外的几个VLAN负载情况良好,而VLAN828的流量则大大超过其他几个VLAN,查看路由表,到达DMN下挂NodeB和BSC均有六条等价路由。


注:由于IPRAN网络流量瓶颈在下行方向,因此一般关注下行方向流量。表格中为各VLAN链路下行方向利用率情况(DMN-01和DMN-02上行口入方向之和),传输侧给每个VLAN划分16条E1,共32M带宽,可以看到VLAN828最多时使用多达30M,94%,但其他几个VLAN均在50%左右。
 





处理过程
1、怀疑是否为单板问题,因为LPUF-20/21单板负载分担效果不好。
2、由于设备默认使用四元组(源IP、目的IP、源端口、目的端口)进行负载分担,怀疑是否由于负载参数不够细,没有负载开。
3、怀疑某些站流量特别大,由于NE40E默认是逐流的负载方式,如果有多个流量特别大的站都走VLAN828的话,会使得VLAN828流量较大。
4、其他未知流量。

根因
N/A
解决方案
1、由于负载分担在上行板计算,因此查看ALX站点上行方面单板,以及ALX-01与ALX-02之间互联单板的类型,都是LPUF-10,不是LPUF-20/21,排除疑点1。
2、使用load-balance ip-enhance更改设备的负载分担方式,使其使用五元组(协议类型、源IP、目的IP、源端口、目的端口),然后观察接口流量情况,无明显变化。
3、从性能组拿到所有站近几天的话务量数据进行比较,挑出其中话务量最高的几个站,通过流统来确定其路径,有几个走的VLAN828,但是其流量与整个VLAN流量相比,不足以达到近翻倍的程度,且走的是ALX-02与DMN-02,而VLAN828的流量主要在ALX-01与DMN-01之间。
4、继续对DMN下面所有NodeB进行流统,确认其所走的路径,再根据每个站的话务量,分析流量分析情况,未有可以导致如此大区别的原因。
5、把ALX-01上整个路由表display出来,找出其中所有从VLAN828走的网段,然后对所有这些网段进行流统,以找出对VLAN828流量贡献最大的网段。统计完后,发现目的是10.64.17.17/32的流量特别大,远高于其他网段,经查,该IP所对应的业务为Gb流量。
6、与核心网PS的同事确认,Gb流量的工作原理为,一个BSC下所有用户的Gb业务的流量,在BSC上汇总,然后通过BSC与SGSN之间的隧道传输,BSC与SGSN之间建立隧道时各使用一个接口。
7、通过对Gb流量的工作原理分析,所有的Gb流量被汇总到一起,作为一条流在NE40E上转发,由于使用的是逐流负载分担,因此所有Gb流量被负载到同一路径上(此处是VLAN828),没有负载开。
8、为进一步确认,我们重新统计所有VLAN的流量以及DMN上连接BSC的Gb的接口对应的流量,在把VLAN828中的流量减去Gb流量后的结果再与其他VLAN进行对比,可以发现负载均匀,如下表所示:

  注:G5/1/0为Gb网关的Master--DMN-02上连接BSC用于Gb流量的接口,协商成100M。
9、至此,我们可以确定VLAN828流量大大超过其他VLAN的原因为Gb流量导致。
10、通过讨论,针对该情况,我们提供了三种解决方法:
        1)给Gb流量单独分配一条链路,不参与其他流量的负载分担;
        2)在BSC与SGSN上配置多个逻辑IP,建立多个隧道,Gb流量在多个隧道之间传输,这样在逐流时也可以负载开。
        3)对Gb流量所在的链路进行单独扩容。
11、经过与客户讨论,选择使用第1种方法,配置后问题解决,负载情况良好,如下表所示:


建议与总结
1、在网络中Gb流量与普通业务流量混跑时,尤其当Gb业务流量较大时,可以考虑使用上面三种解决方法中的一种,从而避免Gb流量导致负载不均。
2、处理负载不均问题时,可以从这方面考虑,增加一种思路。

END