MAC层检测误码越限导致2G业务中断。

发布时间:  2013-01-05 浏览次数:  81 下载次数:  0
问题描述
某日某区域共有近20个2G站业务中断,而3G站业务正常。经排查,业务中断站点的路由都经过A与B段。查看告警,A站点闪报MAC-FCS-EXT告警。次日,再次有7个2G站点业务中断,而3G站业务正常。经排查,业务中断站点的路由都经过C站点与D站点段。查看告警,C站点闪报MAC-FCS-EXT告警。两次故障现象一样,业务中断的站点路由上闪报MAC-FCS-EXT。该告警的含义是MAC层检测到误码越限。传输设备的版本是PTN3900   V100R002C01SPC500。

同时现象故障给了我们两个疑问:

  1. 为什么2G站业务中断,而3G站业务正常?
  2. 业务为什么会中断?









在A和C站点PTN3900闪报MAC-FCS-EXT告警。







处理过程

针对以上两个问题,进行逐个分析:
1、 首先,分析处理第一个问题“为什么2G站业务中断,而3G站业务正常。”
        该现象是由于2G、3G站的工作原理不相同导致。2G站采用的是TDM时分复用间插方式,通过CES业务传送,而3G站采用以太封装方式,通过以太业务传送。CES业务对误码要求较高,而以太业务要求较低。CES业务在10E-6级别的误码时有可能会中断,而以太业务可以正常使用,我们MAC-FCS-EXT告警是当误码在10E-6左右时上报。因此,这两次业务中断都是2G站中断,而3G站正常。

2、 其次,分析处理第二个问题“业务为什么会中断。
         通过故障现象,我们确定重点需要处理闪报MAC-FCS-EXT问题。该告警的含义表明,故障点在两套PTN3900设备的光板的间。由此,故障问题可能点有以下几个方面:

  1. 单板故障
  2. 光模块问题
  3. 光缆问题
  4. 机房尾纤

具体操作步骤如下:

  1. 单板工作状态的检测
  2.  现场光模块的硬件、软件的环回、光缆环回操作等 具体操作如下:

1、   端口的FCS误码是在单板最外层逻辑芯片测试的,该芯片直接与端口入口相连,如果此处检测到FCS告警通常是因为外部激光器、光纤原因造成的。如果是网元原因产生FCS误码,则说明这个外部逻辑芯片本身硬件失效了,或者该单板的电源、时钟模块出了问题。
2 、 从端口性能看,此时还是有FCS误码,只是出现频率相对少一些了。查看两端激光器光功率都是正常的,另外,发现问题端口上的两段光纤只有一个方向存在FCS误码,到“A-B”方向上是没有误码的。
3 、 检查两边网元的当前、历史告警,确认两边PTN设备上没有出现过电源、时钟或者硬件相关的告警记录。
4 、 接着组织研发内部逻辑专家,系统分析了两边网元上逻辑芯片的当前状态及计数寄存器信息,结果都是正常的。
5 、 进一步排查了这两处理板上的SM、TM、NP等全部主要工作芯片,均没有发现任何异常情况。
6 、 采集了两边处理板的LOG信息,分析LOG记录中的疑点,也没有发现近期芯片异常工作状态的记录。
7、  在完成上面的排查后,认为PTN设备没有明显异常,需要排查外部激光器和光纤。于是申请晚上做端口环回测试。
8  、在分析了端口环回对DCN、专网业务影响,做好相关规避处理后。实施了APS保护处理,选择保留一个基站接上来的业务,将它配置成APS1+1,以减小端口对业务造成的丢包影响,同时又能保证工作路径上始终有60M左右的流量。此时,端口还是持续存在FCS误码。
9 、 在“A站点”配置静态ARP后,直接使用光纤在11号板1号端口外部环回,观察端口性能时发现,FCS误码立刻消失了。
10  、接着我们又对该端口进行PHY内环、MAC内环,均没有再出现FCS误码。
11、  最后,我们又把原来光纤接上,误码马上又出现了。
12、  对于B站点,对7号板1号端口做同样的端口光纤环回,依然没有误码出现。
13、  依次配置端口PHY内环回、MAC内环回后,两端PTN设备上仍然没有FCS误码。
14 、此时取消了本地的环回,改成到对端配置PHY外环回,结果从来没有出现过FCS误码的“B站点”7号板1号端口出现了FCS误码


15、  最后,取消了所有环回,“B站点”网元的FCS误码消失,而“A站点”网元上的FCS误码再次上报。

 

        可以确定外部光缆存在问题或机房跳纤存在问题。
 









根因

C,D之间的链路异常

解决方案

1、排查站点应用环境、光纤头污染检测以及光纤链路状态。
 

编号 排查项 计划 备注
1 站点应用环境排查, 是否存在明显的光纤污染源    
2 检查光纤头污染状态   使用显微镜测试
3 光路铺设工程调查    
4 光功率测试   使用光功率计测试
5 功率损耗和反射测试   使用OTDR (FTB-300)测试光纤链路

2、以上未发现异常,则进行以下光路专业测试:

编号 排查项 要求 计划 备注
1 眼图测试 眼图性能测试,拷贝波形 由第一步操作情况决定 通过光示波器(CSA8000)测试光纤链路
2 中心波长和最大均方根谱宽测试 记录测试值以及波形 由第一步操作情况决定 通过光谱分析仪(Anritsu MS9710C)测试光纤链路


选择A站点和B站点作为测试点(图中A/B/C/D 设备均为PTN3900):
a. 机房环境进行检查。
  1. 机房环境检查(包括没有污染源,机房温度,odf架的盘纤,及机房卫生等是否符合标准)
  2. 备用纤芯功率损耗和反射测试
  3. 更换芯缆
  4. 原光缆两芯的功率损耗和反射测试


现场操作结果
 

  • 光纤状况简介

据线路维护人员了解:
 

  1. 光纤采用G.652;
  2. A至B总长由23Km左右,中间有三个调节点,直接距离大致如下:


 
 

  • 功率测试

测试方法:通过网管读取光功率
测试数据:
表一

结束时间 A站点-11-EX2-1 激光器发送功率 B站点-7-EX2-1 激光器接收功率 线路损耗(dBm)
最大值(dBm) 最小值(dBm) 最近值(dBm) 最大值(dBm) 最小值(dBm) 最近值(dBm)
12/02/2012 14:00 0.70 0.70 0.70 -4.30 -60.00 -9.00 /
12/03/2012 14:00 0.70 0.70 0.70 -9.00 -9.10 -9.00 9.8
12/04/2012 14:00 0.70 0.70 0.70 -9.00 -9.10 -9.00 9.8
12/05/2012 14:00 0.70 0.70 0.70 -9.00 -9.10 -9.00 9.8
12/06/2012 14:00 0.70 0.70 0.70 -9.00 -9.10 -9.00 9.8
12/07/2012 14:00 0.70 0.70 0.70 -8.90 -60.00 -9.10 /
 
表二

结束时间 A站点-11-EX2-1 激光器接收功率 B站点-7-EX2-1 激光器发送功率 线路损耗(dBm)
最大值(dBm) 最小值(dBm) 最近值(dBm) 最大值(dBm) 最小值(dBm) 最近值(dBm)
12/02/2012 14:00 -4.20 -60.00 -9.80 0.70 0.70 0.70 /
12/03/2012 14:00 -9.60 -10.10 -9.80 0.70 0.70 0.70 10.7
12/04/2012 14:00 -9.60 -10.10 -9.90 0.70 0.70 0.70 10.7
12/05/2012 14:00 -9.60 -10.10 -9.70 0.70 0.70 0.70 10.7
12/06/2012 14:00 -9.60 -10.00 -9.90 0.70 0.70 0.70 10.7
12/07/2012 14:00 -9.60 -60.00 -9.90 0.70 0.70 0.70 /
备注:表一和表二中12月2日和12月7日都存在插拔光纤操作。
 
测试结论:

  1. A接收的光功率相比与B较低1dBm左右,并且这正好与仅有A上报告警MAC_FCS_EXC吻合;
  2. 理论计算:G.652光纤损耗0.28dB/Km,一个接头0.5dBm,那么A到B理论损耗为0.28×23+0.5×3 = 8dBM;实际损耗高出2~3dBm。


 

  • 光路测试情况

测试方法:双向OTDR测试法;
测试仪表:移动代维提供;
测试位置:A与B的ODF子架之间;

序号 测试点 测试波形 测试结果
1 A-13芯 C处损耗1.3dBm左右,不满足小于0.5dBm的工程要求
2 A-14芯 损耗基本正常
3 B-9芯
  1. E与D之间有异常反射点;
  2. A与C之间有异常反射点;
  3. 反射点过多,不正常。
4 B-10芯 C和D调节点总损耗过大,已达到3dBm
测试结果(备注,13、14芯为备用纤芯,9、10芯为前期业务在用芯缆):
  1. C和D调节点总损耗过大,已达到3dBm;
  2. 线路反射过多。








建议与总结

总结:
1 通过上面的操作,可以排除FCS误码是两端PTN设备问题造成的。从使用新的短光纤环回后,在基本相同的背景流下,FCS误码在两边设备上都消失的结果看,激光器也是可以正常工作的。
中间光缆出问题的可能性非常大
2 通过测试同缆中的其它没有在用的备用纤缆,发现备用光缆“A”发往“B”方向的光缆衰耗不正常,达到1.ddbm,不满足工程接点要求的0.5dbm。
可以判断光缆质量不好。
3 把原业务调开后,在11日进行了相应的测试,发现“A”发往“B”方向的光缆的衰耗达到3dbm,不满足工程接点0.5dbm的要求,并且发现这芯光缆存在三个反射点,并且反射点还比较大。
可以判断故障就是由该问题导导致。
处理建议:
1
当前光缆存在的问题: 
1 经过现场了解,施工队告知,该段光缆是96芯,但多数芯缆质量都较差;
2 通过OTDR的测试,发现该段光缆的衰耗较大,并且存在较多的反射点。 
2 处理建议: 
1 建议针对光缆重新进行熔接,从而减少衰耗和反射点;
2 公司考虑将MAC-FCS-EXT告警设置为倒换条件或者提高该告警的监测级别。 









END