时钟配置不同步导致EGS4和R厂家设备对接丢包

发布时间:  2013-05-20 浏览次数:  115 下载次数:  0
问题描述

问题描述
某日客户反馈工行总行至一网点大客户业务丢包,PING包包长15000字节,丢包率在1%以上。
网络拓扑
工行总行站点使用OSN1500设备,其他站点为OSN3500,版本为18.50P01
总行OSN1500通过EGS4单板和工行总行迈普路由器对接,EGS4单板配置EVPL汇聚各个网点的业务,每个网点带宽为2*VC12,中间链路为华为SDH设备,组网方式为MSP、SNCP,终端链路使用R厂家3500E设备通过STM-1/4光口和华为设备对接,网点配置R厂家3107等盒式设备通过FE电口和网点迈普路由器对接,连接关系如下:
工行总行迈普路由器—(EGS4)工行OSN1500(SL16)—传输L—传输C—传输E(SLQ1)—(STM-1)R厂家3500E(STM-1)—R厂家3107(FE)—网点迈普路由器
其中工行OSN1500设备位于工行总行,传输L位于本地网子网,传输C和传输E位于城域网子网,R厂家3500E设备和传输E设备在同一机房,R厂家3107位于网点。
无异常告警信息。

处理过程

1、链路误码导致丢包
2、对接路由器端口故障
3、带宽不足
4、R厂家网点设备或汇聚EGS4单板故障
5、以太网封装对接问题
6、其他网络配置

根因

时钟配置不同步

解决方案

1、通过网管查询性能,并未发现链路存在误码,而且同一路由其他业务正常,排除误码原因导致丢包。
2、配置一条路由相同、两端使用不同以太网端口的业务进行测试,丢包率依然在1%以上,可以排除工行路由器故障。
3、增加带宽到4*VC12,经过测试丢包率依然在1%以上,故可以排除带宽不足原因导致的丢包。
4、调整EGS4单板以太网配置,和其他正常运行的业务对调绑定时隙和VC trunk,经过测试依然丢包,使用同型号设备替换R厂家营业网点设备,经过测试依然丢包,初步怀疑设备对接不匹配问题。
5、在和R厂家对接的传输E设备上增加EFS4以太网单板,测试EFS4和R厂家设备对接情况,分别配置1口到工行总行的EPL业务,2口到R厂家设备的EPL业务,采用分段测试,测试结果为2段都没有丢包现象,根据表面现象初步判断使用EFS4和R厂家对接没问题,使用EGS4对接存在丢包,但是由于EGS4单板之前已经对调过VC trunk,而且其他营业网点也配置同样设备型号,又可以反向证明设备对接不存在问题。
6、由于之前该客户网络发生过R厂家设备时钟模块批次问题导致的故障,客户要求R厂家研发现场支持问题分析,并且从总部带来一台其他型号设备,使用新设备替换后经过测试没有丢包,此时可确定R厂家新、老设备处理对接数据时存在差异,为了彻底定位根因,配置一条从传输L至传输E的VC12级别的业务,下在传输E设备一空闲光口,R厂家研发使用仪表对该光口进行测试,发现有指针调整,测试10分钟调整计数为1000,R厂家研发答复该数值已经超出R厂家老设备处理能力,所以会导致设备丢包,另外在传输E站点查询该条业务15分钟性能值,指针调整计数为1300多块左右,所以证实存在指针调整。由于跨子网的业务比较少,而且其他业务只是从城域网穿通,所以未受影响。
7、查询华为设备时钟配置,传输L设备位于本地网,时钟源为BITS外时钟,传输C和传输E设备位于城域网,时钟源为传输C内部时钟,两个子网的时钟源级别不一致,更改时钟配置,使传输C和传输E跟踪传输L,通过仪表测试指针调整结束,重新测试原始业务,测试6个小时未发现丢包,最终丢包问题解决。

建议与总结
基于分不同子网管理的传输网络,一般只关注同一子网的时钟配置,没有成环、互跟、有保护即可,但是子网间的时钟级别往往被忽视,此案例就是不同子网时钟级别不同导致的业务丢包,建议每个子网都配置BITS时钟源,即可实现每个网元跟踪相同级别时钟源。

END