OSN3500设备没有接地导致CES业务出现误码

发布时间:  2014-12-15 浏览次数:  449 下载次数:  0
问题描述
某局点电多条ces业务经常夜间中断,其中一条中断最为频繁的业务组网如下:
该条业务每天下午6、7点钟开始中断,中断时无任何人为操作,持续几个小时后自动恢复。


告警信息
处理过程
1、网管查询传输链路配置和状态,发现:
1)115号站点OSN3500和158号OSN550时钟通过同步以太跟踪到100号OSN7500II,100号OSN7500II跟踪外部时钟源;但两端用户设备没法设置跟踪传输的时钟跟踪。
2)58号OSN550有少量buffer下溢记录,怀疑和用户设备没有跟踪到传输的时钟相关,但数量较少,不可能是业务每天夜里中断几个小时的原因。

3)115号站点OSN3500 E1端口24小时历史性能,发现19-md75-23和其它几个端口都有大量误码上报。

进一步查询历史性能发现,误码只在夜间产生,白天正常没有误码。而且误码秒时间有6个小时左右,和业务中断时间比较吻合。
2、将业务断开,一端环回,一端挂仪表(CMA3000)测试,测试时间为下午3:30到第二天上午8:30,测试时间覆盖夜间业务中断时间,发现无业务长断情况出现。说明至少网络侧工作正常。

3、客户排查其它业务情况,发现农发行业务、财务专网业务等也都存在晚上6、7点钟开始中断的情况,只是因为这些业务的客户侧终端设备都不是24小时开机,所以没有上报每天中断的故障。
而这些中断的业务全部都是经过158号网元3500 19-md75传输的:
19-md75-18 业务1
19-md75-20 业务2
19-md75-21 业务3
19-md75-22 业务4
19-md75-23 挂表测试业务
19-md75-1到19-md75-10 其它业务
这些端口出来之后,就分别接不同的光电转换器或协议转换器(都在158号网元机房),之后通过光纤拉远到不同的客户机房。

至此,问题基本锁定在158号网元机房。
4、在雷达站业务中断的时间,做了以下测试:
1)158号网元3500 19-md75-23端口软件外环,此时158号网元用户机房终端“信号丢失”故障灯仍然长亮;但将与此端口对接的光电转换器电缆环回,故障灯灭。说明故障出在158号网元3500 19-md75-23端口以及与其对接的光电转换器之间。
2)故障时19-md75-23和光电转换器上都有误码指示,但两端分别通过E1电缆环回后,两端误码都会消失。调整传输上ces业务端口,从19-md75-23调整到19-md75-1,故障未消失;更换光电转换器的E1端口,故障未消失;两端设备分别掉电重启,故障也未消失。说明并不是某一端设备故障导致的误码。
3)分别将19-md75接入业务的各E1端口拔掉,发现其它端口误码情况并没有明显好转。说明误码并不是某一路远端设备的干扰引入的。
从以上测试结果和故障现象分析,怀疑158号网元机房供电、接地问题或外部干扰导致此故障发生。
5、实地观察158号网元机房周边环境,发现:
1)虽然附近存在多个通信基站、大型户外照明广告牌以及市电变压器等设备,但没有发现和故障时间完全吻合的干扰源。仪表也未检测出故障前后无线电干扰的明显变化。外部干扰源无法明确。
2)市电供电情况,白天一直稳定在233V左右,但下午6、7点用电高峰开始,电压会有明显的升高,最高可到达240V。比机房UPS输出的稳定在220V左右的电压高出许多。
3)3500接地线接往UPS电源,与3500 E1端口对接的各个光电转换器和协议转换器的三相市电插头直接插接线板,各接线板地线也最终接往UPS电源。但UPS地线从机房出来后悬空,没有真正接地
从上述机房环境来看,机房未接地是最大的疑点。
6、机房接地后,观察7天,发现之前每天中断的雷达站业务没再出现中断情况,158号网元3500各E1端口也没再出现误码记录,确认问题解决。

根因
施工不规范造成158号网元OSN3500设备和对接设备均没有接地导致问题发生。
解决方案
将设备接地按照规范连接地排。
建议与总结
CES业务或者分组业务如果遇到一些规律性的误码又无法找到问题原因时建议先找到中断业务的共性首先排查时钟跟踪和机房接地。

END