光链路不稳定导致10G XFP光模块tx fault告警的解决方法

发布时间:  2014-12-31 浏览次数:  532 下载次数:  0
问题描述
客户反馈设备上一个10G接口所使用的XFP光模块频繁上报TxFault的告警,日志信息如下:
Jun 20 2014 16:47:44+08:00 XXXX %%01SRM/2/NODEFAULT(l)[619557]:Slot=2;PIC0 of LPU 2 is failed, perhaps XFP0 TxFault of XFP0 is abnormal. (Reason="Card0 Port0: PIC XFP TX FAULT! ")
告警信息
Jun 20 2014 16:47:44+08:00 XXXX %%01SRM/2/NODEFAULT(l)[619557]:Slot=2;PIC0 of LPU 2 is failed, perhaps XFP0 TxFault of XFP0 is abnormal. (Reason="Card0 Port0: PIC XFP TX FAULT! ")
处理过程
光模块TxFault的状态是由XFP模块内部自动检测的,并通过NR(NOT READY)引脚电平送出来,软件负责把模块检测的结果显示并告警。
根据XFP模块MSA协议中的描述,NR状态是三种信号取或的结果,这三种信号是:
Laser Fault:即模块发光失败,正是我们想要检测的TxFault。
Tx Loss of Lock:即发送方向的CDR失锁,此故障很少遇到,一般为设备或模块故障导致。
Rx Loss of Lock:即接受方向的CDR失败,当收到的光信号不稳定时,无法从中恢复出时钟信号,会导致此失锁。
但有些厂家的模块并不是严格按照MSA的要求来实现NR的。比如常见的Finisar模块,就没有Laser Fault信号。NR仅包括RX/TX Loss of Lock。
其他的如JDSU,OPNEX,新飞通等光模块,是可以检测到真正的Laser Fault的。
根因
排查现网使用的是Finisar模块,此模块上报TxFault只有可能是Rx Loss of Lock,因此排查光路质量后故障恢复。
解决方案
此问题是光路质量导致,需要排查光路质量。

END