FAQ-10G以太端口链路down原因解析

发布时间:  2012-12-28 浏览次数:  147 下载次数:  0
问题描述
版本:
不相关
组网情况:
两个10G的以太端口光纤直连。
故障现象:
由于近期发生多起10G接口对接时,link状态不稳定,接口各种原因导致down,在此总结下down的原因。







处理过程
排除两端配置和光纤光模块的匹配问题。正常使用过程中导致down的原因有如下几条:

1、光模块los:即模块收不到光,没有信号导致链路down。此时应首先查看对端发光是否正常,如正常,则需要排查本端的收光纤是否有断裂的情况发生。
2 、PMA_los:光模块收光正常,PHY的PMA层收不到信息导致链路down。此类故障大多是由于模块与设备接触不良导致,需要拔出模块清理下模块与设备连接处的铜层(如下图所示),如故障依旧,则需要更换模块,排除是模块还是设备硬件故障导致PMA层无信号。

3、PCS_HBERPCS层高误码率,在PHY的PCS层做66/64B转换时,先找66bit数据的 sync header,即转换的同步头。如找不到,就不知从哪里开始转码,同时记录一个同步错,当误码率大于10-4时,就会上报PCS_HBER。链路质量差,容易导致此故障,应该排查链路
4、
PCS_unlockPCS层失锁或不同步。原因同上,连续16次找不到bit流的同步头会导致失锁。此时也应排查链路。
5、Local fault本端的RS层收到PCS层上报的故障,上述的故障都可能导致local fault。当RS层收到有locak fault错时,会停止当前正常报文的发送,转而发 remote fault码流,告知对端。
6、Remote fault:远端故障。收到对端发的远端故障码流,此功能用来实现单端故障时,两端同时down的目的。此时应当查看对端down的原因。




根因
N/A
解决方案

正常接口down的原因可以通过读相应的寄存器来查询到,再根据不用的原因做相应的排查。




建议与总结
    如果接口瞬间up/down变化,我们无法及时的去读取寄存器查找down的原因。因此建议在底层软件感知到物理down后,马上去查询寄存器状态并记录,便于维护



END