CE12808端口频繁UP/DOWN

发布时间:  2016-12-22 浏览次数:  200 下载次数:  2
问题描述

某金融局点CE12808F5互联的端口多次出现端口up/down现象,设备部署在开放平台区(服务器区)汇聚,重要性非常高。



告警信息

设备存在接口频繁up/down的日志。

Oct 27 2016
23:54:59+08:00 linkDown_active(l):(ifName=GE7/0/47, Reason=Interface physical
link is down)

Oct 27 2016
23:55:18+08:00 linkDown_active(l):(ifName=GE7/0/47, Reason=Interface physical
link is down)

Oct 28 2016
00:17:08+08:00 linkDown_active(l):(ifName=GE7/0/47, Reason=Interface physical
link is down)

Oct 28 2016
00:38:00+08:00 linkDown_active(l):(ifName=GE7/0/47, Reason=Interface physical
link is down)

Oct 28 2016
00:54:42+08:00 linkDown_active(l):(ifName=GE7/0/47, Reason=Interface physical
link is down)

Oct 28 2016
00:57:43+08:00 linkDown_active(l):(ifName=GE7/0/47, Reason=Interface physical
link is down)

Oct 28 2016
00:58:25+08:00 linkDown_active(l):(ifName=GE7/0/47, Reason=Interface physical
link is down)

Oct 28 2016
00:59:14+08:00 linkDown_active(l):(ifName=GE7/0/47, Reason=Interface physical
link is down)

Oct 28 2016
01:07:23+08:00 linkDown_active(l):(ifName=GE7/0/47, Reason=Interface physical
link is down)

Oct 28 2016
01:16:59+08:00 linkDown_active(l):(ifName=GE7/0/47, Reason=Interface physical
link is down)

Oct 28 2016
01:25:15+08:00 linkDown_active(l):(ifName=GE7/0/47, Reason=Interface physical
link is down)

Oct 28 2016
01:25:55+08:00 linkDown_active(l):(ifName=GE7/0/47, Reason=Interface physical
link is down)

处理过程

1、  分析pic.logport_down_status.log日志,可以看到GE7/0/47端口发生闪断的原因均为Fastlink中断产生端口DOWN事件,如下为其中一段时间日志:

//备注:如下日志时间均为0时区时间,与北京时间差8小时。

[2016-10-27
15:54:59.349][ERROR] Enter register 
fastlink fun

[2016-10-27
15:54:59.412]*******************************************************

Unit: 1, port: 24,
link status is : down     //Unit1,
port:24
代表7/0/47端口

备注:【Fastlink机制说明】

Fastlink本质上是端口芯片识别到接收的链路信号不稳定后产生的硬中断信号,通知业务面端口DOWN,快速切换业务。CE交换机默认开启Fastlink机制,Fastlink硬中断反映的是物理链路信号不稳,信号毛刺现象。例如物理链路连接不稳定、电磁干扰都可能触发芯片产生Fastlink中断。

2、  现场在对设备的GE7/0/47端口的网线水晶头进行按压时,出现无法UP或闪断现象,按压完成后GE7/0/47端口不再产生链路UP/DOWN状态变化。且按压GE7/0/47端口时,GE7/0/46端口也出现过UP/DOWN状态变化。

上述现象说明GE7/0/46GE7/0/47端口探针和水晶头之间存在接触不稳的情况。

3、  对现网设备布线的排查,发现存在布线不规范的现象,主要存在以下两点问题:

1)  走线全为单侧走线。

2)  线路过紧,未预留一定的弧度,可能会导致网线张力过大。

在客户的授权下,对线路重新进行优化调整,调整完成后持续关注2个月未在出现问题。

根因

现网布线是从左到右布线的,如图:

其中GE7/0/46GE7/0/47端口是最右边的端口,图中红色圆形标识,GE7/0/46GE7/0/47端口是和F5连接的两个端口,捆绑线大概20多根线,设备在正常运行时,由于设备上的风扇或空调的震动加上线本身重量的原因,引起右端受力相对较大,可能导致连接F5GE7/0/46GE7/0/47两个端口在运行过程中水晶头和网口接触不良。

根本原因是布线不规范,标准规范建议设备走线为两端走线,同时网线与设备端口的连线处应预留较大的弧度。

解决方案

布线优化调整。调整后的效果如下:

注:由于设备承载现网核心生产业务,变更窗口时间短,未对设备进行两边布线的调整,仅对线路重新捆扎,以及加大弯曲弧度。


在客户的授权下,对线路重新进行优化调整,调整完成后持续关注2个月未在出现问题。

建议与总结

项目交付实施中,设备走线一定要按照规范实施,避免因为安装规范影响业务,这类问题看似简单,反而定位问题困难。



END