发布时间: 2019-07-09 | 浏览次数: 538 | 下载次数: 2 | 作者: SU1001046469 | 文档编号: EKB1000547944
J国某局点数据中心维护人员向我司维护人员反馈,该数据中心出口链路的光口突然down掉,在更换光模块后,问题依旧。
数据中心拓扑如下,A/B站点出口设备采用我司CE6800堆叠跨设备链路捆绑互联。其中,数据中心backup设备端口为down状态。
N/A
1. 1. 检查两端光模块的参数是否一致(包括单模/多模,波长信息等)
2. 2. 检查LOG信息,display logbuffer,可以看到如下提示,端口曾经在某段时间频繁up/down
Dec 22 2016 12:39:14 HUAWEI %%01IFNET/2/linkDown_active(l):CID=0x807a0409-alarmID=0x08520003;The interface status changes. (ifName=10GE1/0/48, AdminStatus=UP, OperStatus=DOWN, Reason=Interface physical link is down, mainName=10GE1/0/48)
3. 3. 查看故障端口状态,display interface 10ge 1/0/48,可以看到端口现在状态为error-down(link-flap)状态。可以看到,目前端口的down状态是由于接口使能了Link-flap保护功能并且发生过频繁的Up/Down变化,从而被设备判断为接口状态异常,触发接口ERROR DOWN。
<HUAWEI>disp int 10ge 1/0/48
10GE1/0/1 current state : ERROR
DOWN(link-flap) (ifindex: 5)
4. 4. 将端口重新启动,执行命令“shutdown”和“undo shutdown”,重新查看端口状态,发现端口并未up,且端口状态从error-down变更到down状态。通过这次尝试,可以发现error down的链路保护功能并不是链路down状态的主要原因。
<HUAWEI>disp int 10ge 1/0/48
10GE1/0/48 current state : DOWN (ifindex: 51)
Line protocol current state : DOWN
5. 5. 尝试替换CE6800两端的光模块,端口不能UP。
6. 6. 逐步检查各段链路是否有问题?如图所示,数据中心与数据中心之间可以共分为4个段落。如下图所示,
首先,我们来测试一下A DC第一个段落,因现网正在运行业务,我们将两台测试交换机分别部署在第一段链路的终点,如图所示,发现端口可以正常up,可以排除第一个阶段线路的问题。
其次,将测试交换机带到B DC站点的站点,分别部署在3号线路和4号线路的终点,发现可以正常up。
这样,我们可以推论出线路故障出现在2号线路这一段远距离的传输线路上。因为,这涉及中间供应商的传输链路,只能让运营商的维护人员进行定位。
7. 在经过运营商排障后,可以确定是他们这端的故障,在更换中间链路后,问题解决。
供应商中间链路问题。
运营商更改中间链路,问题解决
1. 排查故障需按照一定的步骤来排查,这样可以逐步缩小问题范围,避免无序化
2. 对于已经运行客户业务的设备,尽量避免测试设备接入现网,以免影响客户现网网业务