某公司园区网改造中网线连接错误导致二层环路故障的总结

发布时间:  2014-09-12 浏览次数:  349 下载次数:  0
问题描述

某公司进行园区网高可靠性改造:
双机热备ME60(主备模式)替换多个单点5200G设备;
汇聚5700堆叠交换机替换原有汇聚交换机;
汇聚5700堆叠交换机到主备ME60,部署:vrrp+BFD;
接入交换机到汇聚5700堆叠交换机之间,启用:Eth-trunk链路。
在项目历次割接中,多次出现物理网线连接错误导致二层环路,引发引起广播风暴的情况。
告警信息
无。
处理过程
故障一:某弱电间堆叠57下挂两台接入SW业务时断时续。
现象:
特定接入SW CPU利用率超高,承载业务时断时续,个别端口利用率近满规格;
查看接入交换机上行Eth-trunk单通。
分析:
典型的环路引起广播风暴故障现象。
处理:
在现场检查出现故障接入SW的上行Eth-trunk,确认为中继网线在堆叠57端线序对应关系混乱,恢复对应线序,业务恢复。


故障二:某弱电间堆叠57下挂某台接入SW业务时断时续。
现象:同故障一。
分析:同故障一。
处理:
检查接入SW中继网线确认无误,检查其上行Eth-trunk配置,发现:只有一个规划的成员口加入,而另一规划的成员口未加入Eth-trunk;
刷新准确Eth-trunk配置,环路消失,业务恢复。
故障原因:
接入交换机上行Eth-trunk配置只加入一个规划的成员口,未加入Eth-trunk另一规划成员口的中继网线已连接堆叠57,造成VLAN1环路。

故障三:某弱电间堆叠57下挂某台接入SW  telnet不通。
现象:特定接入SW telnet管理不到,承载业务正常。
分析:怀疑环路造成。
处理:
检查改接入SW的arp表发现:其学习的业务网关MAC不是对应关系正确的上行口MAC。
根据其学习的业务网关MAC网关,找到该接入SW的学习此MAC的某端口,发现该端口有物理连线上行到原汇聚SW,该物理连线未拔,该接入SW到原建网、新建网均有上行。
拔出原上行物理连线,消除环路,可telnet到该接入SW。
根因
无。
建议与总结
物理网线连接错误导致二层环路引发引起广播风暴类故障,故障原理虽然简单,但是在业务割接变更期间遇到此类故障,由于时间紧张、现场连线复杂,也不好处理。
因此,我们应该在业务割接变更前做好充分准备:
割接前,测试预放Eth-trunk的中继线,用测线仪、笔记本、交换机测试均可,打好标签,以规避中继网线线序混乱;
割接前,检查新建SWEth-trunk配置,割接时,确认Eth-trunk两个成员口均UP。
割接时,规范操作:先清除原上行物理连线,再连接新物理连线,预放Eth-trunk的中继线应准确插在规划的物理接口。

END