VBST与PVST+对接故障一例

发布时间:  2016-06-23 浏览次数:  461 下载次数:  0
问题描述

    R国S银行区域总部生产网备数据中心项目,建设区域总部生产网的容灾业务平面。正常情况下,不承载数据流量,在主数据机房中心出现问题时,接续转发流量,保证业务不间断运行。

    2016年1月28日,某区域总部主备数据中心间LAN网络出现VBST震荡,Shutdown思科接口手动破环后网络及业务恢复。

处理过程

1、 在DMZ-S5710-1查看日志,发现DMZ-S5710-1和DMZ-S5710-2设备上Pvst vlan 30内端口故障期间同时和周边设备进行协商。

2、 原因可能是VLAN30内长期收不到根桥(LAN-C6509-1)PVST Hello报文所致。DMZ-S5710-1和DMZ-S5710-2认为VLAN30内根桥丢失,重新协商,VLAN30内端口STP状态不断切换状态。
Jan 28 2016 15:18:33+03:00 DMZ-S5710-1 %%01VBST/4/PORTFORWARD(l)[8]:In VBST vlan 30, VBST set port GE0/0/22 state as forwarding.
Jan 28 2016 15:18:33+03:00 DMZ-S5710-1 %%01VBST/4/PORTLEARNING(l)[9]: In VBST vlan 30, VBST set port GE0/0/22 state as learning.
Jan 28 2016 15:18:32+03:00 DMZ-S5710-1 %%01VBST/4/PORTDISCARD(l)[10]:In VBST vlan 30, VBST set port GE0/0/4 state as discarding.
Jan 28 2016 15:18:32+03:00 DMZ-S5710-1 %%01VBST/4/PORTFORWARD(l)[11]:In VBST vlan 30, VBST set port GE0/0/24 state as forwarding.
Jan 28 2016 15:18:32+03:00 DMZ-S5710-1 %%01VBST/4/PORTLEARNING(l)[12]:In VBST vlan 30, VBST set port GE0/0/24 state as learning.

3、 流量环路分析:
初步判断故障期间,LAN-C6509-1和DMZ-C3750-1之间的STP报文被丢失,LAN-C6509-2和DMZ-C3750-2之间的STP报文也被丢失,导致两端都被计算成DESI角色。
VBST认为LAN-C6509-1和DMZ-C3750-1、LAN-C6509-2和DMZ-C3750-2之间的链路逻辑上是断开的,实际上物理上仍然有连接,因此VBST计算错误,导致网络实际上存在流量环路。
MAC漂移日志如下:
C3750-1日志:
Jan 28 15:19:25.428 MSK: %SW_MATM-4-MACFLAP_NOTIF: Host 0e01.e08b.df74 in vlan 30 is flapping between port Gi1/0/2 and port Gi1/0/22
Jan 28 15:19:40.561 MSK: %SW_MATM-4-MACFLAP_NOTIF: Host 0e01.e08b.df74 in vlan 30 is flapping between port Gi1/0/2 and port Gi1/0/22
C3750-2日志:
Jan 28 15:28:32.573 MSK: %SW_MATM-4-MACFLAP_NOTIF: Host 0000.5e00.011e in vlan 30 is flapping between port Gi1/0/3 and port Gi1/0/24
Jan 28 15:28:40.861 MSK: %SW_MATM-4-MACFLAP_NOTIF: Host 0e01.e08b.df74 in vlan 30 is flapping between port Gi1/0/3 and port Gi1/0/24
S5710-1 mac漂移记录:
-------------------------------------------------------------------------------
Move-Time             VLAN MAC-Address   Original-Port   Move-Ports      MoveNum
-------------------------------------------------------------------------------
S:2016-01-28 15:29:00 30   0e01-e08b-df74 GE0/0/22        GE0/0/2         17399
E:2016-01-28 15:36:33
S6700-1 mac漂移记录:
------------------------------------------------------------------------------
Move-Time             VLAN MAC-Address   Original-Port   Move-Ports      MoveNum
-------------------------------------------------------------------------------
S:2016-01-28 15:19:55 30   845b-1241-2321 XGE0/0/35       XGE0/0/48       2586
E:2016-01-28 15:36:43
故障期间,思科与华为设备均出现MAC漂移记录,显然网络中出现环路。

4、 环路移除分析:
业务切换到Huawei设备后,环路仍一直存在,直到Shutdown LAN-C6509-01和LAN-C6509-02端口后,环路破除。端口Shutdown时间和所有MAC漂移结束时间一致。

根因
最终确认为BlueCoat Shaper错误配置造成通过其链路带宽骤减,进而丢弃STP协议报文导致。
解决方案
恢复BlueCoat Shaper正确配置,能正常透传STP协议报文。
建议与总结

1、 二层环路故障,可考虑手工破环先恢复业务。


2、 理论与实践证明VBST可与PVST+成功对接。


3、 网络中BlueCoat Shaper等应用设备可能出现丢弃协议报文导致业务故障的情况。

END