交换机产品S5700-HI(V200R005C00SPC300版本)堆叠出现拆分故障

发布时间:  2014-11-18 浏览次数:  315 下载次数:  0
问题描述
两台S5700-28C-HI交换机,版本为信息采集为:
[gtc10fmghw07]dis cu
!Software Version V200R005C00SPC300
#
作为MSCG设备,组网方式如下:


同时作为CE设备,与PE设备通过静态路由相连。两台S5700-28C-HI通过设备的XGigabitEthernet0/1/3与XGigabitEthernet0/1/4口进行业务口堆叠。堆叠方式为链式连接,即主设备的物理口XGigabitEthernet0/1/3与XGigabitEthernet0/1/4加入逻辑口1;备设备的物理口XGigabitEthernet0/1/3与XGigabitEthernet0/1/4加入逻辑口2,物理连接上设备3口与3口相连,4口与4口相连。
初步故障现象为:主设备0/1/4端口有时会出现down现象,现网设备网络会出现中断,备设备会自动重启,重启后网络正常,但过几小时后又会出现堆叠端口down现象,网络中断,设备重启。形成循环。
在检查设备过程中,重启时间间隔变短,并且主备设备4端口一直up与down交替,最后备设备无限重启,即重启后会立刻重启。
告警信息
通过业务口堆叠的XGigabitEthernet0/1/3端口灯灭,备设备不稳定,出现自动重启状况。
处理过程
(1)初步判断为业务口堆叠出现问题,因此查询堆叠端口:
<gtc10fmghw07>dis stack po
<gtc10fmghw07>dis stack port
*down : administratively down
Logic Port         Phy Port                     Online       Status
----------------------------------------------------------------------------
stack-port0/1      XGigabitEthernet0/1/3        present      up    
stack-port0/2      XGigabitEthernet0/1/4        present      up    
stack-port1/1      XGigabitEthernet1/1/3        present      up    
stack-port1/2      XGigabitEthernet1/1/4        present      up    
业务堆叠端口都为UP状态,但是有时会出现
stack-port0/2      XGigabitEthernet0/1/4        present      down    
端口状态不稳定。
之后查看堆叠状态:
<gtc10fmghw07>dis stack current-configuration
---------------current-configuration on slot 0 Begin---------------
stack enable
stack slot 0 renumber 0
stack slot 0 priority 200
stack reserved-vlan 4093
stack timer mac-address switch-delay 10

interface stack-port 0/1
port interface XGigabitEthernet0/1/3 enable

interface stack-port 0/2
port interface XGigabitEthernet0/1/4 enable
---------------current-configuration on slot 0 End-----------------

---------------current-configuration on slot 1 Begin---------------
stack enable
stack slot 0 renumber 1
stack slot 1 priority 100
stack reserved-vlan 4093
stack timer mac-address switch-delay 10

interface stack-port 1/1

interface stack-port 1/2 
port interface XGigabitEthernet1/1/3 enable
port interface XGigabitEthernet1/1/4 enable
---------------current-configuration on slot 1 End-----------------
发现堆叠配置出现问题,主设备堆叠物理口0/0/4加入逻辑口2中,导致与其相连的备设备端口在同一个逻辑口中。
(2)修改配置堆叠配置,将主堆叠物理口0/0/4加入逻辑口1中,即:
interface stack-port 1/1
port interface XGigabitEthernet1/1/3 enable
port interface XGigabitEthernet1/1/4 enable
保存后,备设备重启,使其重新堆叠。过程如下:
[gtc10fmghw07]
Nov  5 2014 13:15:29 gtc10fmghw07 %%01RDS/4/RDAUTHDOWN(l)[12]:RADIUS authentication server ( IP: 10.82.85.36 Vpn-Instance: -- )  is down!
[gtc10fmghw07]
Nov  5 2014 13:15:45 gtc10fmghw07 FSP/3/STACKPORTISDOWN:OID 1.3.6.1.4.1.2011.5.25.183.1.22.11 Stack port XGigabitEthernet0/1/2 is down.

[gtc10fmghw07]
Nov  5 2014 13:15:45 gtc10fmghw07 FSP/3/STACKPORTISDOWN:OID 1.3.6.1.4.1.2011.5.25.183.1.22.11 Stack port XGigabitEthernet0/1/4 is down.

[gtc10fmghw07]
Nov  5 2014 13:16:03 gtc10fmghw07 %%01ECML/3/ECM_CHANNEL_NORMAL(l)[13]:Stack port XGigabitEthernet0/1/4 channel status is normal.

[gtc10fmghw07]
Nov  5 2014 13:16:03 gtc10fmghw07 FSP/4/STACKPORT_UP:OID 1.3.6.1.4.1.2011.5.25.183.1.22.1 Stack-port 0/0 change to up.
[gtc10fmghw07]
Nov  5 2014 13:16:03 gtc10fmghw07 %%01SRM/4/STACK_PORT_UP(l)[14]:Stack port STACK 1 change to UP.
[gtc10fmghw07]
Nov  5 2014 13:16:03 gtc10fmghw07 %%01FSP/4/NBR_DISCOVER(l)[15]:Slot 0 neighbor discover on port 0.
[gtc10fmghw07]
Nov  5 2014 13:16:04 gtc10fmghw07 FSP/4/STACKMEMBER_ADD:OID 1.3.6.1.4.1.2011.5.25.183.1.22.6 Slot 1 is added into stack .
[gtc10fmghw07]
Nov  5 2014 13:16:04 gtc10fmghw07 FSP/4/STANDBY_CHANGE:OID 1.3.6.1.4.1.2011.5.25.183.1.22.3 Slot 1 is designated as standby.
[gtc10fmghw07]
Nov  5 2014 13:16:04 gtc10fmghw07 %%01ALML/4/PUBLISH_EVENT(l)[16]:Publish event. (Slot=1, Event ID=BOARD_PLUGIN).
[gtc10fmghw07]
Nov  5 2014 13:16:04 gtc10fmghw07 %%01ALML/4/ENT_PLUG_IN(l)[17]:MPU frame [1] board[1] was plugged in.
[gtc10fmghw07]
Nov  5 2014 13:16:04 gtc10fmghw07 %%01IFPDT/4/IF_STATE(l)[18]:Interface XGigabitEthernet0/1/4 has turned into UP state.
[gtc10fmghw07]
Nov  5 2014 13:16:05 gtc10fmghw07 ENTMIB/4/TRAP:OID 1.3.6.1.2.1.47.2.0.1 Entity MIB change.
检查堆叠是否建立成功:
[gtc10fmghw07]dis stac
Stack topology type: Link
Stack system MAC: 3400-a30e-0820
MAC switch delay time: 10 min
Stack reserved vlan: 4093
Slot of the active management port: --
Slot      Role        Mac address      Priority   Device type
-------------------------------------------------------------
    0     Master      3400-a30e-0820   200        S5700-28C-HI
    1     Standby     3400-a30d-45d0   100        unknown
[gtc10fmghw07]
Nov  5 2014 13:17:24 gtc10fmghw07 FSP/4/STACKMEMBER_LEAVE:OID 1.3.6.1.4.1.2011.5.25.183.1.22.7 Slot 1 leaves from stack .
[gtc10fmghw07]
Nov  5 2014 13:17:24 gtc10fmghw07 FSP/4/STACKPORT_DOWN:OID 1.3.6.1.4.1.2011.5.25.183.1.22.2 Stack-port 0/0 change to down.
[gtc10fmghw07]
Nov  5 2014 13:17:24 gtc10fmghw07 %%01FSP/4/NBR_LOST(l)[19]:Slot 0 neighbor lost on port 0.
[gtc10fmghw07]
Nov  5 2014 13:17:24 gtc10fmghw07 %%01ALML/4/ENT_PULL_OUT(l)[20]:MPU frame [1] board[1] was pulled out.
[gtc10fmghw07]
Nov  5 2014 13:17:24 gtc10fmghw07 %%01ALML/4/PUBLISH_EVENT(l)[21]:Publish event. (Slot=1, Event ID=BOARD_PLUGOUT).
[gtc10fmghw07]
Nov  5 2014 13:17:24.860.5 gtc10fmghw07 RM/3/RMDEBUG:
Active Buffer is NULL!

[gtc10fmghw07]
Nov  5 2014 13:17:24.860.6 gtc10fmghw07 RM/3/RMDEBUG:
Active Buffer is NULL!

[gtc10fmghw07]
Nov  5 2014 13:17:24 gtc10fmghw07 %%01ECML/3/ECM_PORT(l)[22]:Stack port 27 status is down.

[gtc10fmghw07]
Nov  5 2014 13:17:25 gtc10fmghw07 %%01SRM/4/STACK_PORT_DOWN(l)[23]:Stack port STACK 1 change to DOWN.
[gtc10fmghw07]
Nov  5 2014 13:17:25 gtc10fmghw07 ENTMIB/4/TRAP:OID 1.3.6.1.2.1.47.2.0.1 Entity MIB change.
[gtc10fmghw07]
Nov  5 2014 13:17:25 gtc10fmghw07 %%01IFPDT/4/IF_STATE(l)[24]:Interface XGigabitEthernet0/1/4 has turned into DOWN state.
发现堆叠没有建立成功,不能识别对端设备,同时堆叠端口开始从up状态转为down。并且设备设备开始重启,重新建立堆叠。
(3)检测是否由于端口模块损坏,将一直up down的0/1/3端口顺down,将0/1/2加入逻辑口1,进行堆叠。之后同样测试,发现并没有解决问题。
(4)查看光模块,所使用光模块为:华为指定厂家生产,为多模eSFP模块。查看产品手册,S5700-HI支持业务口堆叠要求为,版本V200R003及以后版本,本次设备配置为V2R5版本,所以无问题。支持堆叠的接口为前插卡上的10GE接口:支持ES5D00X2SA00/ES5D00X4SA00两种前插卡,分别提供2/4个10GE SFP+接口。本次使用光模块不符合产品手册要求,定位到问题。同时,在本次堆叠中,四个业务口全部使用eSFP模块,并且前期堆叠建立成功。因此模块只是为部分原因。
(5)由于现网运行中大多使用环形连接进行堆叠,因此修改业务口堆叠连接方式,从链型连接改为环形连接,即
interface stack-port 0/1
port interface XGigabitEthernet0/1/3 enable
interface stack-port 0/2
port interface XGigabitEthernet0/1/4 enable
在备设备中:
interface stack-port 1/1
port interface XGigabitEthernet1/1/4 enable
interface stack-port 1/2                 
port interface XGigabitEthernet1/1/3 enable
修改后设备重启,但是之后还是显示
    0     Master      3400-a30e-0820   200        S5700-28C-HI
    1     Standby     3400-a30d-45d0   100        unknown
并且0/1/3端口不断up与down,堆叠不稳定。
(6)此时备设备出现无限重启状态,查看设备状态,发现备设备版本自动修改为V2R1版本。查看设备中V2R5版本文件已经损坏,认定S5700设备在无限自动重启之后,会自动判断当前版本不稳定,而自动加载之前版本,
(7)关掉备设备,并将堆叠的线缆拔掉,重新对备设备进行版本升级以及打补丁,使备设备与主设备版本与补丁一致。之后更换业务口堆叠的光模块,更换为我司生产的SFP+多模模块。同时为了使设备更加稳定,将主备链型连接修改为环形连接。保存配置后,连接线路并重启设备,之后设备运行稳定,检查堆叠状态:
<gtc10fmghw07>dis stack
Stack topology type: Ring
Stack system MAC: 3400-a30e-0820
MAC switch delay time: 10 min
Stack reserved vlan: 4093
Slot of the active management port: --
Slot      Role        Mac address      Priority   Device type
-------------------------------------------------------------
    0     Master      3400-a30e-0820   200        S5700-28C-HI
1     Standby     3400-a30d-45d0   100        S5700-28C-HI

<gtc10fmghw07>dis stack port
*down : administratively down
Logic Port         Phy Port                     Online       Status
----------------------------------------------------------------------------
stack-port0/1      XGigabitEthernet0/1/3        present      up    
stack-port0/2      XGigabitEthernet0/1/4        present      up    
stack-port1/1      XGigabitEthernet1/1/4        present      up    
stack-port1/2      XGigabitEthernet1/1/3        present      up   

<gtc10fmghw07> dis stack peers
Slot#     Port1                   Peer1       Port2                   Peer2
---------------------------------------------------------------------------
    0     STACK 1                   1         STACK 2                   1
    1     STACK 1                   0         STACK 2                   0
堆叠成功,并运行稳定。
建议与总结
在对S5700-HI设备进行业务口堆叠时应注意:
(1)版本一定要升级到V2R3版本及以上版本,并打补丁。
(2)业务口光模块使用SFP+模块。
(3)当两台设备进行堆叠时,建议使用环形连接方式,即主设备1口加入逻辑1,2口加入逻辑2;备设备1口加入逻辑1,2口加入逻辑2,物理上主设备1口与备设备2口互联,主设备2口与备设备1口互联。
由于堆叠设备在出现拆分后,重新建立堆叠相对麻烦,因此在建立堆叠之初,一定要检测堆叠建立是否成功,成功之后再进行脚本配置等。同时在建立堆叠时,即使配置了设备的优先级,但是设备也会首先通过判断先启动的设备为主设备,因此在配置好优先级后,重启设备,一定要先将主设备重启,间隔十秒钟左右,再启动备设备。

END