S9300交换机堆叠分裂问题导致业务故障

发布时间:  2016-03-08 浏览次数:  295 下载次数:  0
问题描述

问题涉及的设备及版本如下,网络拓扑为业务口堆叠环境

设备形态:Quidway S9306 Terabit Routing Switch

软件版本:S9300 V200R003C00SPC500

补丁版本:V200R003SPH010

xx银行xx分行一套S9300业务口堆叠环境由于license到期而发生分裂。

处理过程

(1)  分析告警信息:

首先,根据反馈的诊断信息的trapbuffer,发现故障设备上大量打印下面告警打印:

#Aug 19 2015 10:51:42+08:00 A_JSD00_CAM_DS CSSM/4/CSSLICENSEINVALID:OID 1.3.6.1.4.1.2011.5.25.183.3.3.2.9 The license on the device is not activated or has expired, so the Lpu-based CSS function can not be used.

#Aug 19 2015 10:41:42+08:00 A_JSD00_CAM_DS CSSM/4/CSSLICENSEINVALID:OID 1.3.6.1.4.1.2011.5.25.183.3.3.2.9 The license on the device is not activated or has expired, so the Lpu-based CSS function can not be used.

#Aug 19 2015 10:31:42+08:00 A_JSD00_CAM_DS CSSM/4/CSSLICENSEINVALID:OID 1.3.6.1.4.1.2011.5.25.183.3.3.2.9 The license on the device is not activated or has expired, so the Lpu-based CSS function can not be used.

#Aug 19 2015 10:21:42+08:00 A_JSD00_CAM_DS CSSM/4/CSSLICENSEINVALID:OID 1.3.6.1.4.1.2011.5.25.183.3.3.2.9 The license on the device is not activated or has expired, so the Lpu-based CSS function can not be used.

#Aug 19 2015 10:11:42+08:00 A_JSD00_CAM_DS CSSM/4/CSSLICENSEINVALID:OID 1.3.6.1.4.1.2011.5.25.183.3.3.2.9 The license on the device is not activated or has expired, so the Lpu-based CSS function can not be used.

从告警信息来看,该告警每隔10分钟打印一次,系S9300交换机业务口堆叠模块打印的定时告警,用于提示用户当前设备的license状态不正确,设备的业务口堆叠不可用。

但通过查看设备的license状态来看:

Active license    : cfcard:/LICS9300V200R003_201508189LZ760.dat

 License state     : Normal

 Revoke ticket     : No ticket

 

 No relevant customer information

 

 Product name      : Quidway S9300

 Product version   : V200R003

 License Serial No : LIC201508189LZ760

 Creator           : Huawei Technologies Co., Ltd.

 Created Time      : 2015-08-18 15:09:01

 Feature name      : ACCESS

 Authorize type    : COMM

 Expired date      : PERMANENT

 Trial days        : 60

 

 Item name          Item type  Value    Description

 -------------------------------------------------------------

 LE1SCSSLPU00       Function   YES      S9300 Lpu-based CSS Control Function

 

 Master board license state: Normal.

设备的license状态为Normal,同时功能项正确,已经包含了业务口堆叠功能。但该状态与之前的告警信息矛盾,这里初步推测license状态处理存在问题,进一步分析日志文件中的license的状态切换过程。

2)日志文件分析

从反馈的日志信息来看,在615日时,用户曾经通过串口登录交换机修改堆叠配置并进行重启:

Jun 15 2015 18:50:21.900.1+08:00 A_JSD00_CAM_DS %%01SHELL /5/CMDRECORD(l)[829]:Record command information. (Task=co0, Ip=**, User=**, Command="set css id 1", Result=Success)

Jun 15 2015 18:50:37.10.1+08:00 A_JSD00_CAM_DS %%01SHELL /6/CMDCONFIRM_NOPROMPT(l)[831]:Record command information. (Task=co0, IP=**, User=**, Command="reboot", UserInput=Y)

另一台交换机也有类似操作:

Jun 15 2015 18:59:22.230.1+08:00 A_JSD00_CAM_DS %% 01SHELL/6/CMDCONFIRM_NOPROMPT(l)[661]:Record command information. (Task=co0, IP=**, User=**, Command="set css id 2", UserInput=Y)

Jun 15 2015 19:00:42.300.1+08:00 A_JSD00_CAM_DS %% 01SHELL/6/CMDCONFIRM_NOPROMPT(l)[675]:Record command information. (Task=co0, IP=**, User=**, Command="reboot", UserInput=Y)

同时16日开始提示license即将过期告警

Jun 16 2015 11:25:06+08:00 A_JSD00_CAM_DS GTL/2/NEARDEADLINE:OID 1.3.6.1.4.1.2011.5.25.142.2.3 License feature All is near deadline, remain time is 58 days.

现场工程师了解到此前申请license的方式为使用一个ESN号申请一个license文件,同时日志也存在如下打印,因此判断license失效原因为设备作为系统备启动时同步了他机框的license文件,而导致ESN不匹配导致的license文件失效,失效后故障发生。

Aug 14 2015 18:44:33+08:00 A_JSD00_CAM_DS GTL/2/DEFAULTVALUE:OID 1.3.6.1.4.1.2011.5.25.142.2.1 Current license value is default, the reason is Esn mismatch.

根因

根据S9300交换机软件处理模式,当业务口堆叠系统中的设备同时满足下列条件时:

1)原有license申请不正确,未使用两个ESN申请一个license文件。而是使用了两个ESN号申请分别申请了两个license文件;

2AB两台交换机分别激活原有申请不正确的license后,组成堆叠(堆叠后A为主,BB备);

3)设备触发主备倒换;

4)主备倒换后60license因主设备ESN不能匹配而失效,此时堆叠系统分裂;

5)原有license失效后,重新按正确格式申请license(使用两个ESN申请一个license文件)并分别在两台交换机上激活。

使用单个ESN申请的license文件用做堆叠环境中,当设备发生倒换导致license文件失效时,由于代码处理机制,其中一台交换机license文件状态处理存在故障。

解决方案

1) 如果license处于Trial状态,尚未失效,堆叠系统尚未分裂的情况下。重新使用两个ESN号重新申请license文件并且激活即可。

2) 如果堆叠已经分裂,在重新申请license文件并激活后需要将主备设备复位以进行恢复。

END