FAQ-S12700堆叠分裂常见问题处理思路

发布时间:  2017-03-21 浏览次数:  205 下载次数:  0
问题描述

导致致堆叠分裂的原因较多,最常见的有:

一、堆叠链路闪断:非华为光模块,光纤老化严重,硬件老化或故障等原因; 

二、设备CPU占用率高: 导致堆叠线程无法得到调度的软件故障;

处理思路如下:
解决方案

一、端口闪断一般是由于链路质量差导致,此问题较难定位,通常定位思路如下

1: 查看设备复位原因,若复位原因是堆叠分裂导致,进入2

2: 使用display elabel [ slot slot-id [ subcard-id ] 获取光模块电子标签查看光模块是否是华为光模块或查看接口是否光功率是否在范围之内,若不是则建议用户更换,否则进入3

3:查看对接设备堆叠物理端口数目,若只有一个,建议用户增加,并观察原端口是否会出现UP/DOWN告警和日志,否则进入3

4: 查看分裂设备对接的堆叠物理端口的UP/DOWN历史告警和日志,若有则进入5。

一般情况下对接的所有堆叠逻辑端口下的成员端口全部DOWN,才会导致堆叠分离;

如果由于端口链路差的话可能会有部分端口的历史UP/DOWN信息,所以需要先查看下历史信息。

5: 检查光纤,线缆的老化情况;检查是否有端口相关的硬件告警信息等,若有建议更换故障模块;若没有进入6

6: 建议用户更换或增加堆叠链路,并持续观察原端口的UP/DOWN状态

7:建议开启链路振荡保护,应对error-down。

若人为导致端口UP/DOWN,此场景较难定位,可建议用户配置的堆叠端口不紧挨着,防止操作时导致线缆误全拔出的情况.

二、若是突发的CPU繁忙,此场景较难定位,一般可以通过持续观察CPU占用率的方式。

1: 可以观察分裂前是否有CPU过高的告警或日志。

2: 若单板占用率过高则可以观察导致CPU高的是哪些进程。

3: 尝试降低CPU占用率,比如L3特性进程CPU占用率高,则可以转移L3流量到其他单板或设备来降低CPU占用率。

查看CPU占用率命令,诊断视图下“display  system service slot <slotid>”

END