E9000无状态计算配置问题导致Major级别告警"Config error"

发布时间:  2016-12-24 浏览次数:  179 下载次数:  0
问题描述

根据客户培训需求搭建了一套E9000环境,包含E9000机框、CH121 V3服务器节点、CX912交换板。开机后出现Major级别的告警“Config error”。除了告警信息之外,系统没有其它异常情况。

告警信息

E9000MM Web界面上能够看到告警信息


处理过程

告警信息中就只有“Config error”这样一个简单的描述,从描述信息中无法定位具体的问题点在哪里。上support找到E9000的用户手册,使用事件代码“0x1B01FFFF”查询无结果。

去掉“0x”,只使用“1B01FFFF”查询,能够查到告警信息。

从查询结果中可以看出啊,“1B01FFFF”这个编号对应的告警不止一个,和问题对应的是“MM910管理模块告警”。进入告警的详细页面,能够“可能原因”和“处理步骤”的描述。

根据“处理步骤”的描述在实际设备上做了相应操作,告警依旧。

然后联系TAC,还是让按照手册的描述操作,依然不能解决问题。

再联系研发,研发直接就询问无状态计算配置的情况。

在设备上查询,看到无状态计算中配置了几个profile,并且有2个的状态是Delivery failed

将这几个profile的关联槽位全部取消后,告警消除。

根因

产生此告警的原因:

1. E9000的某槽位配置并下发了无状态计算的profile

2. 在该槽位更换了不同型号的服务器板

在以上条件下,就会出现profile下发失败,产生Config error告警。
解决方案
解除profile和槽位的关联即可消除该告警。
建议与总结

原本是一个非常简单的问题,但是处理该问题却耗费了大半天时间。整个处理过程中有如下可改进的方面:

1. 告警提示过于笼统,完全看不出问题点所在。在E9000的管理界面也没有更加具体的描述,必须去找产品手册。

2. 告警编码在E9000管理界面和手册中的表述方法存在差异,管理界面是“0x1B01FFFF”,而手册中是“ALM-1B01FFFF”,可能会影响查询效率。

3. 同样的告警编号在E9000的不同模块中复用,容易造成混淆。

4. 手册中对于告警问题的原因和解决方案描述不完整,和本次问题完全不相关。手册中对于该告警的原因指向交换板,致使本次故障处理在交换板上浪费了大量时间。

5. 告警级别定义不准确,比如此次遇到的问题就是原有的profile下发不成功,并不影响系统的正常运行,但是告警级别却定义为Major



 



END