主从子架之间网线接错导致从子架复位重启后无法启动

发布时间:  2016-09-28 浏览次数:  154 下载次数:  0
问题描述

某日,客户反馈OSN6800下挂三条长直链,除了网关网元1-OSN6800没有脱管,其他网元全部脱管,同时业务中断。如下图:

 

 

告警信息
BD_STATUS,TEMP_OVER
处理过程

1、首先查看网关网元的告警,所有单板都有temp_over告警,主子架多块单板都在同时闪报BD-STATUS告警,从子架全部脱管,所有单板都没有开工。查看主从子架的单板,所有光层单板都在从子架,因此除了网关网元,其他网元全部脱管。

2、通过mon-get-errlog命令查询主子架主控和主子架其他单板复位时间相同,因此定位温度过高导致单板复位,查看主从子架风扇转速,全部在自动高速运转;将主从子架防尘网拔出,灰尘非常多,清理了主从子架防尘网后,temp_over告警消失,主子架单板告警消失,观察一段时间,没有再上报告警。但是从子架一直处理脱管状态,拔插主控,AUX故障不消。

3、检查主从子架网线,发现主子架接在ETH2口,但是从子架接在NM_ETH2口,主从子架通信采用ETH口,不能采用NM_ETH网管口,将从子架的NM_ETH2口网线接到ETH2口后,从子架监控正常,业务恢复正常,所有网元恢复监控。

根因
防尘网长期没有清理,导致单板温度过高,单板频繁复位,从架网线误接到NM_ETH2网管口,导致从子架复位重启后无法从主子架主控获取数据,从子架单板无法开工,所有光层单板都在从子架,因此除了网关网元,其他网元都脱管
建议与总结

1、当机房环境温度在25摄氏度,湿度为70%条件下,依据《中华人民共和国通信行业标准》:
a、符合一级和二级标准的机房,建议防尘网清洁周期为5个月;
b、符合三级标准的机房,建议防尘网清洁周期为2.5个月。
c、若设备工作在上述条件以外的机房,不能保证设备正常运行,需根据现场环境缩短清洁周期,如:每两周清洁一次。

2、网管上有异常告警,如网元脱管,单板不在位,HARD_BAD,COMMUN_FAIL,TEMP_OVER等告警时需要及时处理,将隐患及时清除。

END