PTN板间通信异常案例

发布时间:  2014-12-25 浏览次数:  118 下载次数:  0
问题描述

xx局点反馈网关网元反复脱管,查询命令返回超时

处理过程

通信异常分析

1、网关网元切换成带内DCN管理时,从命令行发现查询命令出现丢包,返回信息不完整


上图黄色色部分表示:告警记录应为20条,实际查询消息返回却只有14条,而且返回内容的分类信息也丢失,说明带内DCN存在丢包

 

2、取主主控日志分析


上图显示为29号板bb1.log, 从记录上看29号主主控与各个单板的通信一直处于时断时续状态,其中0x36、0x3c的错误码,表明底层TCP/IP通信出现异常。

 

3、各个单板也同时都记录了,与主主控29号板的通信一直处于不稳定状态



4、主备主控一直处于备份状态,从日志分析同样是因为主备通信异常引起


上述日志表明:主备通信阶段,反复出现备份消息发送失败记录,其中0x37错误码表明底层TCP/IP通信异常

 

5、16:59 网元发生主备倒换,30号板升为主板,网元恢复管理,单板通信正常


综上分析,29号板与各个单板之间的板间通信都不正常,判断故障点在29号主控上。

 

根因

经返板硬件测试发现29号单板CPU模块故障,导致板间通信异常。

解决方案

更换故障单板,后续版本优化检查CPU模块故障时置板坏触发主备倒换。

建议与总结
可通过查询主控bb1.log中有无0x36/0x3c错误码、单板日志中0x36/0x3c错误码、主控hbu.log中0x37错误码判断板间通信是否正常,若主控与多块单板间通信异常,影响网络安全时,建议申请操作窗时间,发起主控主备倒换观察问题是否规避。

END