某呼叫中心局点出现大量PRA链路反复中断和恢复的问题

发布时间:  2016-07-21 浏览次数:  582 下载次数:  1
问题描述
某银行反映现场的USM重复上报PRALNK故障告警和恢复告警,USM侧PRALNK发生闪断。共22条链路出现此现象,导致部分呼出业务受影响,呼入业务不影响。现场的接入部分采用的是USM+U2990(MRP)的组网方式。
告警信息
USM重复上报PRALNK故障告警和恢复告警,
处理过程

通过U2990二层信令跟踪分析,U2990侧收到SABME消息后响应UA链路建立,但是对端还是一直发送SABME消息,如下图所示:

通过消息跟踪分析,很有可能是对端没有收到UA,所以对U2990的E1端口进行自环操作,发现自环后收不到自己发出去的消息,确认Q921故障原因是由于U2990的建链响应(UA消息)实际没有从CIU发送出去导致。排查信令发送链路,对CIU板进行了重启操作,重启后故障依旧存在,排除CIU单板问题。通过统计,发现故障的22条链路都配置在345模块的CMU进程上,倒换CMU进程后PRA链路恢复,确认故障在SGU板上,分析SGU进程处理流程,处理流程如下:

由于消息跟踪能跟踪到消息发送出去,消息跟踪是在CMU往扣板发送消息时打印的,消息打印正常,确认CMU进程发送消息正常。倒换CMU进程后,二层信令分发也切换到倒换后的SGU板的扣板上,所以问题锁定在SGU扣板上,收集SGU单板日志分析,发现扣板上用于二层信令分发的FPGA逻辑器件寄存器有发送错误记录打印:


最终分析是由于FPGA逻辑器件损坏,导致部分通道数据发送失败,导致Q921链路失败。
现场进行CMU倒换后USM链路状态恢复,呼入正常,告警消除。但是第二天发现部分故障依然没有恢复,研发再次分析现场收集的信息判断为还有部分PRA链路出现USM和U2990两边状态不一致的情况,重新将有问题的PRA去激活和激活后,USM和U2990状态同步,问题彻底解决,业务全部恢复。

根因

本次故障的根本原因是SGU的扣板出现故障,导致PRA链路异常,然而在处理的过程中又出发了另一个BUG,那就是U2990的CMU模块倒换后,USM并不能感知,造成USM和U2990之间的链路状态不一致。

解决方案

1、倒换CMU模块。

2、在USM上对受到影响的所有PRA链路重新复位,以使USM和U2990之间的链路状态同步。

3、倒换SGU板,更换故障的SGU板。

建议与总结

本次问题的定位时间较长,给用户的业务带来的较大的影响,

定位时间长的主要原因是PRA链路出现的告警从现象上看我们发了消息,对端没有回,导致我们一直判断为对端的故障,而对端一直都认为是我们的问题,不配合我们查(最终发现也确实是我们的问题)从而耽误了很多时间,所以后面在处理类似问题的时候,如果不能判断是哪方的问题,可以先采用中继自环的方式来排除我们设备的问题。

CMU模块倒换后,告警恢复,看似故障解除,但实际上告警虽然解除,但是由于USM和U2990状态不一致,导致PRA链路任然不能正常工作,所以建议后继USM的版本增加一些告警的功能,对切换后的链路状态不一致问题进行监控,以便达到快速定位的效果。

END