BTS3012主备DTMU频繁倒换

发布时间:  2014-06-28 浏览次数:  560 下载次数:  0
问题描述
XS线开通后,经过一段时间的运行,某BTS3012基站反复复位,导致基站无法工作。
告警信息
主控模块主备倒换告警,LAPD_OML故障告警,小区退服,站点复位等告警
处理过程
XS线从14点一直频繁上报DTMU主备倒换告警;维护台删除备用DTMU,下站拔掉备用DTMU后,主用DTMU频繁自复位,故障无法恢复;把备用单板插到主控单位置,DTMU频繁自复位,故障依旧;检查机房电压,没有出现异常。

反馈相关日志给研发分析: 分析现网基站日志,发现主备DTMU单板在频繁复位的过程中,保存了大量临终遗言日志,初步可以确认主备倒换并非由于软件程序跑飞或者踩非法内存等因素造成主控芯片异常复位  根据日志中的复位类型以及结合临终遗言实现机制初步判定为软件饿狗复位.通过比对多次频繁复位的任务调度轨迹发现,MPC860芯片在异常复位前,均频繁轮询两个任务,这两个任务id为0x300000,0x320000。对比正常基站复位日志,发现这两个任务基本不出现,通过测试版本打印,发现这两个任务是处理uart和gps相关的。通过对uart和gps任务的代码梳理,发现uart任务被MPC860芯片调度,是受外部IRQ3中断触发的,此中断信号处理流程如下:
背板--------->逻辑-------->IRQ3-------->uart--------->gps;根据背板硬件设计原理图来看,此中断信号从源槽位通过背板上的同一根线传送到主备DTMU的背板插槽,软件上DTMU在单板初始化的过程中,设置只有主用DTMU处理此信号,备用DTMU是不处理的,如果此信号频繁出现在这条线路上,则会引起主用DTMU起来后频繁处理此中断,导致挂死降备,备用的DTMU升主后,也频繁处理此中断最终导致再次导致挂死,由此会触发主备频繁倒换故障出现, 插一块DTMU单板则会触发DTMU单板自复位故障出现.

现网版本解决方案:通过控制IRQ3的中断处理机制,来屏蔽外部异常信号进入,实现的方式为通过自定义消息,改变IRQ3中断屏蔽字状态.
操作如下:
1 进入超级用户:鼠标点击BSC6000,然后按ctrl+shift+F12
2 点击基站维护--->内部维护--->自定义消息
   自定义消息输入窗口如下:
 

3 屏蔽IRQ3命令消息:
在自定义消息框中输入以下信息(蓝色为输入消息,黑色为单板返回的消息)
LMT->GOMU D4-00-FF-FF-FF-81-00-FF-03-31-44-4B-    (2)打开内存设置保护开关
GOMU->LMT D5-00-FF-FF-FF-81-00-FF-03-31-44-4B-
LMT->GOMU D4-00-FF-FF-FF-81-00-FF-0A-31-FD-00-00-14-04-08-E2-00-00- (3)设置寄存器MASK值
GOMU->LMT D5-00-FF-FF-FF-81-00-FF-0A-31-FD-00-00-14-04-08-E2-00-00-
LMT->GOMU D4-00-FF-FF-FF-81-00-FF-06-30-FD-00-00-14-04-   (4)设置完之后再次查询是否生效
GOMU->LMT D5-00-FF-FF-FF-81-00-FF-04-30-08-E2-00-00-
全部操作过程如下:

经过发送消息后,现场出现该故障不再出现。

根因
初步分析原因:
1 基站单板故障问题;
2 基站的供电电压不稳定;
3 软件版本问题;
                       
建议与总结
建议:曾经出现该故障的局点,预先执行该操作,预防该问题的发生;对于现场出现该故障时,可使用此自定义消息解决故障问题;
目前GSM-R3.1版本IRQ3响应机制未对可能的异常外部信号进行屏蔽,后续在GSM-R3.3和GSM-R5.0解决方案中优化IRQ3的处理机制,因此升级到GSM-R3.3或者5.0版本即可解决。

END