升级过程中由于部分文件未更新 导致升级后出现SYNC_FAIL告警

发布时间:  2014-12-15 浏览次数:  68 下载次数:  0
问题描述

现网网元在升级完成之后,网元上报SYNC_FAIL告警(版本:5.36.32.52),如下图:


处理过程

1.SYNC_FAIL告警是通知主备主控的批量备份失败。一般情况下我们需要首先查看问题网元的HBU.log日志,分析问题的关键点。

 

2.排查HBU.log日志,发现网元在批量备份过程中,主主控板在把数据库发送给备主控后,通知备主控恢复主主控的数据时出现了超时,如下:

 

3.分析HBU.log日志发现是614模块(网元的PTC模块)在恢复数据库的时候超时,而超时的原因是由于主控板发过来的数据库PQsCarID.dbf最大记录数为4096,而备主控该数据库的最大记录数为1024.所以备主控没有足够的空间导致PTC模块返回失败,导致批备超时,如下:


 

4. 该PQsCarID.dbf数据库最大记录数是通过ofs1/hwx的两个.XML文件(PTCCFG.XML、PTCCFG15.XML)获取的。但是备主控(83号板)文件没有更新,所以备主控的最大记录数还是老的文件,该文件设置PQsCarID.dbf数据库最大记录数为1024,如:

 主主控板(82槽位)的两个.XML文件等到了更新

但是备主控(83槽位)的两个.XML文件却没有更新


 

5.所以出现SYNC_FAIL告警的原因是:由于在升级过程中主主控板的两个.xml文件(PTCCFG.XML、PTCCFG15.XML)已经更新,但是备主控板的这两个文件由于flash文件系统的原因(比如芯片问题、空间问题)或者加载过程中出现问题导致文件没有更新,这样主主控PQsCarID.dbf数据库最大记录数还是为4096,而备主控PQsCarID.dbf数据库最大记录数还是为1024。所以当主主控把数据库发送到备主控板,然后通知备主控板恢复数据时备主控没有足够的空间导致PTC模块返回失败,导致批备超时。从而上报了SYNC_FAIL告警

 

根因

由于在升级过程中主主控板的两个.xml文件(PTCCFG.XML、PTCCFG15.XML)已经更新,但是备主控板的这两个文件由于flash文件系统的原因(比如芯片问题、空间问题)或者加载过程中出现问题导致文件没有更新,这样主主控PQsCarID.dbf数据库最大记录数还是为4096,而备主控PQsCarID.dbf数据库最大记录数还是为1024。所以当主主控把数据库发送到备主控板,然后通知备主控板恢复数据时备主控没有足够的空间导致PTC模块返回失败,导致批备超时。从而上报了SYNC_FAIL告警

 

解决方案

重新对问题主控板进行升级操作,或者更换问题主控板后(可能主控板的文件系统出现了问题)再对问题主控板进行操作。

 

建议与总结

【判断方法】

1.网元进行了升级操作,并且目标版本为5.36.32.52及其之后的版本。

2.网元上报SYNC_FAIL告警,并且主主控HBU日志有如下记录

3.网元备主控的的BB3日志有如下记录:

END