由于数据库备份开关被关闭,导致OSN3500升级后业务中断问题

发布时间:  2014-12-23 浏览次数:  79 下载次数:  0
问题描述

**代表处M运营商一个OptiX OSN 3500设备升级后,两个线路板SLD64状态异常,约XXX个无线GSM站点业务中断,影响约X用户。问题出现后尝试使用升级前备份的网元数据库恢复,但是恢复失败,业务中断。

处理过程

1、升级后发现slot8和slot11的SLD64单板离线,相关业务中断;

2、客户维护人员发现slot8和slot11的N4SLD64物理单板从升级之前的N1SLD64逻辑板变成了N2SL64逻辑板,修改逻辑单板从N2SL64到N1SLD64;

3、修改逻辑板类型后,单板上线但是业务不恢复;

4、问题知会到本地中方,以及TAC,华为中方开始介入处理;

5、经过和机关GTAC沟通,决定执行回滚;

6、移走升级完的两个R10版本GSCC,插入R8版本的GSCC,开始使用升级之前备份的数据库恢复;

7、恢复超时,恢复失败,业务仍然中断(DC密码错误,导致超时);

8、放弃从数据库恢复,GTAC根据升级前备份的数据库制作交叉配置脚本,本地命令行下发;

9、下发成功,但是业务仍然全部中断,发现升级之前备份的数据库有问题,无法使用;

10、开始寻找最近备份的有效数据,使用11月份巡检收集到的业务配置,制作交叉配置脚本;

11、执行脚本,业务恢复。

根因

主控单板GSCC内部DRDB和FDB之间的同步开关被异常关闭,导致FDB中存的数据是历史配置的,和当前运行的业务不符。由此导致两个问题:

1、升级之后主控复位,复位之后主控重新下发数据,下发的是FDB中的旧数据,和当前逻辑板位配置以及业务配置都是不符的,因此升级上报成功但是业务中断;

2、网元数据备份的时候是从FDB备份的,因此升级前使用DC备份的数据也是有问题的,无法基于这个数据库进行恢复,导致回滚失败,造成业务中断。

 

数据库备份功能默认enable,故障网元之前巡检发现该网元是disable,未修复。

 

#9-48:szhw [48-***_OSN-4                                                 ][][2014-12-12 14:31:50+06:00]>
:dbms-get-autobackup
  DBMS-AUTO-BACKUP  : disable                                                     

#9-48:szhw [48-***_OSN-4                                                 ][][2014-12-12 14:31:52+06:00]>
:dbms-get-cyclebackup
  CYCLE-BACKUP-SWITCH  : disable                                                  

#9-48:szhw [48-***_OSN-4                                                 ][][2014-12-12 14:31:53+06:00]>
:mml-get-evtflag

CMD EVT FLAG: disable

 

 

解决方案

找到升级之前最近的有效的网元数据库备份文件,或者升级前的网管备份脚本,据此制作业务恢复脚本,重新删除和配置全网交叉。

建议与总结

1、定时巡检,对于巡检中发现的异常及时跟踪解决,即使客户不主动要求解决,也要主动推动解决;

2、升级动作严格参考升级指导书,尤其是对于不理解的步骤,也要严格执行,因为很可能就是对某个潜在隐患的关键过滤措施;

3、加强对产品知识的理解,分清楚网元数据备份(从FDB备份)、网管数据上载(从DRDB上载)、网管脚本备份(DRDB动态有效数据)、网管上同步入口(备份网元数据到SCC)这几个概念的含义,故障时及时找到有效数据。

4、升级严格遵守流程做各种备份,以备万一之需。

END