现网电源事故导致PTN1900两块TN73CXP无法启动处理方法

发布时间:  2012-12-14 浏览次数:  113 下载次数:  0
问题描述
现象1:PTN1900完全脱管,该PTN1900及下挂的7台PTN910业务完全中断。
现象2:客户的on stie team进站,做了以下测试:插拔主控板/重新上下电/只留下一个主控板启动(单板状态灯只有SATA和PROG处于橘红色状态)。
现象3:远程通过on site team的笔记本连接navigator无法连接主控。
设备灰色并伴随以下类型告警(由于未保存截图,仅列出告警类型):
Critical  ETH_LOS 1-73CXP
Critical  ETH_LOS 2-73CXP
Critical  BUS_ERR
Major     COMMUN_FAIL



处理过程
在客户队伍修复电源供电设施后,on site team进行了以下几个步骤的测试:
1、设备启动及上下电正常:说明设备电源没有问题。
2、只保留第一块73CXP,启动设备:单板状态灯只有SATA和PROG处于橘红色状态。
3、打开上游网络侧设备直连端口的DCN(本端从未关闭),并尝试使用多个PTN1900的端口DCN直连管理,设备依然无法上线:说明已经无法正常处理DCN报文。
4、通过直连设备,尝试使用navigator进行连接,失败:说明单板无法进行连接。
后来业务恢复后,将单板返回实验室后进行定位,结论是认定由于电源事故时导致现网短时间内设备反复掉电重启,单板数据库遭到损坏,无法启动,进一步原因及规避方法在将单板返回研发后进行研究。
根因

设备供电电源异常,造成单板短时间内反复重启,单板数据库遭到损坏,无法正常启动

解决方案
首先恢复业务(避免引起客户严重投诉和事故),客户紧急调用区域整机备件,协同一线工程师进站处理问题。
处理步骤如下:
1、拍摄该PTN1900工作情况,连接线情况,单板状态,SN号。
2、记录单板上所有的光纤及网线连接,为后续更换单板做准备。
3、重复on site team所做过的测试操作,确保他们反馈的测试结果是无误的,以免误导定位方向。
4、结果一致的情况下,只能立即更换两块主控板,并且通过带内DCN进行管理(现网所有GNE都使用了管理绕接方案管理)。

注意:此时有一个问题,更换两块CXP板相当于一台新设备上线,新的设备可以通过相邻设备的核心路由表找到并且新建,但是如果想要使用之前完全相同的设备参数,则需要删掉已经脱管的设备,否则U2000会报错,但在原设备业务未删除的情况下,这个设备无法在U2000上直接删掉。
最终的解决方法是通过navigator连接新插上的主控板,用命令行直接修改:
现网设备每周都会备份数据库,最新的数据库是2012年6月9日的,时间只有三天,应该没有数据改动,所以采用直接恢复数据库的方法,恢复数据库需要修改三个参数与原设备一致: LSR ID、NE ID、 NE IP, 在navigator上的操作命令如下:
:cm-set-neid:0x030fa1   #修改NE ID,现网原设备NE ID为3-4001,用命令行修改需要转化为16进制
:cm-set-ip:10.100.28.41   #修改NE IP
:cfg-set-gcpnodeid:10.53.40.1  #修改LSR ID
修改完这三个参数后,可以开始恢复数据库,在如下页面操作(注意:一定勾选“下发配置到单板”选项):



恢复过程历时约10分钟,在站点可以看到该设备出现重启、单板重新复位,再过一会设备上线并且配置恢复。
根据之前的拍照和连线记录,将所有光纤和网线重新连接,最终8台设备业务恢复。
建议与总结
通过该问题的处理,有以下几个心得和需要注意的问题及处理方法:
1、对现网设备的实时监控非常重要,可以通过部署TCA监控并配置相应人力持续关注来解决(该次问题的发现时间滞后于客户,虽然处理迅速,但仍然会影响客户满意度)。
2、在U2000上,如果要用完全相同的参数替换一个设备,可以通过使用navigator直连新设备,用命令行进行强制修改,再恢复数据库。
3、恢复数据库需要保证三个参数完全一致:LSR ID、 NE ID、 NE IP。
4、现网设备双卡都启动失败,可以从单板数据库损坏的方向出发去定位,如果下次发生类似问题,通过更换CF卡来做最初的恢复尝试。



END