因母板问题引起子架部分槽位无法识别新插单板问题处理

发布时间:  2013-05-20 浏览次数:  35 下载次数:  0
问题描述
某省干线网络,由6个OADM和若干个OLA的OSN6800组成,业务配置均为集中型ODU1 SNCP业务。在对网络进行光线路1+1改造时,一个OSN6800网元0子架(下带7个OSN6800从子架)的单板被拔出并插入部分新扩容单板后,发现1/7/8槽位单板无法上线,随即拔掉新扩容单板后,0子架仅剩17/18-11SCC,16-SC2,网管上2槽位一直显示一块12OBU无法上线(在扩容前1槽位插M40V,扩容后2槽位也未插过OBU),命令行查询cfg-get-phybd,有2-OBU单板,实际物理槽位无单板。
BD_NOT_INSTALLED,参数为:para[0]=0x0,para[1]=0x2,para[2]=0xff,para[3]=0xff,para[4]=0xff

处理过程
该问题可分为两部分分析:a、2槽位在无物理单板的情况下,网管依旧有个OBU物理单板存在;b、子架无法识别新插单板。引发这两种故障现象的可能原因如下:
1、其它网元信息串网,引起2槽位无法删除掉OBU;
2、该子架AUX故障,引起槽位通信异常;
3、该子架SCC硬件、数据库、软件版本等原因异常引起单板无法上线;
4、2槽位母板故障,有可能引起7/8槽位无法识别单板,以及2槽位在位线一直拉高,单板无法删除。
根因

子架母板存在问题

解决方案

逐个可能原因排查过程如下:
1、串网排除:将0子架和1子架的网线断掉,该网元依旧监控正常,之后拔掉该子架16-SC2,即将该子架彻底独立。用命令行查询2槽位依旧在---可以排除其它网元串网问题。
2、该子架AUX故障:更换该子架的AUX---查询2槽位依旧存在;
3、该子架SCC故障:a、将原有子架的17和18槽位SCC逐个进行网管硬复位,查询2槽位依旧存在。
                            b、拨出17槽位SCC单板,拔插18-SCC,查询2槽位无物理单板;恢复两块SCC后,在2槽位插入VA4
                                  并再拔出,2槽位依然存在物理单板;继续拨出17槽位SCC,拔插18-SCC,查询到2槽位无物理单板。
                            c、更换SCC,并将数据库进行清库插入后,2槽位依旧有物理单板。
                            d、由此可排除SCC数据库和硬件问题
4、2槽位母板故障:a、更换新子架,并使用新AUX和旧子架的SCC,上电后,14/15/16槽位又无法识别单
                                            板。到此,故障变得更加奇怪,为进一步确定问题根因,我们在新子架上又做了进一步的测试。
                              b、在新子架基础上进行三种场景进行测试:
                                   I、新子架、新AUX、新SCC,此场景14/15/16槽位无法识别单板;
                                   II、新子架、旧AUX、新SCC,此场景14/15/16槽位可以识别单板;
                                   III、新子架、旧AUX、旧SCC,此场景14/15/16槽位可以识别单板;
                                   通过以上测试,可以确定新的AUX也是一块故障单板,导致该问题没有得到彻底解决,更换回老AUX单板后解决。
至此,本问题最终的解决方案是更换子架解决,其根本原因是子架母板存在问题,拉高了2槽位的在位线,使得只要插入该槽位的单板均显示一直有物理单板。另外2槽位的故障也会引起其它槽位无规律的出现单板无法上线的问题,导致其他槽位单板无法被识别。

建议与总结
子架母板问题可能会引起多种故障现象,一时难以让人快速定位到硬件或者软件问题。所以遇到通信类问题要逐个可能原因排除,而且多种组合都要考虑到,就可以避免在处理老故障时引入新问题。

END