芯片bit位被拉高导致PTN1900直连链路ping测试不通问题分析报告

发布时间:  2012-12-03 浏览次数:  31 下载次数:  2
问题描述
软件版本:
Production Software version
PTN910 V1R2C00SPC300
U2000 R5C00
PTN1900 V1R2CO2SPC100

2012年11月8日,一线发现部分Tunnel上报MPLS_TNL_LOCV,业务倒换到报文路径。 经过检查发现PTN910-2-1702网元 和 PTN910-2-1713网元之间的光模块不一致,尝试更换光模块也没有恢复,尝试端口ping测试不通.(组网图见附件)


处理过程
问题的原因:PTN910-2-1702 网元的TNC1CXPG单板个体硬件故障,某个数据线固定为1,这种某个bit被固定拉高目前在现网运行中还是第一的遇到

根因
PTN910-2-1702 网元的TNC1CXPG单板个体硬件故障,某个数据线固定为1

解决方案
1、研发定位时先发现了PTN910-2-1713网元的2-22端口没有流量发出,经过检查发现没有流量发出的原因是没有学习到ARP。
 
2、尝试配置静态ARP恢复业务,发现配置了静态ARP后流量恢复正常但是Tunnel仍然有告警。检查端口mac计数,发现 PTN910-2-1713 网元的2-22端口收到的都是错误报文。

3、为了进一步确认是发端有问题还是收端有问题,研发尝试在PTN910-2-1702将2-21端口内环。结果发现内环2-21端口收到CRC错误的报文,所以可以确认问题出在PTN910-2-1702网元。

4、进一步分析包头发现每隔4bit固定为1,例如原来的包头为88 47, 环回来后发现变成了99 57。(先关的分析图片见附件)


建议与总结
1.更换PTN910-2-1702网元的TNC1CXP的单板。
2.在以后的硬件安装过程中要小心一些,同时在接触单板的时候要带静电手套,防止静电对设备造成影响。


END