公文系统业务设备接口大量错误包导致业务严重掉包故障

发布时间:  2015-04-12 浏览次数:  119 下载次数:  3
问题描述

接入用户使用公文系统时,网络非常缓慢,经过PING包测试,丢包率非常高。经过排查,发现路由器上行接口出现大量错误包。下图为组网图

处理过程
发现故障之后,排查思路为从左向右逐一排查,用排除法排除故障点。
1、首先检查汇聚交换机的硬件工作状态和端口状态,更换接口后仍存在问题,核对交换机端口参数,速率,双工模式等未发现错误。
2、更换正常的光模块,结果依然有大量错误包。
3、将光纤收发器取下后直连一台PC,PC设置为接入交换机的管理地址。Ping包正常不丢包,说明运营商线路没问题,问题就出在接入端的局域网。
4、换上原有设备之后,检查接入PC到接入交换机的网线,更换正常网线后仍然丢包,光纤收发器工作指示灯正常,更换光收发到交换机网线之后,问题依然存在。检查接入交换机工作状态正常,无报警。
5、更换光纤收发器之后错误包消失,定位为光纤收发器故障。
根因
经过查阅资料,CRC校验即交换机将数据完全拷贝到自己的缓存区并进行校验,如果有错,那么则丢弃该帧,当收到大量的CRC校验错误包时,交换机会发送abort中止包。所以才造成了上述现象。一般导致该现象的原因是双方双工模式不匹配,或者线缆故障,或者设备硬件故障。
解决方案

1、解决方案
   当各位工程师在实际项目中遇上此类问题时应该首先检查通信双方的接口参数,再排查通信介质。通常情况下,故障一般是由于上述两个问题的导致,如果都没有发现问题,则需逐一排查硬件,检查是否故障。


2、规避方案
   此类问题是实际相中比较常见的问题,经常会由于传输介质导致,传输硬件也是造成此问题的一大原因。所以,在项目中尽量选用质量好的传输介质可以很好的避免这一问题,硬件这一块,需要维护人员定期检查,避免在用户使用业务时才发现这一问题。

建议与总结
建议在遇到此类问题时逐一排查故障点,通过一个节点和一个节点之间的排查,可以很好的定位故障,在预防此类问题的时候,我建议大家使用质量较好的网线和光纤。在实际项目中,工程师手动制作的网线不达标也是导致此问题的一大原因。所以一定要认真对待每一个细节,避免出现问题

END