XX广电DHCP部分用户无法上线

发布时间:  2017-01-24 浏览次数:  135 下载次数:  0
问题描述

版本信息:

S9300 版本:V200R001C00SPC300,补丁:V200R001SPH009

组网拓扑:


互联网用户/VOD用户通过烽火OLT设备下挂在S9306交换机上,S9306组成纯二层网络,接入到S9312,S9312为用户网关。S9312作为DHCP中继转发DHCP报文。

故障现象:

S9312-1下部分用户出现接入网络无法获取DHCP地址,导致业务不通。

告警信息

通过收集当时的上送cpu报文计数,发现dhcp serverdhcp client报文有大量的丢弃,并且结合日志发现dhcp报文有大量的丢弃。

在出问题的时间点4号单板上有大量的dhcp-server,dhcp-client丢弃,当有大量的dhcp报文上送超过设备的dhcp保护阈值丢弃后,会出现正常的dhcp报文被丢弃,用户无法上线。

Aug   9 2013 19:48:16 SW-Center-9312-1  %%01DEFD/6/CPCAR_DROP_LPU(l)[5755]:Rate of packets to cpu exceeded the CPCAR  limit on the LPU in slot 4. (Protocol=dhcp-client, ExceededPacketCount=07318)

Aug   9 2013 19:48:16 SW-Center-9312-1  %%01DEFD/6/CPCAR_DROP_LPU(l)[5756]:Rate of packets to cpu exceeded the CPCAR  limit on the LPU in slot 4. (Protocol=dhcp-server,
  ExceededPacketCount=011397)
 

Aug   9 2013 20:18:16 SW-Center-9312-1  %%01DEFD/6/CPCAR_DROP_LPU(l)[5888]:Rate of packets to cpu exceeded the CPCAR  limit on the LPU in slot 4. (Protocol=dhcp-client, ExceededPacketCount=09391)

Aug   9 2013 20:18:16 SW-Center-9312-1 %%01DEFD/6/CPCAR_DROP_LPU(l)[5889]:Rate
  of packets to cpu exceeded the CPCAR limit on the LPU in slot 4.
  (Protocol=dhcp-server, ExceededPacketCount=014418)
 






处理过程

1、通过告警信息判断,发现dhcp报文有大量的丢弃。怀疑超过dhcp协议保护的阈值导致大量dhcp报文丢弃,正常dhcp报文交互出现问题。

2、继续查看设备日志。发现SW-Center-9312-1vlan 1内经常上报mac漂移的告警,怀疑有环路。

Mac漂移的告警信息在xg4/0/0,xg4/0/1,xg4/0/3,xg10/0/2之间来回的漂移,漂移的mac都不同,通过分析可能在xg4/0/0,xg4/0/1, xg4/0/3之间存在vlan 1的环路。

Aug 9 2013 23:49:14 SW-Center-9312-1 L2IFPPI/4/MAC_FLAPPING_ALARM:OID 1.3.6.1.4.1.2011.5.25.42.2.1.7.12 The mac-address has flap value.  (L2IfPort=0,entPhysicalIndex=0,  BaseTrapSeverity=4,BaseTrapProbableCause=549, BaseTrapEventType=1, MacAdd=00e0-0f8a-825d,vlanid=1, FormerIfDescName=GigabitEthernet2/0/37,CurrentIfDescName=XGigabitEthernet4/0/1,DeviceName=SW-Center-9312-1)

Aug 9 2013 23:58:25 SW-Center-9312-1 L2IFPPI/4/MAC_FLAPPING_ALARM:OID1.3.6.1.4.1.2011.5.25.42.2.1.7.12 The mac-address has flap value.  (L2IfPort=0,entPhysicalIndex=0,  BaseTrapSeverity=4,BaseTrapProbableCause=549, BaseTrapEventType=1, MacAdd=000f-1eb8-1ef5,vlanid=1, 
FormerIfDescName=XGigabitEthernet4/0/1,CurrentIfDescName=XGigabitEthernet4/0/0,DeviceName=SW-Center-9312-1)

Aug 9 2013 23:58:35 SW-Center-9312-1 L2IFPPI/4/MAC_FLAPPING_ALARM:OID1.3.6.1.4.1.2011.5.25.42.2.1.7.12 The mac-address has flap value.  (L2IfPort=0,entPhysicalIndex=0,  BaseTrapSeverity=4,BaseTrapProbableCause=549, BaseTrapEventType=1, MacAdd=000f-1eb6-e8f0,vlanid=1, 
FormerIfDescName=XGigabitEthernet4/0/1,CurrentIfDescName=XGigabitEthernet10/0/2,DeviceName=SW-Center-9312-1)

3、设备上vlan 1并没有任何业务,并经过客户允许把存在mac漂移的端口xg4/0/0,xg4/0/1,xg4/0/3,xg10/0/2上的vlan 1退出后,经过测试发现用户上线正常,并且后面日志以及上cpu计数中也没有dhcp报文丢弃的计数,vlan 1也再没有出现mac漂移。

4、通过以上信息分析当时部分dhcp用户无法上线是由于设备SW-Center-9312-1xg4/0/0,xg4/0/1,xg4/0/3等端口有vlan 1的环路并且环路中有大量dhcp报文上送cpu,超过dhcp协议保护的阈值大量dhcp报文丢弃,正常dhcp报文交互出现问题。





根因

设备SW-Center-9312-1上端口xg4/0/0,xg4/0/1,xg4/0/3端口之间vlan 1存在环路,大量的dhcp报文在该环路中被丢弃,正常dhcp报文交互出现问题,出现部分dhcp用户无法上线,后面去掉对应端口的vlan 1后恢复。



解决方案

规避方法:
把设备上xg4/0/0,xg4/0/1,xg4/0/3,xg10/0/2的端口去掉vlan 1,把环路破除。

最终解决方法:   
需要排查xg4/0/0,xg4/0/1,xg4/0/3端口下挂网络的环路,下面是一些mac在各个端口之间的漂移,重点排查xg4/0/0,xg4/0/1,xg4/0/3下挂网络是否有vlan 1的环路。



END