VLANIF Interface Flapping Because Of High Quantity Of Arp

Publication Date:  2012-07-27 Views:  152 Downloads:  4
Issue Description
The status of interface VLANIF 4003 on the S9300 changes between Up and Down frequently. As a result, service traffic is affected.
Alarm Information
Dec  1 2009 11:16:02 NNVGRD_AR05_S9303 %%01L2IF/6/PORT_DOWN(l): The status of port Eth-Trunk2 turns Down.                                                       
Dec  1 2009 11:16:02 NNVGRD_AR05_S9303 %%01MSTP/5/SET_PORT_STATE(l): Instance 0's port Eth-Trunk2 has been set to DISCARD.                                      
Dec  1 2009 11:16:02 NNVGRD_AR05_S9303 %%01MSTP/6/SET_PORT_DISCARDING(l): In MSTP process 0 instance 0, MSTP set port Eth-Trunk2 state as discarding.           
Dec  1 2009 11:16:02 NNVGRD_AR05_S9303 %%01IFNET/4/IF_STATE(l): Interface Vlanif4003 has turned into DOWN state.                                                
Dec  1 2009 11:16:02 NNVGRD_AR05_S9303 %%01IFNET/4/LINKNO_STATE(l): The line protocol on the interface Vlanif4003 has entered the DOWN state.                   
Dec  1 2009 11:16:02 NNVGRD_AR05_S9303 %%01TRUNK/5/TRUNKDOWN(l): The status of interface Eth-Trunk2 turns Down.
Handling Process
Customer feeds back that the status of interface VLANIF 4003 on the S9300 changes between Up and Down frequently. As a result, service traffic is affected. According to the log, engineer found the CPU is very high during the problem so that transmission of LACP protocol packets times out. We successfully simulate the problem in the LAB because CPU high due to high quantity of ARP packets. According to the above analysis, we give suggestion as follows to customer.
1、Enable the slow timeout mode for LACP to prevent the VLANIF interface being down if the transmission of LACP packets is delayed.
[NNVGRD_AR05_S9303]Eth-Trunk2
[NNVGRD_AR05_S9303-Eth-Trunk2]lacp  timeout  slow
[NNVGRD_AR06_S9303]Eth-Trunk1
[NNVGRD_AR06_S9303-Eth-Trunk1]lacp  timeout  slow
2、The following operations can reduce the CPU usage if a lot of ARP packets are sent to the CPU or an ARP attack occurs. Configure ARP Miss suppression globally to prevent excessive ARP request packets at one time from one terminal.
[NNVGRD_AR05_S9303]arp-miss speed-limit source-ip maximum 1
[NNVGRD_AR06_S9303]arp-miss speed-limit source-ip maximum 1
3、Configure ARP Miss suppression in two super VLANs to reduce the number of ARP packets.
[NNVGRD_AR05_S9303]inter Vlanif 950    
[NNVGRD_AR05_S9303-Vlanif950]arp-miss suppress 30 
[NNVGRD_AR05_S9303-Vlanif950]arp-miss suppress 30
[NNVGRD_AR05_S9303]inter Vlanif 951    
[NNVGRD_AR05_S9303-Vlanif951]arp-miss suppress 30
[NNVGRD_AR05_S9303-Vlanif951]arp-miss suppress 30
[NNVGRD_AR06_S9303]inter Vlanif 950    
[NNVGRD_AR06_S9303-Vlanif950]arp-miss suppress 30
[NNVGRD_AR06_S9303-Vlanif950]arp-miss suppress 30
[NNVGRD_AR06_S9303]inter Vlanif 951    
[NNVGRD_AR06_S9303-Vlanif951]arp-miss suppress 30
[NNVGRD_AR06_S9303-Vlanif951]arp-miss suppress 30
Root Cause
1、The status of VLANIF interface and the OSPF protocol changes between Up and Down because the Eth-trunk is Down. Because there is Eth-trunk is the only one interface in VLAN 4003, therefore, no interface provides services for VLAN 4003 after the Eth-trunk is Down. VLAN 4003 is also Down.
[NNVGRD_AR05_S9303-hidecmd] DISP VLAN 4003
VLAN ID Type    Status   MAC Learning Broadcast/Multicast/Unicast Property
--------------------------------------------------------------------------------
4003    common  enable   enable       forward   forward   forward default
----------------
Tagged     Port: Eth-Trunk2
----------------
Interface                   Physical
Eth-Trunk2                  UP        
2、The Eth-trunk status becomes down because the trunk is in static LACP mode. The LACP packets are exchanged. If one end does not receive the LACP packet, the state machine is changed and the trunk down event is triggered.
Dec  1 2009 14:39:05 NNVGRD_AR06_S9303 01LACP/6/MUX_STE_CHANGE(D): The state in the MUX state machine changes.(TrunkName=EthTrunk1,PortName=GigabitEthernet1/0/44,MuxOldStatus=4,MuxNewStatus=3) 
3、The CPU usage of the S9300 during the problem is very high, so that transmission of LACP protocol packets times out. The event of high CPU usage is recorded in the log, and the task is ARPA. This task processes the ARP packets, which indicates that a lot of ARP packets are received or sended.
Dec  1 2009 17:21:42 NNVGRD_AR06_S9303 %%01VOSCPU/4/CPU_MAIN_USAGE_HIGH(l): The cpu usage of mainboard is overloaded, and the tasks with top three CPU occupancy are ARPA, SOCK, VPS. (CpuUsage=92%, Threshold=90%)     
4、According to the configuration we find that an aggregated VLAN contains a lot of sub VLANs. In addition, the inter-VLAN ARP proxy and inner-VLAN ARP proxy are enabled. Therefore, an ARP packet is copied to every sub VLAN. The CPU is always copying packets. As a result, the CPU usage is very high.
vlan 950                                                                        
 aggregate-vlan                                                                 
 access-vlan 100 102 104 106 108 110 112 114 116 118                            
 access-vlan 120 122 124 126 128 130 132 134 136 138                            
 access-vlan 140 142 144 146 148 150 152 154 156 158                            
 access-vlan 160 162 164 166 168 170 172 174 176 178                            
 access-vlan 180 182 184 186 188 190 192 194 196 198                            
 access-vlan 200 202 204 206 208 210 212 214 216 218                            
 access-vlan 220 222 224 226 228 230 232 234 236 238                            
 access-vlan 240 242 244 246 248 250 252 254 256 258                            
 access-vlan 260 262 264 266 268 270 272 274 276 278                            
 access-vlan 280 282 284 286 288 290 292 294 296 298                            
 access-vlan 300 302 304 306 308 310 312 314 316 318                            
 access-vlan 320 322 324 326 328 330 332 334 336 338                            
 access-vlan 340 342 344 346 348 350 352 354
Suggestions
According to the description above, we may see clearly that sometimes problem is related with it's correlative module. We have to be patience and try to find the reason step by step.

END