S12700产品(V200R006C00SPC500版本)无线用户获取不到IP地址的故障

发布时间:  2016-01-13 浏览次数:  182 下载次数:  0
问题描述

  故障现场:

l  AC6605单机旁挂在核心12708上,当客户把无线用户地址池和AP地址池从AC6605移到S12708上的时候,发现AP可以正常获取地址上线,但用户无法获取到IP地址,进而无法关联上AP;

l  为了排除是链路故障导致DHCP报文无法正常交互,我们将PC直接与S12708的一个端口上,做好相应的配置,看是否可以获取IP地址,结果依然无法获取。

处理过程

1       信息收集:

l  现网S12700版本为V200R006C00SPC500,现网补丁为V200R006SPH003.pat;

<GZHMU_PY_CORE-S12708>  display version

Chassis 1 (Master Switch)

Huawei Versatile Routing Platform Software

VRP (R) software, Version 5.160 (S12700 V200R006C00SPC500)

 

<GZHMU_PY_CORE-S12708> display patch-information                                       

Patch Package Name   :flash:/s12700-v200r006sph003.pat

Patch Package Version:V200R006SPH003

The state of the patch state file is: Running

The current state is: Running

 

l  根据上述两步骤,可以排除是链路原因导致,现在只有可能是配置问题或者是版本BUG;我们首先搜集S12708上的配置,检查DHCP相关配置;

dhcp enable

ip pool apadd  ----  AP管理地址池

 gateway-list 10.178.0.1

 network 10.178.0.0 mask 255.255.248.0

 excluded-ip-address 10.178.0.2 10.178.0.19

 option 43 sub-option 2 ip-address 10.168.250.7 

#

ip pool user_add ---- 用户地址池

 gateway-list 10.178.32.1

 network 10.178.32.0 mask 255.255.224.0

 excluded-ip-address 10.178.32.2 10.178.32.99

 lease day 0 hour 2 minute 0

 dns-list 10.168.188.22 10.158.211.22

 

interface Vlanif4040 ---- vlanif接口绑定全局用户地址池

 description Xinzao_Wlan_User

 ip address 10.178.32.1 255.255.224.0

 dhcp select global

#

interface Vlanif4080---- vlanif接口绑定全局AP地址池

 description Huawei_AP_Management

 ip address 10.178.0.1 255.255.248.0

 dhcp select global

 

通过查询配置,可以看到用户的配置并没有问题;

l  通过在S12708上开启debugging dhcp相关功能,查看DHCP报文交互过程,查看是否有四步上线的过程;通过分析报文我们发现,交换机收到了DHCP discover报文,但是S12708没有回应DHCP offer报文;

根因

  故障分析:

正常情况下,S12708是应该给终端用户发送一个offer报文,接下来用户会发一个广播的DHCP request报文,最后DHCP服务器发一个DHCP ack报文;但是现在第二个offer报文都没有发出去,问题就出在这儿。

经过现场定位,发现用户发送上来的DHCP discover报文被丢弃了,没有上送到CPU处理,此时SERVER无法回复offer报文。

再进行进一步定位发现,由于客户的现网配置中,配置了以下两条命令行:

cpu-defend policy global

 car packet-type arp-request cir 256 cbs 48128

 auto-port-defend enable

#

cpu-defend policy lpu

 car packet-type arp-request cir 128 cbs 24064

 auto-port-defend enable

 

正是由于使能auto-port-defend功能,导致特性之间的冲突,导致触发异常BUG;

解决方案

处理过程:

l  该问题为一个已知bug,并且在下一个版本(V200R007C00SPC500)已解决该问题。

为了及时恢复客户现网业务,我们在当前版本上采用了规避的措施,即去使能auto-port-defend 功能:

 

cpu-defend policy global

 car packet-type arp-request cir 256 cbs 48128

 undo auto-port-defend enable

#

cpu-defend policy lpu

 car packet-type arp-request cir 128 cbs 24064

 undo auto-port-defend enable

 

 

l  在与客户协调好时间后,对设备进行版本升级,再开启auto-port-defend功能,完全解决该问题:

建设单位

XXXX

施工单位

华为

涉及局点

XXXX机房

原设备及版本号

S12708:V200R006C00SPC500

原设备版本补丁:

S12700-V200R006SPH003.pat

升级目标设备版本

S12708:V200R007C00SPC500

升级设备版本补丁:

S12700-V200R007SPH007.pat

申请的操作时间段

 -

回退时间段

 -

升级简述:

为了解决XXXXS12708虚拟化集群设备同时配置WLAN用户地址池与端口自动防护导致用户无法获取DHCP地址,原因是由于配置了端口自动防护导致DHCP报文被丢弃,故现将现网两台S12708设备版本自V200R006C00SPC500升级至V200R007C00SPC500,并打上最新的补丁文件V200R007SPH007

准备工作:

1、 升级前所有的S12708数据备份完毕。

2、 完成现网信息收集。

升级思路:

1、 升级前备份数据;

2、 升级前业务测试;

3、 上传新的数据文件,版本文件, 及补丁文件;

4、 执行升级;

5、 升级后业务验证,数据保存。

验证工作:

1、 升级后,检查现网业务与升级前一致;

2、 保存升级过程全部记录。

升级对业务的影响:

1、 本次升级S12708下挂的业务约中断1小时。 

建议与总结

总结:

DHCP是一个比较常用的特性,本身协议也比较简单,如果了解基本的DHCP四步上线的步骤,对于定位问题还是很有帮助的。在我们确定配置没有问题的情况下,当我们确定了客户端确实发送了discover报文后,就要相应的检查设备是否发出了offer报文。当设备没有发出offer报文的时候,我们要检查是因为discover报文没上送cpu,还是上送了但是cpu没有继续发送offer报文。

不论是哪种情况,都可以确认这个处理流程是不正常的,我们需要确认是否是产品BUG

另外,我们要记住处理故障的原则是首先恢复客户现网业务,尽快让现网可以运行起来,安抚客户情绪;至于定位,是接下来处理的工作。在确认问题的根因后,我们需要和客户及时沟通整改时间,尽快给客户做整改处理。

END