S9712版本升级后,下挂服务器业务不通问题

发布时间:  2014-11-29 浏览次数:  320 下载次数:  0
问题描述
S9712升级前版本:V2R3
S9712升级后版本:V2R5

S9712版本升级后,发现下挂的DELL虚拟机业务不通,业务中断,倒回老版本,全部恢复。

简化的故障拓扑如下图所示:

告警信息
处理过程
以dell服务器IP地址:192.168.6.4在S9712上arp表项
1、V2R3版本正常时,发现S9712学习dell系统arp是来自经H3C的GE光口(GE1/3/1/18)
[S9712-zhu]disp arp | in 192.168.6.4
IP ADDRESS      MAC ADDRESS     EXPIRE(M) TYPE        INTERFACE   VPN-INSTANCE
                                          VLAN/CEVLAN
------------------------------------------------------------------------------
192.168.6.4     d4ae-5298-b0e3  15        D-0/0       GE1/3/1/18
------------------------------------------------------------------------------
Total:271       Dynamic:216     Static:0     Interface:55

2、V2R5版本不通时,发现S9712的GE1/3/1/18学习不到dell系统的arp表项,从其它10GE接口学习到了(如下输出
[S9712-zhu]disp arp | in 192.168.6.4
IP ADDRESS      MAC ADDRESS     EXPIRE(M) TYPE        INTERFACE   VPN-INSTANCE
                                          VLAN/CEVLAN
------------------------------------------------------------------------------
192.168.6.4     d4ae-5298-b0e3  8        D-0/0       XGE1/8/0/2
------------------------------------------------------------------------------
Total:271       Dynamic:216     Static:0     Interface:55

3、查看GE1/3/1/18发现升级后该接口down,而对端H3C交换机对应互联接口为UP,将S9712的GE1/3/1/18接口修正为强制千兆,恢复UP,然后dell虚拟集群的全部arp从该GE光口学习到,业务全部恢复;

4、因服务器业务流量在S9712上不应该走GE口,而应该走XGE口,在S9712升级后V2R5版本上Shutdown GE1/3/1/18接口,继续定位发现S9712学习dell系统的arp来自10GE光口中的一个(XGE1/8/0/2或XGE2/8/0/3),但业务全部不通,也ping不通;

5、继续在S9712上shutdown掉任意10GE光口(GE1/3/1/18保持down),到dell服务器业务全部恢复正常,arp学习来自对应10GE光口;
根因
问题触发表面原因:
本次升级H3C交换机互联端口未做调整,其互联S97接口是强制千兆全双工,S97在V2R3版本能自适应能UP,升级到V2R5后不能UP,必须修改为千兆强制和对端一致才能UP;导致arp表项学习到10GE接口,触发dell系统未知bug问题;

问题触发根本原因:
涉及dell虚拟机系统工作机制(咨询dell工程师和400未获得确切说明);
在S9712重启前,dell服务器的三个接口都UP,但优选GE电口经H3C接入S9712(非最优);S9712重启时,dell感知不到, S9712重启后,和H3C间互联GE接口down,dell服务器也感知不到,其GE接口一直UP,怀疑S9712重启后,DELL服务器两个10GE光口中任选一个发包,因此S9712上有对应从10GE接口学习到的arp表项,但S9712 ping包dell回应可能存在异常(怀疑走GE口发给H3C了,未抓包确认):

恢复情形1:在S9712上shutdown任意一个10GE光口(dell服务器端对应接口也down掉了),只保留一个10GE光口UP(S9712和H3C互联的GE光口也是down的,dell服务器对应互联H3C交换机的GE电口还是UP的),触发dell服务器选择唯一的10GE光口作为收发接口,业务通;

恢复情形2:拔掉dell服务器系统的GE电口,保留两个10GE光口都UP或保留一个10GE接口UP,dell系统业务都能正常恢复,dell服务器收发包能正确选择其中任一个10GE接口;

Dell系统上述问题怀疑是配置或概率性问题,但dell工程师和其400未能明确dell服务器虚拟机这块的具体实现机制,至此问题跟因定位,非S9712问题,而是Dell系统在服务器端GE电口/双10GE光口都UP场景存在bug导致。
解决方案
因dell走GE电口不是设计初衷而且不是最优出口,因此将GE电口链路拔掉,保留两个10GE光口直接上联S9712,彻底规避Dell服务器实现缺陷,优化并解决客户现网业务部署。
建议与总结
友商也不是一定没有问题,在遇到类似友商对接案例,我们按部就班,按照我们定位步骤,一步步分析,抓取信息,分析数据,规范对接配置,明确故障跟因,提出解决方案。

END