CE6855HI堆叠,快速升级后LACP协商失败

发布时间:  2017-01-13 浏览次数:  141 下载次数:  3
问题描述

2台CE6855HI堆叠,对设备进行快速升级,升级之后某个ETH捆绑口出现LACP协商失败。

处理过程

信息收集:

  • 升级之后,查看该ETH对应的LACP状态,发现成员口一个是10GE、一个是100M,两个端口状态均为unselect
  • 现网尝试进行恢复,手动shutdown两个物理端口,首先放开10GE对应的端口,该端口变为select,然后放开100M的端口,该端口变为unselect,流量恢复正常。
故障分析:

现网故障已经经过restart端口进行了恢复,需要分析故障产生的原因。

查看这两个物理端口的对应的流量图,如下图所示,分析发现,在升级之前,捆绑口的两个物理口仅有一个有流量,即怀疑该捆绑口的两个成员口原先就是一个是select,一个为unselect,原因就是端口速率不一致导致。

   

   


  该设备进行了堆叠快速升级后,该捆绑口的两个物理成员口同时变为了unselect,不符合LACP的协议规定。分析升级前后的差异,设备是堆叠,堆叠快速升级,升级前后唯一的区别是:原系统主变为了系统备,原系统备变为了系统主。

  同时分析LACP down时协议报文的收发,发现CE设备为主端,同时选中了10GE端口为参考端口,但是服务器发的LACP报文并没有按照10GE端口为参考端口进行协商,导致LACP协商失败。

根据如上信息,初步怀疑服务器在两个成员口速率不一致时,LACP协商异常,且根据问题出现的条件,怀疑在成员口速率不一致时,速率小的端口先UP、速率大的端口后UP,LACP会协商异常。(原先10GE端口对应的设备是系统主,先重启端口UP,堆叠快速升级后,堆叠主变为堆叠备,10GE的端口后UP)。

根因

验证过程:

准备了一台相同的CE设备捆绑口和服务器对接,按照如下步骤进行复现

a)       手动将其中一个物理成员口的端口速率强制设置成100M

b)       Shutdown两个物理成员口

c)       首先放开速率为100M的物理成员口,该端口变为select

d)       再放开速率为10GE的物理成员口,期望:100M的端口变为unselect,10GE的端口变为select

如上操作之后,问题复现,两个成员口同时变为了unselect,且分析两端的LACP报文,CE设备为LACP的主端,服务器为从端,CE设备将10GE端口选为参考端口,但是服务器的两个端口并没有协商一致,导致协商失败。

解决方案

调整服务器2个网卡端口速率为10G后解决。

建议与总结

问题发生在升级阶段,升级之后出现异常,因此重点分析升级前后的差异,最终发现了升级前两个端口就为一个select、一个unselect,并结合故障时LACP协议的交互过程,确认了怀疑点,最终锁定了故障源是服务器。

END