所选语种没有对应资源,请选择:

本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

提示

尊敬的用户,您的IE浏览器版本过低,为获取更好的浏览体验,请升级您的IE浏览器。

升级

CE6855HI堆叠,快速升级后LACP协商失败

发布时间:  2018-01-23 浏览次数:  637 下载次数:  7
问题描述

2台CE6855HI堆叠,对设备进行快速升级,升级之后某个ETH捆绑口出现LACP协商失败。

处理过程

信息收集:

升级之后,查看该ETH对应的LACP状态,发现成员口一个是10GE、一个是100M,两个端口状态均为unselect
现网尝试进行恢复,手动shutdown两个物理端口,首先放开10GE对应的端口,该端口变为select,然后放开100M的端口,该端口变为unselect,流量恢复正常。

故障分析:

现网故障已经经过restart端口进行了恢复,需要分析故障产生的原因。
查看这两个物理端口的对应的流量图,如下图所示。分析发现:在升级之前,捆绑口的两个物理口仅有一个有流量,即怀疑该捆绑口的两个成员口原先就是一个是select,一个为unselect,原因就是端口速率不一致导致。





该设备进行了堆叠快速升级后,该捆绑口的两个物理成员口同时变为了unselect,不符合LACP的协议规定。分析升级前后的差异,设备是堆叠,堆叠快速升级,升级前后唯一的区别是:原系统主变为了系统备,原系统备变为了系统主。

同时分析LACP down时协议报文的收发,发现CE设备为主端,同时选中了10GE端口为参考端口,但是服务器发的LACP报文并没有按照10GE端口为参考端口进行协商,导致LACP协商失败。
根据如上信息,初步怀疑服务器在两个成员口速率不一致时,LACP协商异常,且根据问题出现的条件,怀疑在成员口速率不一致时,速率小的端口先UP、速率大的端口后UP,LACP会协商异常。(原先10GE端口对应的设备是系统主,先重启端口UP,堆叠快速升级后,堆叠主变为堆叠备,10GE的端口后UP)。
根因

验证过程:

准备了一台相同的CE设备捆绑口和服务器对接按照如下步骤进行复现

{C}a)       手动将其中一个物理成员口的端口速率强制设置成100M

{C}b)       Shutdown两个物理成员口

{C}c)       首先放开速率为100M的物理成员口,该端口变为select

{C}d)       再放开速率为10GE的物理成员口,期望:100M的端口变为unselect,10GE的端口变为select

如上操作之后,问题复现,两个成员口同时变为了unselect,且分析两端的LACP报文,CE设备为LACP的主端,服务器为从端,CE设备将10GE端口选为参考端口,但是服务器的两个端口并没有协商一致,导致协商失败。

解决方案
调整服务器2个网卡端口速率为10G后解决。
建议与总结
问题发生在升级阶段,升级之后出现异常,因此重点分析升级前后的差异,最终发现了升级前两个端口就为一个select、一个unselect,并结合故障时LACP协议的交互过程,确认了怀疑点,最终锁定了故障源是服务器。

END