汇聚交换机ARP抑制导致主备管理节点频繁倒换

发布时间:  2015-03-10 浏览次数:  537 下载次数:  0
问题描述
主备管理节点(CRM/OMM/ESC 或VRM)频繁倒换,检查watchdog日志发现大量网关不通的错误日志,但通过ping命令可以ping通网关。
在检查中发现在管理节点上长ping网关时不丢包,但存储时延不稳定情况,通常2-3分钟倒换一次。

相关截图如下:
1) CRM/OMM/ESC日志中有watchdog到网关不可达的告警。



2)在其他管理节点上直接ping网关可达不丢包。



3)网络上抓包发现故障节点源IP发出ARP广播报文较多,且网关有不响应其ARP请求的记录。



处理过程
1、 根据GalaX V100R002产品手册中“配置ARP报文的源抑制速率”中对汇聚交换机进行配置。

2、 取消汇聚交换机其他arp流量控制策略,或根据现网实际情况调整流量控制的大小。
根因
 管理节点到相应的CNA节点不可达时会每秒发送2个ping报文,如果某一集群存在3个节点不可达,则每秒钟发送的arp广播报文超过6个,。以S9300核心交换机为例,其R1、R2及R6版本上默认的arp speed-limit soure-ip maximun值为5,也就是说一个源IP每秒发送的ARP广播大于5个并持续一段时间,则S9300会抑制其arp广播报文一段时间且不响应其arp请求(其他类型交换机同样有类似arp抑制的规则)。ESC/OMM/CRM等节点上ARP表老化后watch dog ping网关不可达,watchdog每2秒向网关发送一个ping包,1秒内没收到响应认为失败,连续5个报文不能收到则认为网关故障(3*5=15秒),即15秒ping不通网关,ESC/OMM/CRM等管理节点就会发生主备倒换。

END