CE12800与友商设备VPLS互联接口MTU参数设置不合理导致虚拟迁移业务异常

发布时间:  2015-01-05 浏览次数:  238 下载次数:  1
问题描述
组网描述:
某企业客户网络拓扑图中,Adam、Black为12800设备,Cisco-N1和pe3为友商N7K。4台设备建立VPLS全连接,并分别下挂汇聚设备X.0.13.108、X.0.13.104、X.0.13.103、X.0.13.80;汇聚设备下挂接入设备X.0.13.81, X.0.13.185, X.0.13.74, X.0.13.214,汇聚、接入设备均为CE的TOR设备。三台服务器Y.0.0.10, Y.0.0.11, Y.0.0.13可以互相ping通,VPLS建立成功。vCenter挂在X.0.13.108上。



问题描述:
vCenter里运行VMware,添加host时,可以添加成功Y.0.0.10和Y.0.0.11服务器,无法添加Y.0.0.13服务器。报错为超时。
告警信息
vCenter运行VMware,添加host时,无法添加部分虚拟主机。
处理过程
故障排查:
1、 排查友商N7K的CISCO-N1、pe3、华为CE12800的Adam, Black设备的VPLS状态,发现都是OK的,相互之间二层流量正常:




2、 在下挂vCenter和Y.0.0.13服务器的TOR设备上各连一根线到测试设备,配置观察口和镜像口,抓取报文分析。
在vCenter端点击添加Y.0.0.13服务器,将X.0.13.74设备上的GE1/0/2设为观察口,将GE1/0/1的流量镜像到GE1/0/2,可以看到抓取到的报文有如下:其中出现了多次TCP Retransmission。


 
该TCP Retransmission报文多次发送,多次重传,确认就是问题所在。
根因
该TCP Retransmission报文的长度为1518bytes,用测试设备任意构造一条1518字节长的二层报文,发现报文到达cisco-N1,无法走MPLS链路出去,故问题根因就是:默认三层报文最大1500,所以三层链路上(对应上图的4台PE之间的vlanif链路)默认传输不了上述的TCP报文。
解决方案
在组网中4台核心设备的vlanif端口下配置mtu 3000(大于1518即可),保证1518字节的报文能够在三层链路上传输。

此时可以正常添加host,并且虚拟迁移可以成功。
建议与总结
在部署MPLS和VPLS协议的网络中,如果有丢包和业务异常现象,要注意考虑MPLS和VPLS报文的大小,注意排查接口的MTU值。

END