SingleCloud产品思科交换机配置不合理导致虚拟机断连

发布时间:  2013-09-17 浏览次数:  102 下载次数:  0
问题描述
某局点反馈用户在使用桌面云的过程中出现概率断连的问题,断开连接后可立即重新连接成功。
告警信息
处理过程
经过客户同意,远程接入了局点的接入交换机,发现有端口经常出现down的现象:
282455: *Jul 20 04:24:42 UTC: %LINEPROTO-5-UPDOWN: Line protocol on Interface FastEthernet0/29, changed state to up
282456: *Jul 20 04:24:43 UTC: %LINEPROTO-5-UPDOWN: Line protocol on Interface FastEthernet0/29, changed state to down
282457: *Jul 20 04:24:45 UTC: %LINEPROTO-5-UPDOWN: Line protocol on Interface FastEthernet0/29, changed state to up
282458: *Jul 20 04:26:22 UTC: %LINEPROTO-5-UPDOWN: Line protocol on Interface FastEthernet0/29, changed state to down
我们查到了出现过断连问题的用户的TC所连接的交换机端口,发现在断连的时间附近,该端口存在down的现象。经过多次观察,发现在断连的时间附近,TC所连接的交换机端口都出现了down的现象。
1. 设置STP portfast测试
考虑到在国内某客户局点,就出现过接入侧使用cisco交换机时,因为STP导致过用户断连的问题。查看了客户交换机配置,所有端口在STP方面都是默认设置,cisco交换机上会默认将端口加入到生成树路径计算。cisco的最佳实践中也建议将接入端口设置为portfast,以跳过生成树计算时等待的时间。经客户同意,针对几个出现了断连问题的TC连接端口进行设置并进行观察。但观察发现,设置后仍然有断连问题出现。
2. 端口协商测试
检查交换机配置发现,客户端口速率都是设置的强制10Mb。如果交换机配置的是强制10M,TC侧配置自协商的话,那么最终的协商的结果会是10M 半双工,实际传送速率将大幅降低,会造成可用带宽不足,也可能会造成断链或者其他体验问题的。
基于以上怀疑此处有问题,并就此怀疑与客户维护人员进行沟通,他们反馈,其他楼层的交换机上端口是配置的自动协商,但也有断连问题。因此,我们也无法确定就是协商问题导致。但基于桌面云体验考虑,建议设置为自动协商。
3. 关闭keepalive测试(no keepalive)
在我们进行分析的同事,客户维护人员也在积极地配合测试,大家提出将端口关闭keepalive观察一下。针对一台经常出现断连问题的TC连接的交换机端口进行了配置,经观察也没有再出现down的现象。之后把对所有经常down的端口关闭keepalive,这些端口没有再出现过down
根因
断连问题一般都是由于局点网络、VDI系统、TC或VM问题,如果是VD系统问题,所有的用户都会受到影响,此局点是概率发生,所以基本可以排除VDI系统的问题,首先排除局点网络的问题。
建议与总结
一般的概率断连问题都跟局点的网络相关,请首先排查下客户的网络,如果局点使用的网络设备非我司交换机,可以跟局点IT维护人员一起处理问题,也可以在网上搜索类似问题处理经验。

END