S5700(V200R001C00SPC300)交换机配置未保存重启后引起环路导致业务中断

发布时间:  2015-05-26 浏览次数:  241 下载次数:  6
问题描述

案例描述:整个群楼部分进行消防演练,需要关闭竖井电源,接入层交换机断电重启,具体组网如下:

    本次消防演练主要是群楼部分的所有接入设备,汇聚层两台S7700设备对下启用VRRP协议,接入层S5700采用smart-link技术分别上行两台S7700设备,核心层两台CE12808设备做堆叠,和汇聚层S7700设备启用ospf协议。由于下端S5700安装在各个楼层的竖井,竖井进行消防演练,导致各个竖井的交换机重启,重启完成后发现急诊楼所有前端终端访问总院后台数据服务器特别慢,客户经过ping操作进行测试服务器,发现丢包严重,大约10分钟左右急诊楼出现已经登录不了后台服务器,其他部门访问也特别慢。

告警信息

    汇聚层S7706交换机上通过命令display logbuffer查看设备告警缓存信息, 发现部分下挂接入交换机端口出现DOWN、UP告警;

处理过程

1.接到客户通知,立即赶往客户现场,首先我进行查看核心CE12808设备,发现ospf邻居都正常,路由学习都正常,到总院后台服务器ping正常,判断链路没有问题,通过display interface brief 查看各个接口流量,发现出流量很大,入流量几乎为0,同时发现直接上联到核心CE12808设备的接入层S5700设备业务正常,初步判断是汇聚层问题。

2.登录汇聚层两台S7700设备,首先查看logbuffer发现有多个端口出现过up/down情况,后询问客户,上午做过消防演练,竖井接入层设备S5700重启过,后通过display interface brief查看各个接口的流量,发现Gig5/0/40端口出入流量都达到90%,然后我立即把该端口进行shutdown,然后通过:reset counter interface 命令,把所有的接口流量清零,再次查看,发现各个接口的出入流量达到正常。然后让客户进行测试,业务访问正常。然后我又把Gig5/0/40端口打开,该端口的流量增长速度非常快,据此断定由于该端口下挂的接入交换机存在环路,由于什么原因导致的环路呢?

3.陪同客户到竖井进行查看该接入交换机,查看配置,发现目前交换机配置的smart-link组下绑定的端口是0/0/270/0/28两个端口,而具体的线缆插在了0/0/250/0/26端口,启用smart-link技术后,涉及到的端口需要把stp关掉,这样就成为了环路,通过S5700设备配置修改,最终问题解决,业务恢复正常。

4.后询问客户该竖井的交换机进行过配置整改,整改完以后未进行配置保存,在设备断电的情况下恢复了原来的配置,形成了环路,导致了业务中断。                           

根因
    当时现场实施工程师修改S7706 Gig5/0/40端口下挂S5700交换机后,未及时保存S5700设备配置,设备断电后导致设备配置信息丢失,形成环路,造成业务中断。
解决方案
    陪同客户到竖井进行查看该接入交换机,查看配置,发现目前交换机配置的smart-link组下绑定的端口是0/0/27和0/0/28两个端口,而具体的线缆插在0/0/250/0/26端口,启用smart-link技术后,涉及到的端口需要把stp关掉,这样就成为了环路,通过S5700设备配置修改,最终问题解决,业务恢复正常。
建议与总结

    该问题看似一个非常简单的故障处理,确说明了一个很重要的问题,但是由于一个配置未保存,设备重启后,形成了环路,导致影响业务大约1个多小时,虽客户安抚工作做的比较好,但是因为这么一个小的细节造成这么大的影响,最终导致的就是客户对你的全盘否定,可能会给自身和公司带来很大的影响。

    建议大家在以后的工作中,不管是普通调测还是高危操作都要认真,仔细,全身心的投入。这样才能保证万无一失。再则就是处理故障的时候要有条理,有思路,不要胡乱瞎碰

END