重新部署OceanStor9000时,只能发现一个节点

发布时间:  2015-05-01 浏览次数:  508 下载次数:  6
问题描述

业务拓扑图:




因为业务需求,要调整冗余比,所以需要重新部署OceanStor9000。

 

重新部署之前,首先在DeviceManager界面上查看,确认没有任何告警,在OceanStor9000设备前后面板查看工作指示灯,查看CE6850的端口指示灯,均确认设备状态一切正常。

 

重新部署的时候,在每个节点都要执行“恢复出厂设置的脚本”,即以命令行CLI方式/opt/huawei/deploy/script,执行sh clean.sh脚本。为了缩短部署时间,选择“不清除网络设置”和“不清楚Toolkit环境”执行后,该节点底层系统会自动重启。

 

所有节点均恢复出厂设置后,进行正式部署的时候,访问”https://管理IP:8088/tools”,却只能发现一个节点:








 

重新在所有节点清除网络环境和Toolkit环境,重新部署后还是只能发现一个节点。

 

首先验证下其他节点是否正常,是否获取到IP地址:

通过KVM查看部署节点(节点1)之外的其他节点,A0-0、B3-0等端口都没有获取到地址。

通过KVM登录部署节点,通过service dhcpd status查看DHCP服务状态为running。

在其他节点通过ps -ef|grep deploy,查看到部署代理进程也是正在运行的。

正常情况下,在第一步“导入文件”进行到第三“部署节点”的时候,由于DHCP服务和deploy_start已经运行,其他节点应该能够获取到IP地址。

但通过上述操作验证,其他节点并未获取到IP地址。



处理过程

到机柜后面查看各个端口的状态,发现部署节点的A0-0口,指示灯不亮,拔掉尾纤发现设备有光发出,说明该节点没问题

到CE6850上查看部署节点对应的端口指示灯也不亮,拔掉尾纤发现无光发出——

因此,问题可能出在CE6850交换机上。




…………【共6节点】…………



登录CE6850,查看部署节点对应CE6850的“无光”端口状态是Down。

使用命令开启端口,状态仍然是Down;

使用命令关闭端口然后再开启,状态仍然是Down;

 

使用闲置的光模块更换该端口的“疑似故障光模块”,更换后,该端口有光,状态为up。

使用“疑似故障光模块”更换回闲置的光模块,更换后,该端口依然无光,状态为Down。

至此,发现故障根本原因并解决故障。

根因

    部署节点对应的CE6850交换机端口上的光模块故障,导致部署节点无法与其他节点通信其他节点无法正常获取IP地址所以在部署时,部署节点无法发现其他节点。



解决方案


在项目实施中遇到问题受阻时,要多角度考虑、分析问题。

在进行如开局、升级、扩容等重大操作的操作前后,要注意观察各类设备的工作状态指示灯是否正常显示,以确保实施工作顺利进行。

END