OceanStor S5000 级联线连接错误导致 电源风扇状态显示异常、业务中断

发布时间:  2013-09-03 浏览次数:  589 下载次数:  80
问题描述
现象描述:
背景介绍:
某客户约在一个月前对1套S5300存储做1 D200硬盘框扩容,扩容实施方为提供设备的经销商,扩容后业务使用正常.近日因机房空调故障,用户对该机房的所有设备下电并对空调维护,下电顺序按照 “停应用业务->关服务器主机->关存储控制框->关存储硬盘”, 空调维护完成后再对设备上电,上电顺序“起应用业务<-关服务器主机<-关存储控制框<-关存储硬盘”,于下电顺相反.
故障描述:
用户设备正常上电后,出现问题有
1.存储设备报两条重要故障,电源模块故障.风扇高速运转
2.服务器上使用存储的硬盘空间读写性能下降厉害,业务中断
组网概述:
1 S5300控制框+1 D200 硬盘框,
业务连线:S5300控制框通过FC与4台主机HBA相连,其中A控通过FC交换机与主机相连,B控与4台设备直连。
告警信息
告警信息:
1.ID:0X201FE0003 电源模块故障


2.设备上的2块BBU电池未识别.


原因分析:
1. 存储读写性能下降,应该是BBU电池电量不足或是电源硬件故障等存储硬件故障导致lun的读写策略改变,使服务器上盘的读写性能下降。
2. 控制框的A B两个电源风扇模块都报故障,但是存储设备还能上电运行承载业务,说明问题不一定是电源风扇模块,有可能是I2C通信总线有异常.
从管理界面上看不到IO模块的信息,界面上显示是空白,应该还是与内部通讯总线I2C有关系。
处理过程
处理过程:
1.通过IP登录到命令cli命令行下敲入命令反应都特别慢, 发现所有的lun都变成透写状态,将lun改为强制回写后测试,服务器读写存储lun速度正常.
2.试着接使用串口线登录,发现存储控制框与硬盘框之间共连了4条FC光纤,仔细检查FC光纤连线(用户现场设备连线比较凌乱,在对存储操作前用户已经备份好数据,并将业务停止)后发现:
3.现场级联连线:
控制框A控与硬盘框A控连接了LINK0—PRI /LINK1-EXP两条线,
控制框B控与硬盘框B控连接了LINK0—PRI /LINK1-EXP两条线.
这个连线为非官方推荐连线方式,且存储在EXP-EXP的方式.

4.将A控的 EXP-EXP连线断开,拔插A控后,A控ISM界面上IO模块显示正常,电源风扇正常.
5.经过确认后,将B控的EXP-EXP连线断开,并将整套存储下电重启.
故障恢复,电源风扇模块识别正常,BBU识别正常,IO模块正常,业务读写速率正常.。
根因
原因分析:
1. 存储读写性能下降,应该是BBU电池电量不足或是电源硬件故障等存储硬件故障导致lun的读写策略改变,使服务器上盘的读写性能下降。
2. 控制框的A B两个电源风扇模块都报故障,但是存储设备还能上电运行承载业务,说明问题不一定是电源风扇模块,有可能是I2C通信总线有异常.
从管理界面上看不到IO模块的信息,界面上显示是空白,应该还是与内部通讯总线I2C有关系。
建议与总结
建议与总结:
1.与产品研发确认,这样连线会导致I2C通讯总线环路异常,使各模块之间通讯异常,使设备状态无法识别,导致设备异常。
2.该种接线方式带来的危害很大(导致业务中断),且比较隐蔽,不易被发现,问题触发故障是存储设备的扩容后的下一次重启,一定要杜绝这种连线设备在网运行.
3.对经销商实施项目设备需要严格按照产品手册配置,加强经销商工程师技能的考核.

END