存储产品S5300控制器出现无法启动故障

发布时间:  2015-09-10 浏览次数:  156 下载次数:  9
问题描述
某局点AB两个控制器无法启动故障。
告警信息
A,B两个控制器故障,服务器已经无法识别到存储磁盘,oracel数据库无法启动,业务中断,严重影响客户业务,存储也无法登陆管理口,更无法确认故障。
处理过程
1.  让客户签字走高危操作流程及确认故障:ISM,串口都无法登陆,也无法确认存储版本及故障情况,更无法更换控制器,前期已经提交高危操作,让客户签字走高危操作流程,告知客户先重启存储看看控制器能否启动,客户同意重启(后端研发也认可重启),断电重启存储后,B控制器正常启动并且ISM也正常登陆,查看故障信息,A控制器故障,查看版本
admin:/>showctrlinfo
===============================================
            Controller Information            
-----------------------------------------------
  Controller                | B
  CPU Utility(%)            | 0
  Primary/Secondary Status  | Primary
  IP Address for Management | 192.168.128.102
  Running Status            | Normal
  Software Version          | 1.03.05.124.T10
===============================================
admin:/>
2.  导出配置信息和运行数据及更换A控制器:导出配置信息和运行数据,更换A控制器后很长时间都无法同步,拿串口登陆新更换A控制器也无法登陆,用SSH PING A控制器心跳线IP地址,正常PING通,确认新更换的A控制器正常无故障,分析不同步原因可能是新更换上A控制器的版本高于正常B控制器(1.03.05.124.T10)版本,下载新版本升级B控制器为(1.03.05.132.T02)版本后从新插入新控制器到A控制器槽位同步正常,oracle数据库启动正常,业务恢复正常。
3.  更换完成后巡检:
更换完成后巡检存储各部件都正常,AB控制器工作状态正常。
解决方案
1.  让客户签字走高危操作流程及确认故障:ISM,串口都无法登陆,也无法确认存储版本及故障情况,更无法更换控制器,前期已经提交高危操作,让客户签字走高危操作流程,告知客户先重启存储看看控制器能否启动,客户同意重启(后端研发也认可重启),断电重启存储后,B控制器正常启动并且ISM也正常登陆,查看故障信息,A控制器故障,查看版本
admin:/>showctrlinfo
===============================================
            Controller Information            
-----------------------------------------------
  Controller                | B
  CPU Utility(%)            | 0
  Primary/Secondary Status  | Primary
  IP Address for Management | 192.168.128.102
  Running Status            | Normal
  Software Version          | 1.03.05.124.T10
===============================================
admin:/>
2.  导出配置信息和运行数据及更换A控制器:导出配置信息和运行数据,更换A控制器后很长时间都无法同步,拿串口登陆新更换A控制器也无法登陆,用SSH PING A控制器心跳线IP地址,正常PING通,确认新更换的A控制器正常无故障,分析不同步原因可能是新更换上A控制器的版本高于正常B控制器(1.03.05.124.T10)版本,下载新版本升级B控制器为(1.03.05.132.T02)版本后从新插入新控制器到A控制器槽位同步正常,oracle数据库启动正常,业务恢复正常。
3.  更换完成后巡检:
更换完成后巡检存储各部件都正常,AB控制器工作状态正常。
建议与总结
更换存储控制器一定要思路清晰,定位准确,不能随便拔插,以免数据丢失。

END