5600 V3后端组网错误导致开工失败

发布时间:  2015-11-24 浏览次数:  218 下载次数:  0
问题描述

阵列开工失败进小系统,通showsystrace系统命令查看失败在NotifyEamRecoverCfg

告警信息

上电后系统进入Minisystem模式,无法正常启动

处理过程
1、    检查SAS接口模块位置是否插正确。控制器0号槽位只能插SAS接口模块,检查下是否插对。接口模块位置没有问题,则检测SAS线缆连接。
2、    检测SAS线缆连接是否正确,对照组网助手的效果图,核实连线是否有问题。注意几点。
1)    从设备背后看A控在右边,B控在左边。
2)    硬盘框背后,上面的级联模块只能插A控,下面的级联模块只能插B控。
3)    保险箱盘框外观上是有特殊标识的,用于标识这个框是保险箱盘所在框,这个框只能接到0号环路第一个位置,只能与A、B控正接。

根因

阵列后端SAS线缆连接错误,A控和BSAS线接错或接反。2、第一次上电成功后,然后下电,再把特殊框(有保险盘的硬盘框)换了位置再上电设备。

解决方案

1、    如果可以清除DB,则进小系统然后执行cleardb,再重启系统。
2、    如果不能清DB则需要查看日志。一键收集日志后,打开日志压缩包,把log_controller_0_MAIN解压。然后找到Messages目录,进入目录。
1)、先找到当前的上电日志,日志message_xxx(xxx为时间)我们打开看第一句打印是不是
[2015-05-07 10:18:55]syslog-ng starting up; version='2.0.9'
开头,有这句开头说明是刚上电日志,在日志中搜索关键字Report device,然后找到第一条日志
[2015-05-07 10:19:46][  153.402273] [38241][1500002c10302][INFO][Report device:0(Frame in) [14:0:5:0] disk addr:0x594049cce60a203f state:1 WWN:0x594049cce60a203f expander:0x807060504030201 port:0x1f0000][SAS_INI][SAL_ReportDevEvent,685][sas_chgdelay]
确定port为0x1f0000,然后记录下框的wwn为0x594049cce60a203f。
2)、再找上次上电记录的框信息,找到message_xxxx日志时间点要早于当前时间,并且日志第一句打印是
[2015-04-28 16:28:12]syslog-ng starting up; version='2.0.9'
然后一样需要搜索Report device
[2015-04-28 16:29:07][  155.833246] [38855][1500002c10302][INFO][Report device:0(Frame in) [14:0:0:0] disk addr:0x5643e8c384b8803f state:1 WWN:0x5643e8c384b8803f expander:0x807060504030201 port:0x1f0000][SAS_INI][SAL_ReportDevEvent,685][sas_chgdelay]
也一样需要确定port为0x1f0000,然后找到0x5643e8c384b8803f。
3、    找到框的wwn后,比较两次是不是不一样,如果不一样,再在other目录下找到pangea_diagmsc文件,搜索找到的上次上电的特殊框的wwn0x5643e8c384b8803f,找到Encl snap的描述信息,描述信息中有SN,
Encl snap 2:
encl info: EnclosureID:0x0
encl info: wwn:0x5643e8c384b8803f
encl info: HealthState:0x1
encl info: RunningState:0x1b
encl info: Model:0x19
encl info: LogicType:0x0
encl info: LogicModel:
encl info: SN:210235980810EC000132
encl info: MAC:64-3e-8c-38-4b-88
encl info: Height:0x4
………………
可以根据SN再找到框本来是在什么位置,然后把这个框插到0号环路第一个位置,然后再重启阵列看是否可以开工成功。

建议与总结


END