Fusioncomputer报主机光纤通道中断

发布时间:  2014-12-30 浏览次数:  223 下载次数:  0
问题描述
所有CNA节点均报主机光纤通道中断。

告警信息
所有CNA节点均报主机光纤通道中断
处理过程
客户现场组网:


开局后一周左右出现光纤通道中断,查看光纤交换机配置,一线使用三端口划zone,并且为交叉组网,经研发确认交叉组网容易出现问题,需要改为直连组网,并且需要使用WWN号方式划zone不建议使用端口划zone方式,修改组网如下图:




根因
修改后所有主机节点均有光纤通道中断告警。查看CX311交换板配置未按照《E9000开局指导书05》做修改,按照指导书修改后问题仍然存在。登录一个CAN节点,使用命令sqlite3 -header -column /opt/galax/data/bsb/vbsdb_bsb "select * from VBS_FCPATHINFO;"命令查看FC端口信息发现每个节点有4个端口是通的,另外4个端口异常,回显信息如下:

确认以上组网环境,每个几点有4条链路到达存储,其余链路应该是主机数据库残留信息。
解决方案
1. 使用gandalf账号登录产生告警的CNA节点。
2. 使用su – root命令,按照提示输入root用户密码,切换到root用户下。
3. 使用如下命令:Service monitord stop 停止monitor服务
4. 使用如下命令:service vnad stop,停止NC进程(此步骤为高危操作,操作前需确认清楚能否停止)。
5. 使用如下命令:sqlite3 /opt/galax/data/bsb/vbsdb_bsb,连接到bsb数据库。
6. 使用如下命令:delete from vbs_fcpathinfo;,删除vbs_fcpathinfo表中的所有数据。
7. 使用如下命令:select * from vbs_fcpathinfo;,查看vbs_fcpathinfo表中所有的链路状态。返回信息如果为空继续执行步骤8,返回信息如果不为空,直接执行步骤6.
8. 使用如下命令:.quit,退出bsb数据库。
9. 使用如下命令:service monitord start,启动monitor服务,该服务会自动拉起NC进程
然后使用service vnad status 查看NC进程状态,是否为running。
10. 大概三分钟后使用命令:
sqlite3 -header -column /opt/galax/data/bsb/vbsdb_bsb "select * from VBS_FCPATHINFO;"查看节点的通道信息:


光纤通道的native_status与remote_status值都是0,手动清除此告警,处理完毕。
光纤通道的native_status或remote_status值为非0,重启节点,再次执行步骤1到步骤9.
建议与总结
如果需要使用CX311的3X交换板的的FC平面,需要按照《E9000开局指导书05》执行3.7.1.5 到3.7.1.7章节。

END