FCSAN存储光纤通道中断假告警问题

发布时间:  2015-03-12 浏览次数:  275 下载次数:  5
问题描述

FCOE场景下,FusionCompute端上报ALM-15.1005005 主机光纤通道中断

告警信息
ALM-15.1005005 主机光纤通道中断
处理过程

根因
按照光纤通道告警检测机制,依赖FC驱动检测远端端口,驱动扫描到的远端 端口中可能不只包含存储的端口(FC target),可能还会包括交换机中的一
些端口(Fabric port)或者其它主机的端口(FC Initiator) ,主机侧无法区分其中哪些端口是FC target,会认为每一个远端端口都代表一条连接存储
的光纤通道,而将这些通道统一记录下来,一旦这些非存储端口(FC target) 状态异常,主机也会认为是光纤通道中断,从而产生告警,这些告警对存储通
道无影响(通常情况下修改交换机配置,重起交换机都可能产生该问题,和光 交换机上域配置相关),所以是假告警,可以通过手动方式去清除假告警, 但
告警仍会引起客户恐慌,客户希望能够避免假告警的现象出现.

解决方案
当前遇到这类问题都是通过手动方式去消除假告警

1 执行service vnad stop停止NC进程
2 登陆bsb数据库删除vbs_fapathinfo表中记录
a) sqlite3 /opt/galax/data/bsb/vbsdb_bsb
b) delete from vbs_fcpathinfo;
c) .q
3 执行service vnad start启动NC进程
建议与总结
【不足之处】:
     当交换机配置改变或上下电重起时,仍有可能会再次出现该问题

【改进计划】:
1、 当前版本对光纤通道监控机制对所有向主机注册的远端端口均进行了监控,有可能导致假告警的出现,现网版本如果出现可使用上述手动方式清除(已经提供给一线)。
2、 分析、优化FCSAN的告警机制,并同步到在研版本。从软件层解决假告警的问题。

【参考方案】:

将FCSAN纳入系统管理,使用FCSAN前先添加存储资源,添加时输入所连接FCSAN端口的WWN,将其纳入系统管理来监控(参考IPSAN的使用方式),这样系统会预先知道哪些是连接FCSAN的通道,直接监控这些通道就可以。

END