FusionSphere场景MZ510网卡异常问题处理

发布时间:  2016-12-30 浏览次数:  257 下载次数:  0
问题描述
客户反馈FusionSphere一台CH121刀片操作系统网络异常,登陆后发现message日志中有网口UE告警,主机网络已配置了MZ510双网卡主备绑定,断连导致虚拟化业务受影响。
告警信息

统日志中有关于MXEC网卡的异常打印,联系系统日志上下文,无其它网卡相关模块的打印,这个问题是独立发生,内容如下:

处理过程
 

联系网卡厂商,对现有日志进行分析。

Emulex反馈,UE( Unrecoverable Error不可恢复错误)

 

出现有两种情况:

第一种是芯片内部缓存硬失效,复位不能恢复,需要更换备件解决;

第二种是软失效(类似内存的ECC错误),出现问题后重启即可恢复。

Emulex根据现有网卡日志信息,分析是由于网卡内部软失效导致。同时该局点重启以后MXEC网卡恢复正常,可以确认该局点问题属于第二种情况。

缓存软失效引发的原因有很多,就如内存bit跳变是一个原理,静电、温度、电平毛刺或者是存储介质本身的损耗都会引发bit跳变。

 

    由于现场没有抓到厂商寄存器日志(需要恢复之前抓取),但Emulex确认其日本客户也遇到过类似问题,分析是The TxPB block (transmit packet buffer) has detected a parity errorbuffer数据由于缓存的异常引起跳变,异常原因是因为机房环境不好使芯片长时间工作在高温状态下引起的,这时固件读写异常上报,网卡驱动去访问网卡固件时,固件上报0x00003C50: txpb.ue_cause.bmem_perr = 0x1 (1),关闭网口,进而系统日志会一直打印“UE: PMEM bit set”。
根因
 

MXEC网卡芯片内部缓存异常触发网卡固件的UE(不可恢复错误),导致一直打印“MPU bit set”。

本问题在华为客户使用MXEC网卡过程中是极其少出现的,综合Emulex反馈其他厂家使用情况和MXEC网卡在我司企业和运营商的在网运行情况,此异常是一个低概率单点问题。

节点没有下电,是网卡检测到自己异常后将端口关闭。这个网卡的firmware操作,并且没有做为告警上报,所以硬件面板不会告警网口状态改变。上层的心跳是监控这种端口状态改变的有效手段。

网卡出现一致性问题后,网口被关掉,需要重启操作系统重新加载固件,暂无其它办法解决,服务器单点异常这个场景在fusionsphere产品里是有冗余机制的。

这个问题本质是网卡芯片存储介质比特跳变导致,芯片厂商已承诺在后续的设计和固件版本中优化些问题。

解决方案

统计现网故障统计数据和厂家发送的故障率,该问题为发生概率极低,出现故障后重启主机可以解决。如果再次发生,可以更换网卡。

建议与总结
由于MZ510是单芯片双网口网卡,出现芯片故障时即使配置了主备绑定,同样会造成故障。所以在涉及重要业务的场景做方案时,建议配置双Mezz卡,提升系统可靠性。

END