ES3000 V2报SEU fault 错误

发布时间:  2015-08-29 浏览次数:  523 下载次数:  0
问题描述

在检查ES3000运行状态时发下如下报错:

Average EC:             209
        Max bad block rate:     0.080%
        Event log:              1 error(s)
        Health:                 Fatal

# hio_info -d /dev/hioa
hioa    Size(GB):               1204
        Max size(GB):           1204
        Serial number:          030PXS10D2000011
        Driver version:         2.0.0.20
        Bridge firmware version:        228
        Controller firmware version:    228
        Battery firmware version:       105
        Battery  status:        Warning
        Run time (sec.):        73346200
        Total  IO  read:        4067017862
        Total  IO write:        4815334486
        Total  read(MB):        87612080
        Total write(MB):        178392684
        IO timeout:             0
        R/W error:              0
        Max bit flip:           8

# hio_log -d /dev/hioa
2014-07-20 03:57:38 <0x93> hioa controller 0: SEU fault

处理过程

1、给服务器下电,再上电,正常启动系统;

2、如果需要保存数据,则备份SSD卡的数据,如果不需要保存数据,则可以跳过这步;

3、通过hio_cleardata -d /dev/hioa 命令清除SSD设备上的数据;

4、通过hio_clear命令清除日志信息,步骤如下:

1) cd /usr/local/hio
2) tar -xvf toolsd
3) /usr/local/hio /hio_clear -d /dev/hioa -il    //注意步骤3、4中“-”是半角符号,清除日志的参数是小写字母i和l

清除完成如下图显示:



5、最后reboot重启系统,启动完成后通过hio_info查看一下状态信息,显示OK(如下图),就表示恢复成功。

根因
此问题是出现FPGA软失效上报的错误。是RAM类器件的固有现象,这是业界都有的现象。

导致FPGA软失效的原因如下:

1、软失效是所有半导体器件特别是RAM类器件存在的特定现象,软失效会造成当时Bit翻转,但不会造成器件永久损坏;

2、FPGA是基于SRAM(随机存储器)的结构,该结构存在软失效的可能;

3、FPGA软失效是宇宙射线中的中子冲击RAM的bit空间造成bit翻转,在重新加载配置后可恢复;

4、ES3000为了保证数据的正确性和一致性,主动做了SEU检测,内部专门的引擎来实时扫描FPGA全部空间,一旦出现错误则上报;

5、厂家给出的失效概率是1个芯片65年/次,针对全球发货中上报的SEU,一直在做统计,目前的水平在FPGA正常表现范围内。
解决方案

重启服务器清楚ES日志信息即可。

END