FAQ-如何通过调试信息查看误码

发布时间:  2014-10-15 浏览次数:  118 下载次数:  0
问题描述
如何通过调试信息查看误码?
解决方案
如果出现链路故障、硬盘隔离等告警,请根据不同链路类型查询,少量的误码并不会影响系统正常运行,如果观察到某设备的误码短时间内持续增加,则认为存在故障。

1 SAS端口误码

在MML模式下输入:sas allinfo

显示结果如下:



说明:

黄色框中信息为SAS端口每个phy的连接状态,红色框中信息为误码数统计,如果误码数统计有一项不为0就表示有误码。

每个SAS端口有4个phy,正常情况下这4个phy的state都为linkup,如果某个phy state为NoLink表示该phy被隔离,而此时如果该phy上有误码,则很有可能是由于误码引起的phy隔离。

问题可能原因:

a SAS级联线虚插

b SAS级联线被污染

c SAS级联线损坏

处理建议:

1 首先查看事件信息,如果故障前出现过拔插SAS级联线的操作,则很可能是由于级联线虚插。

2 拔插级联线,并观察误码是否会继续出现。如果误码没有继续增加,说明是虚插导致的误码;如果误码仍然持续增加,需要更换SAS级联线。

3 如果现场有其他多余的SAS级联线,可以更换后继续观察;如果现场没有,请直接申请备件。

2 查看FC端口误码:

在MML模式下输入fc allinfo 显示结果如下:



说明:

以上有任何值如不为0就表示有误码,由于FC误码会扩散的特性,发现有误码后需要进一步分析误码源,此时就通过分析SES日志进行确认,具体方式见后文。

3 查看iscsi端口误码(前端):

在debug模式下输入ethtool -S ethx | grep crc,其中ethx 中的"x"表示对应网口ID。

显示结果如下,如果rx crc error的值不为0表示有误码,观察一段时间,查看误码是否增加:



说明:

前端链路出现误码需要联合主机端一起进行分析。

END