FusionCompute报数据存储IO响应时延超过阈值

发布时间:  2016-11-08 浏览次数:  92 下载次数:  0
问题描述

12016/8/24 10:00 左右经检查发现SNS3096端口22,该端口对应CNA04该主机并无告警。

检查端口状态,状态正常。

SNS3096up:FID128:admin> switchshow

Index Port Address Media Speed       State   Proto

==================================================

      22  22   011600   id    N8    Online      FC  F-Port  21:00:00:24:ff:0f:27:79

2检查状态误码,怀疑存在历史误码,清除后误码情况。

 

SNS3096up:FID128:admin> porterrshow | grep 22

 22:  132.4m 284.6m   4      3      3      0      0      0    429      0      0      0      0      0      0      0      0      0

SNS3096up:FID128:admin> statsclear

SNS3096up:FID128:admin> porterrshow | grep 22

 22:    2.4m   6.5m   0      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0  

32016/8/24 17:16:07 再次确认该端口误码存在、误码情况如下:

SNS3096up:FID128:admin> porterrshow | grep 22

 22:    2.4m   6.5m   0      0      0      0      0      0      2      0      0      0      0      0      0      0      0      0  

42016/8/24 17:16:08 检查端口光功率,低于正常300uW

SNS3096up:FID128:admin> sfpshow 22

                                           Alarm                  Warn

                                    low         high       low         high

Temperature: 41      Centigrade      -10        90         -5          85

Current:     7.478   mAmps           1.000      17.000     2.000       14.000

Voltage:     3297.5  mVolts          2900.0     3700.0     3000.0      3600.0

RX Power:    -5.9    dBm (258.4uW)   10.0   uW  1258.9 uW  15.8   uW   1000.0 uW

TX Power:    -3.3    dBm (465.5 uW)  125.9  uW  631.0  uW  158.5  uW   562.3  uW

 

52016/8/26 17:40:07 再次确认该端口误码存在、误码情况如下:(期间CNA04没有重启等操作。)

22:   51.4m 112.7m   1      1      1      0      0      0    122      0      0      0      0      0      0      0      0      0

原因分析:

因为该FusionCompute只有这1CNA主机报故障,且该CNA上运行的虚拟机业务正常,且光交上该CNA所连的端口光功率偏低。判断故障原因应该是主机CNA04的单块HBASNS3096的中间某一处出现问题

告警信息

只有一台CNA告警。porterrshow查看交换机端口只有误码存在,不存在其它告警,其余一切正常。

处理过程

1、 更换CNA04到光纤交换机中间的光纤跳线,光功率一样,排除光纤跳线问题。

SNS3096up:FID128:admin> sfpshow 22

                                           Alarm                  Warn

                                    low         high       low         high

Temperature: 41      Centigrade      -10        90         -5          85

Current:     7.478   mAmps           1.000      17.000     2.000       14.000

Voltage:     3297.5  mVolts          2900.0     3700.0     3000.0      3600.0

RX Power:    -5.9    dBm (258.4uW)   10.0   uW  1258.9 uW  15.8   uW   1000.0 uW

TX Power:    -3.3    dBm (465.5 uW)  125.9  uW  631.0  uW  158.5  uW   562.3  uW

 

2、 更换CNA04HBA卡,光功率正常,判断为HBA卡故障导致。

SNS3096up:FID128:admin> sfpshow 22

                                           Alarm                  Warn

                                    low         high       low         high

Temperature: 40      Centigrade      -10        90         -5          85

Current:     7.012   mAmps           1.000      17.000     2.000       14.000

Voltage:     3302.7  mVolts          2900.0     3700.0     3000.0      3600.0

RX Power:    -3.0    dBm (503.3uW)   10.0   uW  1258.9 uW  15.8   uW   1000.0 uW

TX Power:    -3.3    dBm (465.5 uW)  125.9  uW  631.0  uW  158.5  uW   562.3  uW

 

后续持续观察光交端口22的误码率。基本没有增长。此问题解决。

根因

因为该FusionCompute只有这1CNA主机报故障,且该CNA上运行的虚拟机业务正常,且光交上该CNA所连的端口光功率偏低。判断故障原因应该是主机CNA04的单块HBASNS3096的中间某一处出现问题

解决方案

1更换CNA04到光纤交换机中间的光纤跳线,光功率一样,排除光纤跳线问题


2更换CNA04HBA卡,光功率正常,判断为HBA卡故障导致


3续持续观察光交端口22的误码率。基本没有增长。此问题解决

建议与总结

1、 有时候端口状态并不能作为判断是否正常的依据,有需要时查看端口更加详细的数据。

2、 日常做好光纤交换机误码巡检,做好预防工作。

END