慢盘导致主机侧超时

发布时间:  2013-03-11 浏览次数:  143 下载次数:  0
问题描述
12-26日接到一线同事反馈IO偶尔会出现异常,导致业务侧模块处理超时,从收集的iostat信息查看,映射盘上的平均服务时间有超过1s的情况
告警信息
device    %busy    avque    r+w/s    Kbs/s   avwait   avserv
             hdisk0      0      0.0        1        5      0.0      5.1
             hdisk1      0      0.0        1        4      0.0      4.7
            updisk1     89      0.0        0        0      0.0   3141.6
            updisk2      0      0.0        0       89      0.0      2.1
            updisk3      0      0.0        0        0      0.0      0.0
            updisk4      0      0.0        0        0      0.0      0.0
            updisk5    100      0.0        1       27      0.0   1588.3
            updisk6      0      0.0        0        3      0.0      0.2
            updisk7    100      0.0        0        5      0.0   1946.2
            updisk8      0      0.0        0       89      0.1      2.4
            updisk9      0      0.0        0        0      0.0      0.0
           updisk10     86      0.0        1        0      0.0    622.3
           updisk11      0      0.0        0        4      0.0      0.3

处理过程
1、从主机侧的io表现来看,盘上响应时间长,首先排除是否有慢盘。在message搜索关键字slow io,发现有2个盘近期出现过盘上处理时间较长的情况。
Dec 24 03:36:21 OceanStor kernel: [37705584153]mptscsih SLOW IO INFO: cost long time (10290), host id(0), channel id(0), scsi id(7), lun id(0), io lenth (65536), io mode(1), io lba(0x277719552)
Dec 26 00:14:45 OceanStor kernel: [37866320238]mptscsih SLOW IO INFO: cost long time (12143), host id(0), channel id(0), scsi id(19), lun id(0), io lenth (4096), io mode(1), io lba(0x2636224)

2、分析SES_log.txt,发现这2个盘也经常单独出现IO延时大的情况,而且其中一个盘已经被隔离,重构完成,另外一个盘也一并更换即可。
--------Disk IO Delay Count------2012-12-26 06:38:49---------Disk IO Delay Count Threshold: [1000ms] [2000ms] [5000ms] [10000ms]
[0][7][6SJ0N8KB0000M130C1MQ][260, 37, 0, 0]

--------Disk IO Delay Count------2012-12-26 14:05:32---------Disk IO Delay Count Threshold: [1000ms] [2000ms] [5000ms] [10000ms]
[0][19][6SJ0PF5K0000M130C1L0][1, 2, 1, 0]

Showdisk –l显示
(0, 7)  Reconstructed   Member                 279                  279

3、更换(0,7)和(0,19)号慢盘后问题解决。
根因
硬盘响应慢,导致主机IO超时,业务受影响。
建议与总结
发现性能问题首先排除是否存在慢盘,如果有慢盘及时进行更换。

END