RH2285 V2服务器硬盘读写慢,I/O读写带宽降低

发布时间:  2014-11-11 浏览次数:  1341 下载次数:  0
问题描述
RH2285 V2服务器硬盘读写慢,I/O读写带宽有250mb/s下降到20~25mb/s,驻厂运维技术人员建议申请2块1T的SATA硬盘和1块RAID卡备件更换;

告警信息
1、现场观察所有硬盘active和fault运行状态指示灯正常,无硬盘指示灯告警,登陆iMana BMC WEBUI界面硬件监控界面发现所有硬盘都在位,在BMC SEL事件日志中也无硬盘历史记录故障告警信息

2、客户用硬盘I/O读写工具在OS下检测硬盘读写带宽,只有20mb/s,如下图所示:



处理过程
1、通过观察硬盘运行状态指示灯(active、fault指示灯)和登陆BMC webui的硬盘监控界面发现指示灯正常,硬盘都在位,因此排除物理硬盘机械故障。

2、在客户许可授权不影响业务情况下重启机器,在BIOS POST上电自检完毕后进行raid卡setup初始化界面时观察raid组信息和下挂硬盘都正常,并由此判断机器配置的是2208 raid卡。

3、通过在raid卡setup初始化界面提示按“ctrl+h”进入LSI SAS2208 raid卡配置WebBIOS界面,如下图所示:   

有上图可知客户做了2个raid5,1个raid,raid信息和硬盘都在位正常。

4、怀疑机器异常掉电导致raid卡的FW被改写,采用更换LSI SAS2208 raid卡备件后带宽仍旧上不去,仍在25mb/s到30mb/s之间浮动,排除raid卡故障。

5、排除raid卡故障后,检查并重新安装连接ibbu锂离子电池和raid卡的接线后仍旧一样,排除接线、线缆问题。

6、因此锁定raid卡电池ibbu故障,跟研发400沟通说可能存在如下可能:
(1)ibbu电池老化或电池电量不足,电池在进行充放电过程中会影响I/O读写带宽,读写速率下降。
(2)raid组的I/O读写策略问题(有 write through直写模式、always write back回写模式、 write back with bbu共3种模式),根据机器条码发现机架购买年限过长电池存在老化风险,根据研发建议更换ibbu电池将机器上电进入配置界面,3个raid组自动进行数据一致性检查如下图所示:

7、3个raid组的数据一致性100%检查完毕,根据400研发意见设置3个raid组的I/O读写模式为“always write back”,设置界面如下:

8、3个raid组(2个raid5加1个raid1)都设置完成后保存退出重启机器进入suse linux操作系统,在suse操作系统下执行如下命令进行I/O读写带宽检测,带宽提升到251MB/s,客户确认恢复正常。


根因
判断LSI SAS 2208raid卡配套 ibbu电池老化故障,造成硬盘读写慢。
解决方案
更换LSI sas 2208 raid卡锂离子电池,在研发指导下修改3个raid组阵列配置的写策略为“always write back”模式后问题解决。

建议与总结
对三种模式的理解:
1、 write through----直写模式,在数据更新时同步写入cache缓存和后端存储,此模式的优点是操作简单,缺点是因为数据修改需要同时写入存储,数据写入速度较慢。

2、 write back with bbu---LSISAS2208类的RAID卡配备cache,能极大的提高读写性能,但是当服务器异常掉电时,cache中的数据不能及时写入硬盘,造成数据丢失。配置iBBU后,在服务器意外掉电的情况下,iBBU可以给cache供电48小时,保障cache中的数据不丢失,当设备重新上电后cache中的数据将正常写入硬盘(更换新电池要等充放电完成后用该模式,因充放电过程中对读写带宽有影响)。

3、 always write back-----回写模式,在数据更新时只写入cache,只在数据被替换出缓存时被修改的缓存数据才写入后端存储。此模式的优点是数据写入速度快,因为不需要写存储。


END