S5600T V100R005C02SPC300 LUN格式化时间过长,超过一个月

发布时间:  2014-11-30 浏览次数:  541 下载次数:  7
问题描述
信息:
阵列:S5600T V100R005C02SPC300
磁盘:1+14环境,SAS后端,28块SSD,84块SAS,204块NL-SAS

现象:
客户反馈LUN的格式化时间特别长,已经一个月还没有格式化完成
告警信息
处理过程
定位过程:
1、 让客户搜集信息返回,并且询问LUN格式化期间是否带业务进行升级。
2、 分日日志发现客户局点共有6个LUN处于格式化中(LUN 17、LUN 18、LUN 19、LUN 20、LUN 21、LUN 22。6个LUN分别在6个RAID组中,共66块4T NL-SAS硬盘)。6个LUN全部归属A控制器, A控制器承载了业务,因此格式化速度较慢,6个LUN的格式化进度在65%到75%之间。
3、 进一步分析日志中的iostat数据,统计66块盘的实际格式化带宽速率约为80MB/s,单盘分配到的实际格式化速率平均为1.2MB/s,按照此格式化速度计算,4T容量的硬盘格式化完成时间大约需要40天左右(4TB÷1.2MB/s÷3600÷24≈40)。
根因
根因:
客户创建的LUN非常大,超过30T,甚至还有50T的LUN,LUN格式化的时间本来就很长,再加上客户同时在下业务,为了保证主机业务,LUN格式化会进行流控,这样一来格式化速率会进一步降低,再加上客户所有格式化的LUN工作控制器都创建在A控,而单边控制器的格式化速率总带宽有限(900MB/s),综合以上各种因素,LUN格式化时间变的非常长。

1、格式化机制说明:新创建的LUN所对应的磁盘空间残留的是随机数据,分条可能不一致,因此需要对LUN空间通过清零的方式进行格式化,而达到分条一致的目的。
2、华为存储采用的后台格式技术:由于硬盘容量较大,一块4T容量NL-SAS的硬盘正常格式化最快需要1.6天的时间(单块NL-SAS类型的硬盘格式化速度为30MB/s,4TB÷30MB/s÷3600÷24≈1.6)。鉴于格式化时间过长,华为存储采用的是后台格式化技术(后台任务进行未连续空间的格式化操作,而当读写IO访问到未格式化空间时,系统暂时悬挂该IO请求,优先进行该空间的格式化操作,然后完成业务IO的读写。)。该技术的特点就是新创建的LUN无需先等待格式化,可立即映射使用(业务配置),格式化和读写并行执行。
3、格式化流控功能:由于格式化任务本身需要消耗部分系统的资源及后端访盘的带宽,因此系统设计时将后台格式化任务定义为低优先级,尽可能避免对系统业务性能的影响。在系统没有业务时,后台格式化任务抢占系统的全部资源和后端访盘带宽,全速完成格式化操作。而当系统承载了业务时,为了保障业务的及时响应,后台格式化任务所能使用的系统资源被限制到一个较小的范围,格式化的速度将会变得比较缓慢。流控影响的是单边控制器,流控未开启前,单边控制器LUN的格式化总带宽约为900MB/s,流控开启后,单边控制器LUN的格式化带宽会控制到45MB/s到90MB/s之间。
4、局点设备上6个LUN全部归属在A控制器,A控制器上又承载了业务。为了保障业务的及时响应,存储开启了格式化流控功能,使单控格式化带宽降到80MB/s左右,因此LUN格式化速度变得比较缓慢。
解决方案
解决方案:
    由于流控影响的是单个控制器,因此可以在ISM上选择3个格式化中的LUN,将其工作控制器切换到B控制器,这样能将格式化速度提高至原有2倍。
建议与总结

END