本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

搜索
  • banner pc

    华西医院树立基因测序行业标杆,人类全基因组分析首次走进分钟级时代

20年前,“人类基因组计划”公布其初步成果——人类基因组序列与基因图谱,随着大数据、存储和计算等技术的高速发展,开启了“数字基因时代”。

特别是在面对SARS和新冠病毒的特殊时期,基因测序与分析都成为人类与病毒战斗的重要武器,因其发挥的重要作用而载入人类文明史册。但事实上,想要破译基因这本蕴藏着生命奥秘、决定人生老病死的“天书”并不容易,人类基因组约含6万到10万个基因,由约30亿个碱基对组成,分布在细胞核的23对染色体中,测序和分析难度可想而知。以人类基因组测序为例,13年,30亿美元,这是首次彻底完成人类基因组测序所耗费的时间和费用。时间来到2021年,华西医院又为人类全基因组分析的发展带来什么惊喜呢?

2021年9月,四川大学华西医院、华为技术有限公司、赛乐基因科技(北京)有限公司三方联合发布多组学数据加速分析平台,宣布30X人类WGS胚系变异分析时间从24小时缩短至7分钟。这是全球首次将人类全基因组分析推进至分钟级时代,在多组学数据分析领域具有跨时代的意义,为人类的生命探索之旅揭开了新的篇章。

全基因组测序效率需求不断提升,数据基础设施面临挑战

四川大学华西临床医学院(华西医院)是中国重要的医学科学研究和技术创新的国家级基地,在中国医学科学院医学信息研究所发布的“中国医院科技影响力排行榜”上,连续5年排名全国第一。华西生物医学大数据中心为华西医院的健康医疗大数据研究与应用开放共享平台,通过对生物医学进行大数据的搜集和分析,从而反补到临床医疗的各个环节。如何打造高效的多组学分析平台,实现快速的大规模全基因组分析在临床的成果转化,是华西生物医学大数据中心的重要探索方向。

华西生物医学大数据中心功能和定位

多组学数据分析是精准医疗与医疗大数据的基础。基因大数据时代已经到来,全球各国逐步开始了人群队列的基因测序研究计划,以华西为例,2018年开始万人中国西部多民族老年人自然人群队列,2020年开始十万人中国罕见病患者全基因组测序计划。而大规模的全基因组分析离不开高性能的基因组分析平台。

基因测序从血液或唾液中分析测定基因全序列,分为三个环节:提取,分析和解读。其本质是将非可视化的生物信息转换成文库制备(提取),并利用统计与概率学减少文本信息与真实生物信息的偏差(分析)并加以研究(解读)。其中分析阶段包含文件格式转换、解压缩、基因拼接、比对、排序、去重、变异检测以及联合基因型检测,该阶段取决于生信分析系统的性能,是基因测序HPC解决方案的主要发力点。目前华西医院基因测序的痛点主要有三个方面:

第一、要满足大数据量需求。基因测序产生的数据量都是TB级别,例如一台华大智造MGI的DNBSEQ-T7测序仪生产量:4.5Tb/24h,6Tb/30h。 满负荷下,一年能产生1.7PB左右的数据量,加之生物信息分析过程一般会产生原始数据量5倍左右的中间文件及结果,因此要支撑一台DNBSEQ-T7一年的数据产出存储及分析,大约需要8.5PB有效存储空间。另外如何低成本的实现基因数据长时间存储,实现在线、离线、归档数据自动管理也是客观需求。

第二、应用驱动的科学计算工作流及异构计算混合负载需求。基因数据分析过程根据研究目的不同,不同的专用软件,不同计算实例会有I/O密集型、CPU密集型、内存密集型等需求,因此海量基因数据的分析与挖掘需要流式处理,需要高性能的GPU、CPU异构计算集群才能满足需求;而且在后期基因序列分析时,往往会进行序列对比,这就要求要将海量数据一次性的载入到内存并加以处理,而不适宜分批导入,这就对大内存有了非常严苛的容量要求。

2021年9月,四川大学华西医院、华为技术有限公司、赛乐基因科技(北京)有限公司三方联合发布多组学数据加速分析平台,宣布30X人类WGS胚系变异分析时间从24小时缩短至7分钟。这是全球首次将人类全基因组分析推进至分钟级时代,在多组学数据分析领域具有跨时代的意义,为人类的生命探索之旅揭开了新的篇章。

第三、对存储极致性能的需求。海量数据的传输上集群本身会对网络和带宽造成极大压力,另外计算过程中也会涉及数据的高速共享与读写检索,对存储和设备IO带宽要求高,至少需要存储系统单线程具备6GB/S以上的吞吐能力,且对实时性要求非常高,否则可能导致数据不完整。

基因组学数据分析平台数据基础设施面临的挑战和需求

华西+赛乐+华为联合创新,人类全基因组分析首次推进分钟级时代

此次三方创新合作,充分发挥了华西医院在多模态组学数据分析和基因应用等领域的领先学术和产业优势,华为公司在高性能数据存储和先进基因数据管理系统上的技术积累,以及赛乐基因在GPU加速生物信息数据分析领域的行业经验。以数据为驱动,以创新为引擎,发布多组学数据加速分析平台,加速数据与存储技术赋能生物科技产业,促进甚至引领医疗行业的数字化变革。

“WHS-IMOAP”多组学数据加速分析平台

华西提供更高性能软件算法,剖析运行数据,寻找性能瓶颈;确定优化方案,设计顶层架构;组建研发团队,成立多组学数据加速分析平台,打造全球业界第一的高性能基因组学分析平台。

赛乐提供超快速NGS数据分析平台BaseNumber,单流优化成多流,增加磁盘高并发读写模式,写带宽再次提速到6~12GB/S,大幅提高I/O吞吐率;增加快速缓存同步模式,大幅提高大文件读写速度。

华为OceanStor Pacific海量存储提供更高性能存储底座。在基因序列分析时,往往会进行序列对比,这就要求将海量数据一次性的载入到内存并加以处理,对存储单流带宽有了非常严苛的要求。相比现有存储,OceanStor Pacific的单流读带宽提升了2倍,单流写带宽提升了4倍,4节点即可提供读30GB/s、写25GB/s的聚合带宽能力,高效支撑了多组学联合创新平台的性能提速。

全基因组分析流程耗时对比

经过三方基于架构、计算、存储的多维创新,联创平台在全球首次将全基因组分析流程缩短到7分钟,相比现有平台提速3.5倍,相比传统方案更是提升180倍。在第六届生物医学大数据·智能技术应用峰会上,华西生物医学大数据中心数据科学家于浩澎博士发布了“WHS-IMOAP”高性能基因组分析联合解决方案,全球首次将人类全基因组分析推进分钟级时代。于浩澎博士表示:多组学大数据时代已经到来,华西医院多组学数据加速分析平台创新性的引入面向多样化算力的融合分析数据底座华为OceanStor Pacific以及赛乐基因GPU加速方案,推动多组学数据分析迈入分钟级时代。此项研究成果的发布,将加速精准医疗大数据在医学上的广泛应用。

全球首次人类全基因组测序分析在7分钟以内完成,作为行业标杆,具有广泛深远的临床和科研意义。后续联创平台会继续完成表观组学,蛋白组学和转录组学拓展,涵盖全部实际临床应用范围,为人类的生命探索贡献力量!

TOP