写点什么

基因测序性能提升 5 倍,华为云是怎么做到的?

2020 年 4 月 01 日

基因测序性能提升5倍,华为云是怎么做到的?

近期,华为云携手峰科计算(以下简称“峰科”)发布基于 FPGA 的基因加速云解决方案,该方案采用 GATK(The Genome Analysis Toolkit)标准分析流程,将全基因组测序(WGS)性能提升 5 倍,从传统模式下的 30 个小时降低到 5~6 个小时,同时测序精度可达 99.95%以上,在大幅缩短测序时间的同时实现 TCO 大幅降低。


基因测序数据分析加速面临的挑战

  • 基因测序分析流程 BWT+GATK 当前被业界广泛采纳,但采用此流程的传统测序方法需要消耗高额算力及存储资源,且耗时较长。

  • 针对基因测序中高算力需求的 smith-waterman,pair-hmm 等算法处理,其具有计算并行性,不连续,非规则的存储访问,低 bit 操作等特性,计算依赖不规则区域的操作会对 CPU 消耗很大,性能难以提升。


华为云 FPGA 基因加速解决方案的优势

为了更好的解决基因测序行业面临的基因组分析标准流程不经济高效以及跨不同云和硬件(CPUs,FPGAs)加速实现的双重挑战,华为云和峰科计算强强联合,合作推出符合行业标准的 GATK 加速流程,通过对基因测序数据分析流程进行软、硬件联合优化实现端到端加速。


  • 华为云提供业界领先的 FPGA 加速云服务平台,采用业界领先的 Xilinx 16nm Virtex UltraScale+ VU9P FPGA,并针对基因场景推出 32 核 CPU 224GB 内存 1VU9P FPGA 和 64 核 CPU 448GB 内存 2VU9P FPGA 规格的实例,实现了 GATK 软件处理流程和 FPGA 加速流程的完美结合,从而将加速效率提升 3~5 倍;

  • 峰科采用 GATK 标准分析流程,精准性与 GATK 标准流程完全吻合,精度可达 99.95%以上;

  • 不修改 GATK 标准流程,可访问读取从原始测序数据到生成 vcf 文件整个过程中的中间数据,便于科研用户使用比对。


华为云 FPGA 基因加速解决方案解析

华为云 FPGA 基因加速解决方案集成峰科的加速 IP,为用户提供一种易于使用,经济实惠的基于 FPGA 的基因组分析流程加速服务,在该方案中,华为云配备了 32 核 CPU,单个 VU9P FPGA 的实例。


华为云 FPGA 基因加速解决方案使用 GATK 最佳方案对种系突变和体细胞突变进行变异检测,将计算密集型算法如 Smith-Waterman、PairHMM 等确定为加速对象。每种算法都经过 FPGA 内核优化,并且实现 CPU-FPGA 协同执行和资源分配。


如图 1 所示,用户通过分析应用程序,把每个流程的数据传给华为云峰科加速平台,平台里的 Kestrel 运行时管理工具来管理 CPU-FPGA 协同执行和资源分配。利用多线程,I / O 优化和扩展使用 FPGA 加速器,华为云 FPGA 基因加速服务的基因组学分析流程在保证精准度的情况下提供显著的加速。



图 1 华为云峰科 FPGA 基因加速方案结构图


与 GATK 最佳使用流程相对称,典型的基因测序数据分析流程始于原始 FASTQ 序列两端读长(paired-end reads),进一步获取一组经过滤的变体,对其进行标记以供进一步分析。图 2 描述了华为云基因加速服务种系变异调用流水线的具体流程,中间面板指示开始的通常工作流程,上下分别显示华为云 FPGA 基因加速方案中的峰科加速流程和 GATK 最佳使用流程命令实现方式的工作流程。



图 2 华为云峰科基因加速流程和 GATK 最佳使用流程对比


基于华为云 FPGA 加速服务,使用 FPGA 优化加速 GATK 流程,基因组分析流程可以实现 3~5 倍速度提升和 99.95%以上的准确度。华为云 FPGA 基因加速解决方案最快基因组序列分析标准流程可在一天内完成 5 个全基因组或 24 个整体外显子组分析。


Performance comparison for GATK 3.8 WGS from Alignment to Variant Calling using Hoplotypecaller



注:测试数据使用的是 30X 的 WGS 样本,碱基数量 103G


华为云基因加速服务“0”元体验

为了能让更多的用户体验华为云 FPGA 加速云服务器,针对基因加速场景,华为云联合峰科(Falcon)推出“基因加速服务 0 元体验套餐”,套餐规格为 32 核 CPU 224GB 内存 500GB 数据盘 5M 带宽,欢迎各企业登录华为云官网使用。


本文转载自 华为云产品与解决方案 公众号。


原文链接:https://mp.weixin.qq.com/s/D0R4pT0rgshpGEdmiPGMIQ


2020 年 4 月 01 日 14:53200

评论

发布
暂无评论
发现更多内容

Clickhouse在大数据分析平台-留存分析上的应用

小小的一朵云

大数据

anyRTC RTSP转WebRTC方案

anyRTC开发者

音视频 WebRTC 直播 RTC 安卓

查找数组中最大值的5种方法!(动图演示)

王磊

Java 面试题

Week 13 命题作业

Jeremy

第六周作业

Vincent

极客时间 极客大学

关于数据存储引擎结构,没有比这篇更详细的

华为云开发者社区

数据库 nosql 存储

Java面试史上最全的JAVA专业术语面试100问 (前1-50)

Java架构师迁哥

应对高并发系统有没有通用的解决方案呢?

架构师修行之路

架构 高并发 异步

随想之UI+API

云杉

oeasy 教您玩转 linux 010215 随机谚语 fortune

o

我是如何从0到1完成一个简单的中间件(1)

sinsy

Java 中间件

【获奖名单公布】程序员摇身一变摄影师,属于技术人的摄影展示大赛

InfoQ写作平台官方

写作平台 征稿 活动专区

百度大脑6.0重磅升级 不断进阶中的中国AI底座实力尽显

脑极体

繁星计划将成为引领全球币值管理的带动计划!

InfoQ_967a83c6d0d7

第六周学习总结

Vincent

极客时间 极客大学

再深入一点|binlog和relay-log到底长啥样?

艾小仙

Java MySQL 数据库 架构设计

Spring 5 中文解析数据存储篇-Spring框架的事物支持模型的优势

青年IT男

Spring5 数据存储

哈哈,成为作者了

大海

架构师训练营-第1周学习总结(1期)

阿甘

UML

面试常考算法题之 Top K 问题

小齐本齐

数据结构 算法

两年Java开发经验赶上金九招聘季涨到23K,这究竟是怎么做到的?

Java架构师迁哥

Week 13 学习总结

Jeremy

血的教训!千万别在生产使用这些 redis 指令

楼下小黑哥

Java redis 生产事故

Golang领域模型-资源库

奔奔奔跑

go 微服务架构 领域驱动设计 DDD 微服务拆分

对比 Redis 中 RDB 和 AOF 持久化

超超不会飞

Apache Pulsar 在腾讯 Angel PowerFL 联邦学习平台上的实践

Apache Pulsar

Apache 学习 开源 Apache Pulsar

甲方日常 15

句子

工作 随笔杂谈 日常

架构师训练营-第1周课后作业(1期)

阿甘

架构师训练营第 0 期 期末大作业

无名氏

架构师训练营 - 大作业

张明森

java安全编码指南之:字符串和编码

程序那些事

安全编码指南 java安全编码 java安全编码指南

技术为帆,纵横四海- Lazada技术东南亚探索和成长之旅

技术为帆,纵横四海- Lazada技术东南亚探索和成长之旅

基因测序性能提升5倍,华为云是怎么做到的?-InfoQ