Cloudera 宣布与博德研究所合作

  • Dylan Raithel
  • 刘嘉洋

2016 年 6 月 15 日

话题:大数据AI

根据 Cloudera 上月报道,他们将会与博德研究所共同合作研究博德研究所的 Genome Analysis Toolkit 第四代产品 Hellbender(GATK4)。InfoQ 之前对其进行过相关报道

Cloudera 的生命科学部门负责人 Shawn Dolley 称 GATK4 可以节约成本,并减少了研发时间,并同时宣布有关博德研究所与各种云 IaaS 提供商的广泛合作,但不提供定量的标准。Dooley 提到了合作工作所能带来的优势,

2014 年 Cloudera 与 Spark 之间的合作,推动我们成为首个可以交付、支持并提供 Spark 培训的 Hadoop 供应商。我们很荣幸可以将我们的专业知识运用到多 omic 生物标志分析领域,投资基于 Spark 的生物信息学标准,并与博德研究所合作创造下一代 GATK 产品。这种低成本的基因组测序和大数据技术的领先技术相结合,代表着我们可以更广泛地对患者的基因组进行测序,并产生之前从未得到过的数据集。

云平台的用例和架构注重于避免重复的基础设施,并推进最佳实践,使用户可以深入理解观察疾病和治疗方法,而不仅仅是管理基础设施。博德研究所数据科学和数据工程高级总监、GATK 软件包创始人Eric Banks博士说,

博德研究所的 GATK 产品目前有超过 31000 名注册用户。绝大多数用户建立了本地计算存储基础设施,以处理需要进行基因分析的庞大信息。这些合作将为我们消除传统技术的限制,同时给予相同高质量数据处理水平提供新的机会。

关于 GATK 之前的版本到 GATK4 之间性能的提升,Bank 表示,

在 Cloudera 企业版中使用 Spark 计算框架,给予了我们在 GATK3 上因其计算复杂程度无法实现的工具。在 Cloudera

企业版上,我们现在可以以快于先前版本的 GATK 两个数量级的速度来运行基因数据分析,加速反复分析,推进基因创新。

博德研究所与 laaS 提供商的广泛合作旨在让下一代 GATK Spark 可以基于 SaaS 模型使用,让用户可以通过不同的 laaS 登录 GATK4,而不受特定提供商的限制。GATK4 最早将在今年发布,根据提供商不同价格也会不同。免费的许可证将会提供给学术研究,而收费的许可证将可以供给商业用户使用。

查看英文原文Cloudera Announces Partnership with the Broad Institute


感谢张龙对本文的审校。

给 InfoQ 中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ@丁晓昀),微信(微信号:InfoQChina)关注我们。

大数据AI