大数据革命与基因组分析

  • Alex Giamas
  • 夏雪

2014 年 2 月 18 日

话题:数据库大数据架构AI

Curoverse 和 Tute Genomics 在上个月获得了 150 万美元的种子投资,它们的目标是促进面向大众的基因序列测定。Curoverse 是一个用于生物医药的私有云平台,它基于免费的开源平台Arvados。Tute Genomics 提供了一个基于云的基因组分析解决方案,帮助研究人员解析从人类外显子组直至基因组的序列数据。

在过去的几年里,基因序列测定成本已经大幅度降低,使它更易于投入市场服务大众。与此同时,存储和计算能力随着摩尔定律不断地增强,就更易于分析和存储人类的全部基因组了。

但尽管如此,一个完全测序的人类基因组包含 100-1,000GB 的数据量。一百万个客户的数据合计能达到 1EB 或者说 1,000,000TB 的数据量。来自于 UC Berkeley 的研究人员提出了一个可行的方法来管理数据库,数据库采用三层存储方式,分别为 100PB、1PB 和 1TB,其中只有最后一个基于关系型数据库。这项工作的秘诀是个体化医疗。人类有99.9% 的 DNA是相同的,其假设是对许多病人进行全基因组序列分析,将会发现那 0.1% 的差异能够用来预测和治疗许多疾病,其中也包括癌症。

从计算能力这一方面来说,已经有专门的硬件用于加快基因组数据分析的速度。在过去的十年间,人类基因组的排序成本已经下降了 100,000 倍,分析时间从 13 年降到了三天以内

在研究领域已经有测序中心在分析并存储数据,各中心的数据分别取自少量的病人样本。我们面临的真正挑战是在不同档案间合并这些数据集,并交叉引用病人的病历、临床治疗及效果。

在过去的几年里,私营企业开始介入,并为大众提供基因组分析服务。比如IlluminaSeven Bridges GenomicsComplete Genomics以及其他一些组织,它们使研究人员和私人团体有条件去针对四张图标记映射全基因组序列。Illumina 近期发布了HiSeq X Ten,承诺可以用不到 1000 美元的成本完成基因组测序,这是一个盼望已久的目标。

Illumina 已经正式推出了一个名为BaseSpace的云计算和存储平台,它能让科学家们对存储在Amazon Web Services上的数据进行排序、分析和协作。大家也可以使用其API 和 SDK开发生物信息应用。

另一方面,Seven Bridges Genomics在人类基因组排序和分析中综合应用了云计算和 NoSQL 数据的技术,比如 EC2、S3 和MongoDB。为了降低数据存储成本,他们还采用了 Glacier。Seven Bridges PaaS 提供了一个设置数据通道的界面,这些通道可以基于预定义的模型,也可以根据当前任务进行调整。

对于有志于从事生物信息的开发人员来说,Crossbow是一款能够用于完整基因组重新排序分析的工具。经过对多个类库进行整合,它可以借助 AWS 只花不到 100 美元的成本在 3 小时之内分析完一个人类基因组。Intel 为大家提供了一份详细指南,你可以从GitHub上获取它的源代码。

具有150 亿美元市场前景的基因组研究产业才刚刚开始升温,技术的进步将进一步延伸自我量化(quantified self)的概念,这将远远超出我们今天的想象。

查看英文原文:Big Data Revolution and Genomics Analysis


感谢梅雪松对本文的审校。

给 InfoQ 中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ)或者腾讯微博(@InfoQ)关注我们,并与我们的编辑和其他读者朋友交流。

数据库大数据架构AI