写点什么

一条“老咸鱼”与生物学家的 Battle 之旅

  • 2021-03-17
  • 本文字数:1781 字

    阅读完需:约 6 分钟

一条“老咸鱼”与生物学家的 Battle 之旅

从上帝捏土为人,到女娲造人,东西方似乎达成了神奇的共识:人是泥土做的。经历过十余年综合教育的“五好青年”知道,人是从大海里来的。


然而,陆生迁徙说一直没得到确切的理论支持。


直到人们发现了一种既长着鳃又长着肺的鱼——“肺鱼”,并将其带进实验室测序。


一测吓一跳。以澳洲肺鱼为例,其基因组居然包含约 430 亿个 DNA 碱基对,是人类 14 倍,身体 1 亿多年没变化!


作为可能的“脊椎动物登陆”见证者,这条“老咸鱼”仿佛在对生物学家炫耀地摇着尾巴。



基因测序没那么简单


肺鱼没想到的是,基因测序技术的进步竟然如此之快。肺鱼基因秘密很快就被大量揭开。

2021 年 1 月 18 日,Axel Meyer 等人在 《Nature》 发表了论文,确定了最大的染色体质量的动物基因组。十多天后,著名刊物 《Cell》 发表了两篇论文,分别解析了原始辐鳍鱼类,以及非洲肺鱼共五个物种的基因组。

二者背后都有一个“神秘”的中国公司在提供基因测序技术支持:三代测序企业——武汉希望组

一个有机体 DNA 的完整序列称为一个基因组,以人为例,对基因组测序,解读遗传物质,能大大降低遗传疾病发生率,实现对疾病预防以及个体化诊疗。好莱坞女星安吉丽娜·朱莉发现自己带有家族遗传癌症基因,于是预防性地切除了乳腺。

基因测序并不简单。人体有 23 对染色体,31.6 亿个碱基对,一次 30 倍的全基因组测序的数据量约 90Gb,质控、拼接、比对、注释等流程,用一台高性能服务器需要运行 30 多个小时才能完成。

这对存储、算力、网络以及数据安全性都提出了极高的要求:


1、数据容量巨大。数十 TB 的原始数据,要求测序公司提供超大容量的数据存储以及大容量单文件存储的支持。且原始数据通常来自于珍贵样本,数据安全性要求极高。


2、高并发读写能力要求高。原始数据导入到系统之后,需要通过各种类型生物信息学 Pipeline 分析,海量数据的传输需求对用户数据交付是极大的挑战。


3、对数据挖掘和机器学习的需求高。基因比对、组装、变异分析需要使用深度学习或机器学习,通过数据挖掘发现更多成果。


4、对计算存储的连续性要求高。一次测序耗时长,需要存储系统满足 7*24h 连续无故障作业的要求。


比起给人类测序,肺鱼测序明显更难,它的基因组是迄今为止报道的最大的动物基因组(约 40Gb),基因组中>60%的重复序列进一步增加了组装难度。



针对以上的需求,希望组首席生信技术官、联合创始人胡江带领团队历时 2 年自主研发了 NextDenovo/NextPolish 系列三代测序组装软件。这套软件集比对、矫正、组装功能于一体,不但解决了现有三代测序数据组装工具资源占用大、运行时间长、组装质量不稳定的瓶颈,还实现了单 Contig 一条染色体和超大型基因组组装的突破,为利用三代数据组装基因组扫清了组装算法的障碍。


目前该系列软件已在 GitHub 上开源。其中 NextDenovo 一开源就引起国内外广泛使用和报道,截止 2021 年 3 月,下载次数超过 4000 次。


自主研发软件的背后


如今的生命科学研究竞赛,已经变成了一场“算力”的比拼。


基因测序行业动辄 PB 级别的数据,需要极高的带宽需求,及快速扩缩容能力。同时,对 PB 级别数据存储还包含规划、分配、回收、归档等过程。安全、运维和成本都面临巨大的挑战。目前基因测序行业普遍采用定制化的云计算服务,华为云鲲鹏云服务,满足了希望组对多元算力需求,助力测序软件与方案落地。


此外,华为云联创营提供的技术共创服务。对于创新业务,成果不等于简单的技术服务累加,深度共创往往更能解决问题。


例如,在技术层面,希望组采用了华为云基因容器服务 GCS,将基因测序和容器技术结合在一起,通过综合运用华为云提供的 Docker、ARM 等技术,将部分应用性能提升 5-10 倍,同时大大降低了运维压力,整体运维成本下降 30%。另外还基于华为云鲲鹏云的 HPC 解决方案 ,将内存带宽使用率提升了 40%,算力提升了 25%。



数字背后,是双方力出一孔的合作。单是基因测序流程在华为云鲲鹏云上的国产化适配,希望组核心技术骨干李净净、秦建虎等就与华为云的技术专家召开了 12 次会议。双方团队紧密协作两个多月,保障了整个项目提前顺利上线。


现在,NextDenovo 即将上架华为云严选商城,面向全球基因测序行业从业者以及学术研究机构开放,以期推动整个基因行业的进步。


作为华为云联创营会员,希望组还会深度参与后续的合作。双方将在基因测序场景下,继续孵化改变行业的解决方案。


2021,华为云联创营还在继续,与智者同行,共创美好新未来。




2021-03-17 17:122061

评论

发布
暂无评论
发现更多内容

实录速递 | 和鲸ModelWhale助力医学Datathon跨学科协同,共筑数据科学与临床研究标准化新路径

ModelWhale

Python 人工智能 数据库 R语言 临床医学

人工智能与人类合作:未来工作模式的新探索

天津汇柏科技有限公司

AI人工智能

商业开源的最佳起步实践 PPT 分享中|QCon・北京站圆满落幕

Greptime 格睿科技

数据库 AI 云原生 活动

HarmonyOS :自定义弹窗(CustomDialog)的解耦实践

李小轰

HarmonyOS NEXT

HarmonyOS UI动态化:探索自定义组件的创建与实时更新技术

李小轰

HarmonyOS NEXT

强化学习在众包差异化定价中的探索

京东科技开发者

KWDB v2.1.0 发版说明

KWDB数据库

时序数据库 查询优化 分布式架构 DataX 数据查询

如何在敏捷开发中实现更好的需求管理

易成研发中心

需求管理 需求管理工具

NocoBase 本周更新汇总:优化 REST API 数据源插件

NocoBase

开源 低代码 插件 无代码 版本更新

华为视频多平台聚合,热门IP《白夜破晓》《珠帘玉幕》任你追

最新动态

HarmonyOS :扩展修饰器,实现节流、防抖、权限申请

李小轰

HarmonyOS NEXT

用户指南 | 快速迁移 InfluxDB v2 数据至 GreptimeDB

Greptime 格睿科技

数据库 云原生 数据存储 数据迁移

《京东金融APP的鸿蒙之旅系列专题》鸿蒙新特性篇:Hello, 仓颉 World

京东科技开发者

模拟器快速上手,助力HarmonyOS应用/服务高效开发

白晓明

HarmonyOS 模拟器 HarmonyOS NEXT

Domino 流计算快速上手 - 2. 聚集

YMatrix 超融合数据库

数据库 数据仓库 流计算 超融合数据库

数智绩效合并报表:全球化合并实现财报精准高效

用友智能财务

科技 财务 企业数智化 财务软件

探索HarmonyOS:一键掌握Router与NavPathStatck的传参和页面回调技巧

李小轰

HarmonyOS NEXT

和鲸科技创始人&CEO范向伟出席首届工业智算产业发展研讨会,共话 AI 创新与产业化落地

ModelWhale

人工智能 大数据 AI R语言

HarmonyOS :面向对象式网络请求库,我发布的第一个鸿蒙三方库

李小轰

HarmonyOS NEXT

HarmonyOS :自定义组件 @BuilderParam 中 this 作用域填坑小记

李小轰

HarmonyOS NEXT

汽车摆臂行业数字化转型方案及MES系统具体功能介绍

万界星空科技

汽车 mes 汽车零部件mes 汽车摆臂行业 汽车摆臂mes

HarmonyOS :适配折叠屏展开与收起,实现单屏与双屏UI的无缝切换

李小轰

HarmonyOS NEXT

某充电桩业务服务内存监控和程序行为分析

乘云数字DataBuff

运维 内存监控

【稳定性】上线三板斧(可灰度、可验证、可回滚)

京东科技开发者

长上下文语言模型评估体系探析

Baihai IDP

程序员 AI LLMs 长上下文语言模型

和鲸气象联合解决方案闪耀亮相第29届联合国气候变化大会(COP29)

ModelWhale

人工智能 AI R 语言 气候 COP29

HarmonyOS :基于 emitter 封装了一个便捷的 EventBus 事件通知

李小轰

HarmonyOS NEXT

国内外十大开源快速开发平台推荐

NocoBase

开源 低代码 快速开发 无代码

《一文讲透》第4-3期:KWDB 数据库运维 —— 安全与审计(上)

KWDB数据库

时序数据库 数据库运维 审计 数据库安全 多模数据库

华为阅读启动“乘国航 阅世界”国航伴读计划,3重好礼免费领!

最新动态

一条“老咸鱼”与生物学家的 Battle 之旅_服务革新_InfoQ编辑部_InfoQ精选文章