【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

一条“老咸鱼”与生物学家的 Battle 之旅

  • 2021-03-17
  • 本文字数:1781 字

    阅读完需:约 6 分钟

一条“老咸鱼”与生物学家的 Battle 之旅

从上帝捏土为人,到女娲造人,东西方似乎达成了神奇的共识:人是泥土做的。经历过十余年综合教育的“五好青年”知道,人是从大海里来的。


然而,陆生迁徙说一直没得到确切的理论支持。


直到人们发现了一种既长着鳃又长着肺的鱼——“肺鱼”,并将其带进实验室测序。


一测吓一跳。以澳洲肺鱼为例,其基因组居然包含约 430 亿个 DNA 碱基对,是人类 14 倍,身体 1 亿多年没变化!


作为可能的“脊椎动物登陆”见证者,这条“老咸鱼”仿佛在对生物学家炫耀地摇着尾巴。



基因测序没那么简单


肺鱼没想到的是,基因测序技术的进步竟然如此之快。肺鱼基因秘密很快就被大量揭开。

2021 年 1 月 18 日,Axel Meyer 等人在 《Nature》 发表了论文,确定了最大的染色体质量的动物基因组。十多天后,著名刊物 《Cell》 发表了两篇论文,分别解析了原始辐鳍鱼类,以及非洲肺鱼共五个物种的基因组。

二者背后都有一个“神秘”的中国公司在提供基因测序技术支持:三代测序企业——武汉希望组

一个有机体 DNA 的完整序列称为一个基因组,以人为例,对基因组测序,解读遗传物质,能大大降低遗传疾病发生率,实现对疾病预防以及个体化诊疗。好莱坞女星安吉丽娜·朱莉发现自己带有家族遗传癌症基因,于是预防性地切除了乳腺。

基因测序并不简单。人体有 23 对染色体,31.6 亿个碱基对,一次 30 倍的全基因组测序的数据量约 90Gb,质控、拼接、比对、注释等流程,用一台高性能服务器需要运行 30 多个小时才能完成。

这对存储、算力、网络以及数据安全性都提出了极高的要求:


1、数据容量巨大。数十 TB 的原始数据,要求测序公司提供超大容量的数据存储以及大容量单文件存储的支持。且原始数据通常来自于珍贵样本,数据安全性要求极高。


2、高并发读写能力要求高。原始数据导入到系统之后,需要通过各种类型生物信息学 Pipeline 分析,海量数据的传输需求对用户数据交付是极大的挑战。


3、对数据挖掘和机器学习的需求高。基因比对、组装、变异分析需要使用深度学习或机器学习,通过数据挖掘发现更多成果。


4、对计算存储的连续性要求高。一次测序耗时长,需要存储系统满足 7*24h 连续无故障作业的要求。


比起给人类测序,肺鱼测序明显更难,它的基因组是迄今为止报道的最大的动物基因组(约 40Gb),基因组中>60%的重复序列进一步增加了组装难度。



针对以上的需求,希望组首席生信技术官、联合创始人胡江带领团队历时 2 年自主研发了 NextDenovo/NextPolish 系列三代测序组装软件。这套软件集比对、矫正、组装功能于一体,不但解决了现有三代测序数据组装工具资源占用大、运行时间长、组装质量不稳定的瓶颈,还实现了单 Contig 一条染色体和超大型基因组组装的突破,为利用三代数据组装基因组扫清了组装算法的障碍。


目前该系列软件已在 GitHub 上开源。其中 NextDenovo 一开源就引起国内外广泛使用和报道,截止 2021 年 3 月,下载次数超过 4000 次。


自主研发软件的背后


如今的生命科学研究竞赛,已经变成了一场“算力”的比拼。


基因测序行业动辄 PB 级别的数据,需要极高的带宽需求,及快速扩缩容能力。同时,对 PB 级别数据存储还包含规划、分配、回收、归档等过程。安全、运维和成本都面临巨大的挑战。目前基因测序行业普遍采用定制化的云计算服务,华为云鲲鹏云服务,满足了希望组对多元算力需求,助力测序软件与方案落地。


此外,华为云联创营提供的技术共创服务。对于创新业务,成果不等于简单的技术服务累加,深度共创往往更能解决问题。


例如,在技术层面,希望组采用了华为云基因容器服务 GCS,将基因测序和容器技术结合在一起,通过综合运用华为云提供的 Docker、ARM 等技术,将部分应用性能提升 5-10 倍,同时大大降低了运维压力,整体运维成本下降 30%。另外还基于华为云鲲鹏云的 HPC 解决方案 ,将内存带宽使用率提升了 40%,算力提升了 25%。



数字背后,是双方力出一孔的合作。单是基因测序流程在华为云鲲鹏云上的国产化适配,希望组核心技术骨干李净净、秦建虎等就与华为云的技术专家召开了 12 次会议。双方团队紧密协作两个多月,保障了整个项目提前顺利上线。


现在,NextDenovo 即将上架华为云严选商城,面向全球基因测序行业从业者以及学术研究机构开放,以期推动整个基因行业的进步。


作为华为云联创营会员,希望组还会深度参与后续的合作。双方将在基因测序场景下,继续孵化改变行业的解决方案。


2021,华为云联创营还在继续,与智者同行,共创美好新未来。




2021-03-17 17:121525

评论

发布
暂无评论
发现更多内容

2022中国信通院安全运营发展论坛成功召开

中国IDC圈

安全

从功能测试进阶自动化测试,熬夜7天整理出这一份3000字超全学习指南【附网盘资源】

伤心的辣条

Python 程序员 软件测试 IT 自动化测试

国家先进计算产业创新(宜昌)中心正式落地 由中科曙光、升哲科技联合运营

SENSORO

人工智能 物联网 新基建 智慧城市

想发自己的NFT,你要先搞清楚这6个问题

华为云开发者联盟

区块链 数据资产 NFT

ShardingSphere 异构迁移最佳实践:将3.5亿量级的顾客系统 RTO 减少60倍

SphereEx

Java php MySQL 数据库 ​Apache ShardingSphere

LeaRun.Java表单快速开发工具

力软低代码开发平台

Git 不要只会 pull 和 push,学学这 5 条提高效率的命令

CRMEB

全国超10亿用户!AntDB数据库的电信核心交易替换之路

亚信AntDB数据库

数据库 通信 电信 运营商 数据库应用开发

如何实现十亿级离线 CSV 导入 Nebula Graph

NebulaGraph

知识图谱 数据导入 Nebula Graph CSV 文件导入

问题来了:4GB物理内存的机器上申请8G内存能成功吗?

Java全栈架构师

Java Linux 程序员 面试 程序人生

CloudTTY:下一代云原生开源 Cloud Shell

Daocloud 道客

Kubernetes 云原生 开源项目 网页命令行

游泳馆应用软件开发:在线一站式服务,优化用户整体体验

开源直播系统源码

软件开发 APP开发 直播系统

Mybatis省略@Param注解原理

mybatis 6月月更 @Param注解

国际权威报告:SaaS+AI大势所趋,腾讯云领跑国内科技公司

科技热闻

想要了解数字机器人如何赋能政企领域,一定不要错过这个论坛

王吉伟频道

RPA 机器人流程自动化 机器人开发 华为开发者大会2022 华为WeAutomate

面试时必问的五大问题

伤心的辣条

Python 软件测试 自动化测试 测试开发 软件测试面试

数据关联最佳实践

观测云

可观测性 可观测

应用实践 | Apache Doris 在网易互娱的应用实践

SelectDB

MySQL 数据库 最佳实践 apache doris 数据优化

在线帮助中心对企业的作用及解决方案

小炮

改变世界的开发者丨黑客松冠军,为听障儿童推开一扇“有声的窗”

华为云开发者联盟

云计算 华为云 GaussDB 听觉 听障儿童

新一代政务云的“前移”与“致远”

浪潮云

云计算

本地开发测试,局域网中使用IP地址访问项目网站

迷彩

网站架构 学习记录 网站开发 6月月更

全球云计算市场持续发力,但云身份管理能力认可度不足3成

行云管家

云计算 云服务 企业上云 混合云 多云

本周二晚19:00战码先锋第5期直播丨深入理解OpenHarmony系统启动,轻松踏上设备软件开发之旅

OpenHarmony开发者

OpenHarmony

【网络安全】VPN是什么?VPN与堡垒机有啥区别?

行云管家

网络安全 堡垒机 vpn

从无到有,政务系统的全面可观测模板

博睿数据

智能运维 博睿数据 政务系统 全面检测

腾讯云小微技术登顶权威榜单XTREME基准,跨语言技术迁移开发助力企业出海

科技热闻

Python小白何时能做自动化

伤心的辣条

Python 软件测试 自动化测试 接口测试 测试开发

本周三晚19:00Hello HarmonyOS应用篇第7课—分布式应用开发

HarmonyOS开发者

HarmonyOS

蓝凌叮当刘向华:如何用一款SaaS俘获年轻人的心?

ToB行业头条

melody SGS旋律麦克风链游开发模式分析

开发微hkkf5566

一条“老咸鱼”与生物学家的 Battle 之旅_服务革新_InfoQ编辑部_InfoQ精选文章