写点什么

生物学是数据科学的下一个爆发点

2018 年 6 月 26 日

计算综合生物学(Computational Synthetic Biology,CSB)可能是下一个大事件,也可能是数据科学最重要的开拓领域。顾名思义,这是数据科学和生物学研究的交叉点。这个领域已经出现了重要的进展和大手笔投资,应该引起具有深度学习技能的数据科学家的注意。

数据科学领域的下一个大事件就是——生物学!实际上,计算综合生物学(CSB)有时被称为“计算系统生物学”或简称为“合成生物学”。

从生物学研究人员的角度来看,CSB 一般指在自然界中尚不存在的生物组成和系统的设计和制造,或者是指对现有生物系统的重新设计和制造。

对于数据科学家或初创公司来说,CSB 是一个新兴领域,将充分利用深度学习领域的进展。

CSB 将显著加速治愈人类某些棘手的疾病,或在 5 至 7 年时间内成为下一代独角兽的基石。

或许只有当你真正参与其中才能更好地描述这一切,比如通过面部识别技术在 Facebook 上标记你朋友的脸,或者为旅行平台创建聊天机器人,或者努力治愈癌症并延长人类的寿命。

这不就是生物信息学吗?

与大多数重要的创新一样,CSB 并非新生事物。1978 年,人们发现了限制性内切酶,并开始使用它,这被看成是第一次在生物学上使用工程概念。

就像深度学习不得不等待 MPP 和使用 GPU 来加速计算一样,从 2003 年解码人类基因组开始,随后的 15 年出现了基因组数据大爆炸,但 CSB 仍然停留在概念阶段。

早期的生物信息学试图解决基因组学初始阶段的问题。例如,如何组装全基因组模型或使用 SNP(单核苷酸多态性)来标记 DNA 的特定区域(人类基因组中有大约 1000 万个 SNP)。

CSB 不是一般的生物信息学

从两三年前的深度学习大爆发开始,第一个有远见的生物学家 / 数据科学家团队开始探索如何在看似无关的学科中利用这种新的协同增效效应。

为了让你了解这个领域的新颖性和开放性,Angel.co 网站(跟踪创业公司的形成和投资情况)列出了超过 400 万家创业公司,其中绝大多数与科技有关。有超过 5000 个公司与“大数据”有关,另外 5,000 家则被归类为“分析”。只有 222 家属于生物信息学,其中只有一部分正在研究 CSB。

这感觉就像是 2010 年前后的深度学习,距离图像分类或语音识别准确率达到 95%还有三年时间,这些技术后来被 10,000 家新的 AI 初创公司用在他们的应用程序中。

一些例子

毋庸置疑,在迄今为止发表的材料中,这一领域的创新者一直羞于过多地谈论他们的专有算法,除非它们是基于深度学习的。以下是一些正在发生的快照。

Hexagon Bio:四分之三的抗生素和一半的抗癌化合物,包括青霉素和他汀类药物均来自天然真菌。但是,新化合物的发现在很大程度上是随机的,并且依赖研究人员的直觉。

Hexagon 挖掘了 2000 多种菌菇和霉菌的真菌基因组,用以预测哪些基因簇最可能产生有用的化合物。然后他们将测试微生物与修改过的的 DNA 部分相结合,以便产生可能的化合物,用于攻击癌细胞。他们目前大约有 22 种化合物具有临床应用的前景。

除了他们的专有算法,Hexagon 已经开始使用 DNA 测序和自动化工作站这类工具。他们还使用了一种技术,通过下载和打印基因簇的拷贝,加快 DNA 的合成速度。现在只需要按下一个按钮,就可以完成酵母菌的重新设计。

在过去的 18 个月中,他们从私人投资者手中筹集了 800 万美元资金。

真菌药物开发领域特别火爆,竞争者是否能够脱颖而出,取决于他们的算法能否快速而准确地发现有用的 DNA 片段。

这一领域的其他进展包括:

LifeMine Therapeutics:一家由哈佛大学化学生物学家共同创立的初创企业,已经从大量投资者手中获得了价值 5500 万美元的 A 轮融资,这些公司包括无锡医疗保健风险投资公司、谷歌和默克风险投资公司。

Lodo Therapeutics Corp:5 月份与罗氏公司签署了一项有关基因组筛选的协议,涉及金额 9.69 亿美元。

Adapsyn Bioscience Inc:1 月份收到来自辉瑞的 1.62 亿美元投资,用于微生物挖掘。

并非所有的 CSB 都涉及实验工作

BenevolentAI 正致力于为炎症、神经退行性疾病、孤儿疾病和罕见的癌症寻找新型解决方案,但这些都没能提供足以吸引大型制药公司投资所需的大规模市场。BenevolentAI 认为,我们可能可以从药物研发机构的未开发研究中找到这些问题的答案。

他们的方法是开发一个先进的人工智能平台,他们称之为深度判断系统。这个平台可以基于人类的判断和数据进行学习和推理。

该平台使用来自科学论文、专利、临床试验信息的大量非结构化数据,试图从大量结构化数据集中识别出隐蔽的科学知识,并基于“已知”的东西推断出应该“应该”知道什么。

生成模型可能是最前沿的

哈佛大学化学教授 Alan Aspuru-Guzik 利用生成 DNN 架构提出了一种分子结构,该分子结构可能可以用于复制两种不同药物的组合特性,例如阿司匹林与布洛芬。有效药物的组合和有效方案的组合将大大提升我们有效治愈更多疾病的能力,并带来成本上的效益。

我们经常考虑如何在谷歌的智能回复等应用程序中使用生成 DNN(RNN、LSTM),为回复邮件提供建议。实际上,如果我们能够使用潜在的分子结构作为输入,AI 就能够建议潜在的组合,这些组合不仅是物理上的,而且还可能具有组合的治疗效果。

2017 年 12 月,Aspuru-Guzik 和他在哈佛大学、多伦多大学和剑桥大学的同事发表了生成模型的可喜成果,该模型是基于 250,000 种类药物分子训练出来的。

这些公司在寻找什么样的数据科学家?

对于那些可能对跨领域感兴趣的人来说,他们在 CNN、RNN、LSTM 和 QAM(Question Answering Machine,问答机)方面的深度学习技能将会成为他们的优势,当然具体要取决于公司。我们看到很多工作岗位的描述要求候选人懂 Python 和 R,但没有特别提到要懂生物信息学,或所述不多。

最多就是有些岗位要求候选人基本熟悉生物学研究。我们的猜测是,现在没有那么多数据科学家同时拥有生物学学位,并且这些公司重视数据科学多过生物学。

另一方面,如果我们建议我们的孩子在高中和大学时学些什么,数据科学和生物学的结合看起来是个不错的选择。

我们认为这个领域才刚刚开始,要像今天的 AI 那样成熟,还需要 7 到 10 年的时间。对于现在的年轻数据科学家或者在最近 10 年内从学校毕业的新数据科学家来说,这可能是一个很长的职业生涯。

现在的 CSB 大致相当于福特汽车 Model A 手工版阶段。随着这个领域的数据科学的进步和自动化程度的提高,在不久的将来,我们有望直接在计算机屏幕上设计或编辑基因组。

哈佛医学院的基因科学家 George Church 说:“我认为这可能比太空革命或计算机革命更伟大”。

查看英文原文: https://www.datasciencecentral.com/profiles/blogs/the-next-big-thing-in-data-science-is-biology

感谢蔡芳芳对本文的审校。

2018 年 6 月 26 日 15:301157
用户头像

发布了 731 篇内容, 共 368.6 次阅读, 收获喜欢 1860 次。

关注

评论

发布
暂无评论
发现更多内容

《垃圾回收的算法与实现》.pdf

田维常

垃圾回收

一瞬间让我秒变“快男”!腾讯内部强推Java性能优化手册,快了不止一点点。

Java架构追梦

Java 架构 jdk 面试 性能优化

一次 Java 进程 OOM 的排查分析(glibc 篇)

996小迁

Java 编程 架构 面试 计算机

收藏!数据建模最全知识体系解读

华为云开发者社区

数据仓库 数据 数据建模

胡继晔:中国应建区块链行业准入制度

CECBC区块链专委会

区块链 金融 数字经济

Glide.with(view)挂在了谁的生命周期上

mengxn

生命周期 Glide Activity Fragment

【活动回顾】WebRTC服务端工程实践和优化探索

ZEGO即构

WebRTC 服务端工程

#不吐不快# CV千千条,修改最重要。代码不规范,伙伴两行泪!

程序员小航

奇葩的经历 不吐不快

前嗅教你大数据——什么是代理IP?

前嗅大数据

爬虫 数据采集 静态IP 代理IP 动态IP

什么是低代码(Low-Code)?

应用研发平台EMAS

工具 研发效能 低代码 开发 代码

SpringBoot:整合Swagger3.0与RESTful接口整合返回值(2020最新最易懂)

比伯

Java 编程 架构 面试 计算机

区块链,音乐,流媒体和版税

CECBC区块链专委会

区块链 艺术

【涂鸦物联网足迹】涂鸦云平台消息服务—顺带Pulsar简单介绍

IoT云工坊

人工智能 物联网 云服务 Apache Pulsar 云平台

科普干货|漫谈鸿蒙LiteOS-M与HUAWEI LiteOS内核的几大不同

华为云开发者社区

华为 鸿蒙 IoT

小学妹问我:如何利用可视化工具排查问题?

田维常

可视化

DàYé的CTO姗姗学步路

曲水流觞TechRill

管理 CTO

分布式事务太繁琐?官方推荐Atomikos,5分钟帮你搞定

互联网应用架构

分布式事务 springboot

太赞了!腾讯T3-3架构师整理了5000页的Java学习手册免费开放下载

Java架构之路

Java 程序员 架构 面试 编程语言

交易所做市机器人,自动跑K线机器人,市值管理

WX13823153201

圆通快递回应内鬼泄露用户信息:严打数据倒卖灰色产业

石头IT视角

区块链在债券市场如何应用

CECBC区块链专委会

区块链 债券

开个交易所需要多少费用?数字货币交易所搭建

13530558032

synchronized 到底该不该用

古时的风筝

Java synchronized

云原生2.0时代下,DevOps实践如何才能更加高效敏捷?

华为云开发者社区

云计算 数字化 华为云

SQL数据库:窗口函数

正向成长

窗口函数

IoT企业物联网平台,从设备端到云端业务系统全链路开发实战

苏堤嘉木

阿里云 最佳实践 物联网 IoT

#不吐不快# 三观很正的Boss,你遇到过么?

架构精进之路

职场成长 奇葩的经历 不吐不快

年轻人不讲武德不仅白piao接口测试知识还白piao接口测试工具会员

测试人生路

接口测试

高性能利器!华为云MRS ClickHouse重磅推出!

华为云开发者社区

数据库 Clickhouse MRS

Nginx-技术专题-技术介绍

李浩宇/Alex

Jira停售Server版政策客观解读——如何最小化风险?

PingCode

项目管理 研发管理 Jira Atlassian

演讲经验交流会|ArchSummit 上海站

演讲经验交流会|ArchSummit 上海站

生物学是数据科学的下一个爆发点-InfoQ