东亚银行、岚图汽车带你解锁 AIGC 时代的数字化人才培养各赛道新模式! 了解详情
写点什么

又一大突破!DeepMind AI 工具破解了几乎所有已知的蛋白质

  • 2022-07-29
  • 本文字数:2707 字

    阅读完需:约 9 分钟

又一大突破!DeepMind AI工具破解了几乎所有已知的蛋白质

DeepMind 的 AlphaFold 工具已经确定了地球上几乎所有已知生物体中大约 2 亿种蛋白质的结构。

 

近年来人工智能与各种数字化工具,已逐步渗透到健康产业的方方面面,在多个领域展现了突破瓶颈和降本增效的巨大潜力。

 

当地时间 7 月 28 日,DeepMind公司与欧洲分子生物学实验室的欧洲生物信息学研究所(EMBL-EBI)合作公布了生物学领域的一项重大飞跃。他们利用人工智能(AI)开发出了一款开放的、可像使用搜索引擎一样搜索蛋白质结构的数据库——AlphaFold DB 数据库。AlphaFold DB 项目预测出超过 100 万个物种的 2.14 亿个蛋白质结构,几乎涵盖了地球上所有已知蛋白质。这一突破将加速新药开发,并为基础科学带来全新革命。

 

一年前,DeepMind 公司宣布开源AlphaFold 2,当时,AlphaFold 2 被誉为“蛋白质折叠结构预测”这一生物学方面长达 50 年重要问题的当前最优解,它将准确性平均分提升到了 92.4(百分制),误差不超过一个原子的大小。

 

DeepMind 使用称为深度学习的人工智能技术开发了 AlphaFold 网络,希望借助 AlphaFold 的人工智能系统可以更加准确地预测蛋白质的形状。

 

一年前,DeepMind 公司宣布推出了 AlphaFold 2,并将其免费开放给全世界。该数据库中最初包含了 35 万个结构预测,涵盖了人类、小鼠和其他 19 种其他广泛研究的生物体制造的几乎所有蛋白质。此后,该数据库中的可预测结构扩展到了 100 万个。

 

仅仅过去了一年,DeepMind 就宣布 AlphaFold DB 已从 100 万个结构扩展到超过 2 亿个结构,扩大超过 200 倍,这一进展将极大地提升人们对于生物学的理解。



AlphaFold 能够预测出几乎所有已知蛋白质的结构(图片来源:DeepMind)

 

“基本上你可以认为它涵盖了整个蛋白质领域,”DeepMind 首席执行官 Demis Hassabis 在新闻发布会上说。“我们正开启数字生物学新时代的大门。”

为什么了解和预测蛋白质折叠结构很重要?

 

我们的生命离不开蛋白质。蛋白质是一切生命活动的基础物质,它是运输氧气的载体,是帮助抵御病毒的抗体,也是消化食物的酶。蛋白质之所以能够承担多种多样的功能,很大程度上是因为它们具有丰富而复杂的空间结构。

 

蛋白质其实是一种复杂的“生物机器”。每一种蛋白质都有其独特的功能:有的负责在机体内运输代谢物质,比如血红蛋白;有的负责加速生物化学反应,比如淀粉酶;有的负责调节新陈代谢,比如胰岛素;有的则直接构成生物机体组织,比如胶原蛋白等。

 

虽然功能多种多样,但其实所有已知的蛋白质的结构都是由 21 种已知的氨基酸构成的。这些氨基酸当中也只包含碳、氢、氧、氮、硫和硒这六种元素。

 

但是,这些氨基酸在链条上的排列组合、链条的折叠方式,以及最终折叠的结构,决定了蛋白质的最终功能。而蛋白质的 3D 形状或结构决定了它在细胞中的功能。大多数药物都是使用结构信息设计的,准确的图谱通常是发现蛋白质如何工作的第一步。

 

因此,准确了解蛋白质的折叠结构对于生命科学、环境科学等人类目前面对的重要课题都十分关键。

 

伦敦大学学院的计算生物学家 Christine Orengo 说:“我们正在为释放这个巨大的宝库做准备,AlphaFold 数据库能为我们预测所有数据真是太棒了。”

AlphaFold 到底强在哪?

 

去年 AlphaFold 2 的发布就在生命科学界引起了轰动,生物界一直充分利用该工具寻求生物技术上的突破。

 

AlphaFold 网络可以对蛋白质的 3D 形状或结构进行高度准确的预测。那么 AlphaFold 出现之前,科学家们是如何预测蛋白质折叠结构的?在传统上,科学家会使用例如 X 射线晶体学和低温电子显微镜来解析蛋白质结构,但这种方法是非常耗时且昂贵的实验方法。

 

新发布的 AlphaFold 数据库中几乎所有已知的蛋白质都将助力新研究的开展。Orengo 的团队已经使用 AlphaFold 数据库来识别新型蛋白质家族,他们现在将在更大范围内进行这项工作。

 

Christine Orengo 表示,她的实验室还将使用扩展的数据库来了解具有有用特性的蛋白质的进化,例如那些可能导致癌症的物质。在数据库中识别这些蛋白质的远亲可以查明它们特性的基础。

 

首尔国立大学的计算生物学家 Martin Steinegger 帮助开发了基于云的 AlphaFold 版本,他很高兴看到数据库的扩展。但他表示,“研究人员可能仍需要自己运行网络”。人们越来越多地使用 AlphaFold 来确定蛋白质如何相互作用,而这样的预测不在数据库中。通过对来自土壤、海水和其他“宏基因组”来源的遗传物质进行测序,也无法鉴定出微生物蛋白质。

 

Steinegger 补充说“扩展的 AlphaFold 数据库的一些复杂应用程序可能还依赖于下载其全部 23 TB 的内容,这对许多团队来说是不可行的。基于云的存储也可能证明成本高昂。“

 

Steinegger 与人共同开发了一个名为 FoldSeek 的软件工具,它可以快速找到结构相似的蛋白质,并且应该能够大大压缩 AlphaFold 数据。

 

即使包含了所有已知的蛋白质,AlphaFold 数据库也需要随着新生物的发现而更新。随着新的结构信息可用,AlphaFold 的预测也将进行改进。

AlphaFold 的发布,力证了 AI 可以推动人类进步

 

AlphaFold 的最新的更新意味着主流蛋白质数据库 UniProt 上的大多数页面上都带有“蛋白质预测结构”这个功能。研究者可以通过谷歌云公共数据集(Google Cloud Public Datasets)下载 2 亿多个结构,让世界各地的科学家更容易访问 AlphaFold。

 

Scripps 转化研究所创始人 Eric Topol 表示:“AlphaFold 是生命科学领域独一无二且具有里程碑意义的重大突破,展示了 AI 的力量。过去确定蛋白质的 3D 结构需要数月或数年,现在只需几秒钟。AlphaFold 让蛋白质 3D 结构能更快、更大规模地被发现,包括破解核孔复合体的结构。随着 AlphaFold 新版本的发布,里面预测的蛋白质结构几乎囊括了整个宇宙中所有的蛋白质结构,我们可以期待每天都有更多的生物谜团被解开。”

 

自 AlphaFold 发布以来,已经产生了极其重大的影响。

 

DeepMind 表示,“AlphaFold 的成功尤其值得,因为它是我们构建过的最复杂的AI系统,需要多项关键创新,也因为它对下游产生了十分有意义的影响。AlphaFold 展示了人工智能可以精确预测蛋白质的形状,甚至精确到原子精度、精确到尺寸、精确到分钟,它不仅为一项长达 50 年的重大挑战提供了解决方案,还成为了我们对 AI 能力的预判提供了第一个重大证据:AI 可以显著加快科学发现,进而推动人类进步。”

 

迄今为止,来自 190 个国家 / 地区的超过 50 万名研究人员访问了 AlphaFold DB,查看了超过 200 万个结构。一些免费提供的蛋白质结构也已被集成到了其他公共数据集中,例如 Ensembl、UniProt 和 OpenTargets,被数百万用户访问。

 

参考链接:

 

https://www.nature.com/articles/d41586-022-02083-2

https://www.yangtse.com/zncontent/1094405.html

https://www.deepmind.com/blog/alphafold-reveals-the-structure-of-the-protein-universe

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2022-07-29 18:254461
用户头像
李冬梅 加V:busulishang4668

发布了 807 篇内容, 共 375.2 次阅读, 收获喜欢 997 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

React + Node.js 全栈实战教程 - 手把手教你搭建「文件上传」管理后台

蒋川

node.js react.js mongodb Express axios

影响分析:RubyGems未授权访问漏洞(CVE-2022-29176)

龙智—DevSecOps解决方案

rubygems 漏洞

Spring AOP

武师叔

7月月更

AIRIOT物联网平台助力油库自动化升级 实现业务场景全覆盖

AIRIOT

低代码 物联网 低代码,项目开发

企业钟情于混合App开发,小程序容器技术能让效率提升100%

Speedoooo

微信小程序 APP开发 跨端开发 小程序容器

任务拆分中的「敏捷刺客」,你中招了吗?

LigaAI

团队管理 敏捷开发 需求管理 垂直拆分 需求梳理

跟着官方文档学 Python 之:基础语法

甜甜的白桃

Python 数据类型 7月月更

关于FAQ页面的一些制作技巧

Baklib

漏洞挖掘之文件漏洞后利用姿势【网络安全】

网络安全学海

网络安全 安全 信息安全 渗透测试 漏洞挖掘

知乎基于 Apache Doris 的 DMP 平台架构建设实践|万字长文详解

SelectDB

Apache 数据库 数据仓库 广告系统 Doris

都有哪些较好用的项目管理软件?

PingCode

项目管理 项目管理软件

一个月后,我们又从 MySQL 双主切换成了主 - 从!

悟空聊架构

MySQL 悟空聊架构 征文活动 7月月更

刨析Scoped原理

猪痞恶霸

CSS 7月月更

后端实战教程:如何使用 Node.js 开发 RESTful API 接口(Node.js + Express + Sequelize + MySQL)

蒋川

node.js MySQL 后端开发 Express

CloudBees CI使用Velero进行灾备(DR)概念验证

龙智—DevSecOps解决方案

ci 停机时间 灾难恢复计划

带你认识数仓的“规格变更”

华为云开发者联盟

数据库 后端 集群 数仓

Flutter 构建三维空间动画效果

岛上码农

flutter ios 前端 安卓开发 7月月更

干货|语义网、Web3.0、Web3、元宇宙这些概念还傻傻分不清楚?(上)

Orillusion

开源 WebGL 元宇宙 Metaverse webgpu

IPA应用探索:基于客户意图交互让业务受理更有“温度”

鲸品堂

运营商

基础设施 NFTScan 正式发布 Solana 网络 NFT 浏览器

NFT Research

区块链 NFT

Klocwork部署的安全最佳实践

龙智—DevSecOps解决方案

klocwork 静态代码分析 SAST工具

HTTP的前世今生

技术小生

HTTP 7月月更

全面掌控!打造智慧城市建设的"领导驾驶舱"

华为云开发者联盟

云计算 后端 智慧城市 智慧屏

Hive表类型

五分钟学大数据

hive 7月月更

体验SRCNN和FSRCNN两种图像超分网络应用

华为云开发者联盟

人工智能 图像 图像超分

卷是真的卷,“粗心马虎”也是真的要扣分

图灵教育

数学 小学 初中

P4Python:合并实践指南之如何脚本化integrate流程

龙智—DevSecOps解决方案

文件合并 P4 Perforce Helix Core

Spring Security用户定义

急需上岸的小谢

7月月更

万字多图,搞懂 Nginx 高性能网络工作原理!

C++后台开发

nginx 中间件 后端开发 高性能网络 C++开发

DevOps工具链:开放、自由地选择最适合团队和业务需要的工具

龙智—DevSecOps解决方案

DevOps DevOps工具 DevOps工具链

企业知识管理过程中常见的误区与解决方法

Baklib

又一大突破!DeepMind AI工具破解了几乎所有已知的蛋白质_大数据_李冬梅_InfoQ精选文章