最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

又一大突破!DeepMind AI 工具破解了几乎所有已知的蛋白质

  • 2022-07-29
  • 本文字数:2707 字

    阅读完需:约 9 分钟

又一大突破!DeepMind AI工具破解了几乎所有已知的蛋白质

DeepMind 的 AlphaFold 工具已经确定了地球上几乎所有已知生物体中大约 2 亿种蛋白质的结构。

 

近年来人工智能与各种数字化工具,已逐步渗透到健康产业的方方面面,在多个领域展现了突破瓶颈和降本增效的巨大潜力。

 

当地时间 7 月 28 日,DeepMind公司与欧洲分子生物学实验室的欧洲生物信息学研究所(EMBL-EBI)合作公布了生物学领域的一项重大飞跃。他们利用人工智能(AI)开发出了一款开放的、可像使用搜索引擎一样搜索蛋白质结构的数据库——AlphaFold DB 数据库。AlphaFold DB 项目预测出超过 100 万个物种的 2.14 亿个蛋白质结构,几乎涵盖了地球上所有已知蛋白质。这一突破将加速新药开发,并为基础科学带来全新革命。

 

一年前,DeepMind 公司宣布开源AlphaFold 2,当时,AlphaFold 2 被誉为“蛋白质折叠结构预测”这一生物学方面长达 50 年重要问题的当前最优解,它将准确性平均分提升到了 92.4(百分制),误差不超过一个原子的大小。

 

DeepMind 使用称为深度学习的人工智能技术开发了 AlphaFold 网络,希望借助 AlphaFold 的人工智能系统可以更加准确地预测蛋白质的形状。

 

一年前,DeepMind 公司宣布推出了 AlphaFold 2,并将其免费开放给全世界。该数据库中最初包含了 35 万个结构预测,涵盖了人类、小鼠和其他 19 种其他广泛研究的生物体制造的几乎所有蛋白质。此后,该数据库中的可预测结构扩展到了 100 万个。

 

仅仅过去了一年,DeepMind 就宣布 AlphaFold DB 已从 100 万个结构扩展到超过 2 亿个结构,扩大超过 200 倍,这一进展将极大地提升人们对于生物学的理解。



AlphaFold 能够预测出几乎所有已知蛋白质的结构(图片来源:DeepMind)

 

“基本上你可以认为它涵盖了整个蛋白质领域,”DeepMind 首席执行官 Demis Hassabis 在新闻发布会上说。“我们正开启数字生物学新时代的大门。”

为什么了解和预测蛋白质折叠结构很重要?

 

我们的生命离不开蛋白质。蛋白质是一切生命活动的基础物质,它是运输氧气的载体,是帮助抵御病毒的抗体,也是消化食物的酶。蛋白质之所以能够承担多种多样的功能,很大程度上是因为它们具有丰富而复杂的空间结构。

 

蛋白质其实是一种复杂的“生物机器”。每一种蛋白质都有其独特的功能:有的负责在机体内运输代谢物质,比如血红蛋白;有的负责加速生物化学反应,比如淀粉酶;有的负责调节新陈代谢,比如胰岛素;有的则直接构成生物机体组织,比如胶原蛋白等。

 

虽然功能多种多样,但其实所有已知的蛋白质的结构都是由 21 种已知的氨基酸构成的。这些氨基酸当中也只包含碳、氢、氧、氮、硫和硒这六种元素。

 

但是,这些氨基酸在链条上的排列组合、链条的折叠方式,以及最终折叠的结构,决定了蛋白质的最终功能。而蛋白质的 3D 形状或结构决定了它在细胞中的功能。大多数药物都是使用结构信息设计的,准确的图谱通常是发现蛋白质如何工作的第一步。

 

因此,准确了解蛋白质的折叠结构对于生命科学、环境科学等人类目前面对的重要课题都十分关键。

 

伦敦大学学院的计算生物学家 Christine Orengo 说:“我们正在为释放这个巨大的宝库做准备,AlphaFold 数据库能为我们预测所有数据真是太棒了。”

AlphaFold 到底强在哪?

 

去年 AlphaFold 2 的发布就在生命科学界引起了轰动,生物界一直充分利用该工具寻求生物技术上的突破。

 

AlphaFold 网络可以对蛋白质的 3D 形状或结构进行高度准确的预测。那么 AlphaFold 出现之前,科学家们是如何预测蛋白质折叠结构的?在传统上,科学家会使用例如 X 射线晶体学和低温电子显微镜来解析蛋白质结构,但这种方法是非常耗时且昂贵的实验方法。

 

新发布的 AlphaFold 数据库中几乎所有已知的蛋白质都将助力新研究的开展。Orengo 的团队已经使用 AlphaFold 数据库来识别新型蛋白质家族,他们现在将在更大范围内进行这项工作。

 

Christine Orengo 表示,她的实验室还将使用扩展的数据库来了解具有有用特性的蛋白质的进化,例如那些可能导致癌症的物质。在数据库中识别这些蛋白质的远亲可以查明它们特性的基础。

 

首尔国立大学的计算生物学家 Martin Steinegger 帮助开发了基于云的 AlphaFold 版本,他很高兴看到数据库的扩展。但他表示,“研究人员可能仍需要自己运行网络”。人们越来越多地使用 AlphaFold 来确定蛋白质如何相互作用,而这样的预测不在数据库中。通过对来自土壤、海水和其他“宏基因组”来源的遗传物质进行测序,也无法鉴定出微生物蛋白质。

 

Steinegger 补充说“扩展的 AlphaFold 数据库的一些复杂应用程序可能还依赖于下载其全部 23 TB 的内容,这对许多团队来说是不可行的。基于云的存储也可能证明成本高昂。“

 

Steinegger 与人共同开发了一个名为 FoldSeek 的软件工具,它可以快速找到结构相似的蛋白质,并且应该能够大大压缩 AlphaFold 数据。

 

即使包含了所有已知的蛋白质,AlphaFold 数据库也需要随着新生物的发现而更新。随着新的结构信息可用,AlphaFold 的预测也将进行改进。

AlphaFold 的发布,力证了 AI 可以推动人类进步

 

AlphaFold 的最新的更新意味着主流蛋白质数据库 UniProt 上的大多数页面上都带有“蛋白质预测结构”这个功能。研究者可以通过谷歌云公共数据集(Google Cloud Public Datasets)下载 2 亿多个结构,让世界各地的科学家更容易访问 AlphaFold。

 

Scripps 转化研究所创始人 Eric Topol 表示:“AlphaFold 是生命科学领域独一无二且具有里程碑意义的重大突破,展示了 AI 的力量。过去确定蛋白质的 3D 结构需要数月或数年,现在只需几秒钟。AlphaFold 让蛋白质 3D 结构能更快、更大规模地被发现,包括破解核孔复合体的结构。随着 AlphaFold 新版本的发布,里面预测的蛋白质结构几乎囊括了整个宇宙中所有的蛋白质结构,我们可以期待每天都有更多的生物谜团被解开。”

 

自 AlphaFold 发布以来,已经产生了极其重大的影响。

 

DeepMind 表示,“AlphaFold 的成功尤其值得,因为它是我们构建过的最复杂的AI系统,需要多项关键创新,也因为它对下游产生了十分有意义的影响。AlphaFold 展示了人工智能可以精确预测蛋白质的形状,甚至精确到原子精度、精确到尺寸、精确到分钟,它不仅为一项长达 50 年的重大挑战提供了解决方案,还成为了我们对 AI 能力的预判提供了第一个重大证据:AI 可以显著加快科学发现,进而推动人类进步。”

 

迄今为止,来自 190 个国家 / 地区的超过 50 万名研究人员访问了 AlphaFold DB,查看了超过 200 万个结构。一些免费提供的蛋白质结构也已被集成到了其他公共数据集中,例如 Ensembl、UniProt 和 OpenTargets,被数百万用户访问。

 

参考链接:

 

https://www.nature.com/articles/d41586-022-02083-2

https://www.yangtse.com/zncontent/1094405.html

https://www.deepmind.com/blog/alphafold-reveals-the-structure-of-the-protein-universe

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2022-07-29 18:254469
用户头像
李冬梅 加V:busulishang4668

发布了 810 篇内容, 共 378.5 次阅读, 收获喜欢 999 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

ControlNet: 控制扩散模型的魔法

Zilliz

AIGC Towhee Stable Diffustion controlnet

LLMs 诸神之战:LangChain ,以【奥德赛】之名

Zilliz

Milvus AIGC LLM langchain

“伙伴+华为”体系,数字时代的新航标

脑极体

伙伴 体系

10个提高工作效率的Cinema 4D小技巧

Finovy Cloud

C4D

2023-05-17:一个正整数如果能被 a 或 b 整除,那么它是神奇的。 给定三个整数 n , a , b ,返回第 n 个神奇的数字。 因为答案可能很大,所以返回答案 对 10^9 + 7 取模

福大大架构师每日一题

Go 算法 rust 福大大

AI赋能低代码,助力企业数智化转型

这我可不懂

人工智能 低代码 JNPF

开源赋能 普惠未来|360集团寄语2023开放原子全球开源峰会

开放原子开源基金会

C语言编程—变量的构成

二哈侠

图数据库 NebulaGraph 的内存管理实践之 Memory Tracker

NebulaGraph

数据库 内存管理 图数据库

浅谈中小企业为何放弃自媒体营销:定位不准、期望值过高、缺乏专业团队

石头IT视角

MobTech ShareSDK|助力预热618

MobTech袤博科技

融云 WICC 2023 定档!「出海嘉年华」穂城来袭!

融云 RongCloud

通信 社交 融云 出海 wicc

软件测试 | spyne开发接口

测吧(北京)科技有限公司

测试

生产环境质量保障的重要性

老张

质量保障 稳定性保障

4大特性看Huawei Cloud EulerOS为开发者带来平滑迁移体验

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 5 月 PK 榜

Neuron 提供免费无限时试用:完整体验数十种工业协议连接

EMQ映云科技

工业物联网 网关软件 工业协议

广西高等教育学会高校教育技术委员会莅临瑞云科技考察交流

3DCAT实时渲染

虚拟仿真 元宇宙 实时渲染云

Golden Gate (GGX) 启动公测,下一代创新DeFi和跨链 dApps 征程开始

股市老人

“全球金牌课程”6月17-18日 · CSM认证在线周末班【提前报名特惠】CST导师亲授

ShineScrum捷行

Scrum 敏捷

“敏捷教练必修课程”7月22-23日 ·A-CSM认证在线周末班【提前报名特惠】CST导师亲授

ShineScrum捷行

Scrum 敏捷 敏捷精髓 敏捷实践 A-CSM

【论文分享|SIGMOD'22】WeTune 自动发现和验证重写规则

Databend

国产操作系统如何构建自己的生态

Onegun

国产化 国产操作系统

软件测试 | 开发接口

测吧(北京)科技有限公司

测试

软件测试/测试开发丨学习笔记之列表、元组、集合

测试人

Python 软件测试 自动化测试 列表 测试开发

亚马逊云科技 一周回顾 – 2022 年 7 月 18 日

亚马逊云科技 (Amazon Web Services)

Amazon

Django笔记三十之log日志记录详解

Hunter熊

Python django 日志 log

领先芯片供应商u-blox通过Perforce Helix Core加强协作,实现基于组件的开发

龙智—DevSecOps解决方案

组件化 芯片设计

小程序6大开发框架对比分析

Onegun

小程序 小程序框架 小程序容器

软件测试 | 接口测试

测吧(北京)科技有限公司

测试

2023 年度中国 DevOps 现状调查|有奖问卷

CODING DevOps

DevOps 云端IDE cloudstudio

开源赋能 普惠未来|浪潮集团寄语2023开放原子全球开源峰会

开放原子开源基金会

又一大突破!DeepMind AI工具破解了几乎所有已知的蛋白质_大数据_李冬梅_InfoQ精选文章