DeepMind 继 AlphaFold 后再放大招，AlphaGenome 能一次性处理百万碱基对，基因组里的“垃圾代码”这下藏不住了

Google DeepMind 宣布发布 AlphaGenome，这是一款全新的 AI 模型，用于预测遗传变异如何影响整个基因组的基因调控。它在单一的通用架构中，成功结合了长程序列上下文与碱基对级别的高分辨率，是计算基因组学领域的一大重要进步。

AlphaGenome 能够一次性处理多达 100 万个 DNA 碱基对。它还能针对数千种分子模态输出高分辨率预测，涵盖了基因表达、染色质可及性、转录起始位点、RNA 剪接以及蛋白质结合等多个方面。借助该模型，研究人员可以评估常见及罕见变异所造成的影响，其评估范围不仅包括蛋白质编码区，也涵盖了更为复杂、占人类基因组 98%的非编码调控区。

在技术方面，AlphaGenome 结合了两种关键技术。它利用卷积神经网络来检测局部序列基序，并借助 Transformer 来建模长程相互作用。模型的训练数据源自 ENCODE、GTEx、4D Nucleome 和 FANTOM5 的丰富多组学数据集。该架构的性能已达到业界顶尖水准，在 26 项变异效应预测基准中，有 24 项的表现都超越了任务专属模型。

一个显著的创新是 AlphaGenome 能够直接建模 RNA 剪接点，这一特性对于理解许多由剪接错误引起的遗传性疾病至关重要。该模型通过对比突变与参考序列，能够量化变异在各类组织与细胞中的调控影响，为研究疾病相关位点和解读全基因组关联研究（GWAS）提供了关键手段。

训练效率也得到了提升：得益于优化的架构和数据流程，完整的 AlphaGenome 模型仅用 4 小时就在 TPU 上完成了训练，所用的计算预算仅为 DeepMind 早期模型 Enformer 的一半。

该模型已通过 AlphaGenome API 面向非商业性研究开放，科研人员无需整合不同的工具或模型，即可大规模地生成功能性假设。此外，DeepMind 也已表示，计划将该模型进一步扩展，以应用于新的物种、任务及精细化的临床场景。

此次发布也引发了关于 AI 在医疗领域应用的更广泛讨论。AI 对齐研究员 Graevka Suvorov 评论称，医疗 AI 的发展前沿不应仅局限于诊断的准确性，更关键的在于其如何影响患者接收信息后的心理状态。他指出：

AI 若想在医疗领域实现质的飞跃，就必须从一个“图像分析工具”进化为一个懂得如何与“人”沟通的“伙伴”，能够以富有同理心和清晰上下文的方式传递诊断信息，避免技术给患者带来不必要的心理负担。

AlphaGenome 将该领域向这一愿景又推进了一步，它让对基因组的解读更深入、更准确，并为在序列层面理解生物学提供了一个统一的模型。

原文链接：https://www.infoq.com/news/2025/07/deepmind-alpha-genome/

创作场景

DeepMind 继 AlphaFold 后再放大招，AlphaGenome 能一次性处理百万碱基对，基因组里的“垃圾代码”这下藏不住了