AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

谷歌超强 AI Agent 登场:攻克 300 年数学难题、改进芯片设计!编程迎来 AlphaGo 时刻?

  • 2025-05-15
    北京
  • 本文字数:3509 字

    阅读完需:约 12 分钟

大小:1.66M时长:09:41
谷歌超强AI Agent 登场:攻克300年数学难题、改进芯片设计!编程迎来AlphaGo时刻?

昨晚,科技圈又炸锅了!

 

谷歌 DeepMind 又放出了大招——历时一年半钻研的 AlphaEvolve 终于亮相了。这个由 Gemini 驱动的 AI 智能体,简直就是个会自我进化的“解题机器”。

 

项目地址:https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/ 

 

简单来说,它就像个超级学霸:将谷歌 Gemini 解决创造性问题的能力和能验证答案的自动评估器相结合,然后用进化框架来优化最有潜力的想法。

 

这项成就已经被《Nature》刊登,它的厉害之处在于刚出道就破了数学界 53 年纪录:用 48 步计算搞定 4x4 复数矩阵乘法(相当于把祖传的“珠算口诀”给优化了)。

 

它不只会算矩阵——几何题、数独谜、质数猜想...50 多个数学领域的未解难题也都不在话下。

 

但 DeepMind 团队的说法很实在:“这 AI 不是来替代数学家的,是来当助手的。” 也就是说,DeepMind 将它定位为一款“Agent”,毕竟它最擅长的就是把人类要花几个月验证的想法,压缩到几小时里试错迭代。

 


值得注意的是,华裔数学家、菲尔兹奖得主陶哲轩也参与了该项目,他在社交平台发文称,

 

“我(与 Javier Gomez-Serrano 一起)正与谷歌 DeepMind 的一个团队合作,探索其工具 “AlphaEvolve”(其早期工具 “Funsearch” 的后续产品,该工具于今日公开宣布)在数学领域的潜在应用。大致来说,这是一种能够尝试对函数 F (x) 进行极值化的工具,其中 x 取值于高维参数空间 Ω。当参数空间维度极高且函数 F(及其极值点)具有非明显结构特征时,该工具的表现可能优于更传统的优化算法。

 

我们已尝试将该工具应用于一些初步问题,包括涉及调和分析不等式、加性组合学和堆积问题的相关内容,这些在公告中已有提及;我们现在正逐步转向更具挑战性的问题,这类问题的参数空间中优质解的集合更为稀疏。这项工作仍在进行中,但我希望在接近完成时(可能在几个月后)能够汇报更多进展。”

 


业内怎么看?

 

目前,AlphaEvolve 已被部署在谷歌数据中心、芯片设计以及 AI 训练系统当中,在提升效率的同时,也解决了不少困扰研究人员几十年的数学难题。

 

谷歌 DeepMind 研究员 Matej Balog 在接受采访时解释道,“AlphaEvolve 是一款由 Gemini 驱动的 AI 编码智能体,能够在计算和数学领域取得新发现。它可以提出极其复杂的算法——往往超过数百行代码,且复杂的逻辑结构远非平常函数可以比肩。”

 

该系统通过演进整体代码库、而非特定函数,极大扩展了谷歌此前在 FunSearch 项目上的成果。它代表着 AI 在开发复杂算法以应对科学挑战和日常计算问题方面,再次实现了重大飞跃。

 

AlphaEvolve 的发布迅速引发热议。

 

在 X 平台上,AI 初创创始人 Justin Halford 惊叹 AlphaEvolve 超人编码能力,并称编程将在 10 年内迎来它的 AlphaGo 时刻。

 


也有人认为,这就是未来学习思考的方式,人工智能不仅仅是解决问题,它正在解锁智力的维度。

 


AI 创企 Rediminds 公司也发文对 AlphaEvolve 表示祝贺,并认为 AlphaEvolve 的出现标志着一种范式转变:

 

“人工智能不仅应用算法,更能创造算法。通过将 LLM 驱动的提案生成与自动化、严格的评估循环相融合,它已经提供了新的矩阵乘法例程,并在数十个开放数学问题上超越了人工设计的解决方案。”


计算效率提升 0.7%:AI 创造算法接管运行公司数据中心

 

AlphaEvolve 在谷歌内部默默运转了一年有余,且成果已经十分显著。

 

它发现的一种算法正在驱动谷歌的大规模集群管理系统 Borg。这种启发式调度算法平均可释放谷歌全球基础设施中 0.7%的计算资源——以搜索巨头的规模而言,这样的效率提升可谓相当惊人。

 

这项成果针对的是所谓“搁浅资源”——即那些某种资源已被耗尽(如内存)、但其余资源类型仍有剩余(如 CPU)的可用设备。AlphaEvolve 提出的解决方案之所以极其价值,是因为它能够生成简单易读的代码,以供工程师们轻松解释、调试和部署。

 

这款 AI 智能体的应用范围远不止于数据中心。它还重写了谷歌部分硬件设计,找到新方法来消除张量处理单元(TPU)关键运算电路中不必要的比特位。TPU 设计人员验证了这一改进并确认可行,其将被应用于后续推出的芯片设计当中。

 

更令人印象深刻的是,AlphaEvolve 还改进了驱动其自身的系统。它优化了用于训练 Gemini 模型的矩阵乘法内核,将该运算的速度提升了 23%、借此将整体训练时间缩短了 1%。对于在少量计算网格上训练的 AI 系统来说,这样的效率提升足以实现可观的电力与资源节约效果。

 

另一位 DeepMind 研究员 Alexander Novikov 在采访时表示,“我们努力寻找能够加速并尽可能发挥重要作用的关键部件。我们得以将一个重要内核的实际运行速度优化了 23%,意味着将整个 Gemini 训练卡的端到端性能节约下 1%。”

打破 Strassen 保持 56 年的矩阵简洁记录

 

AlphaEvolve 解决了困扰人类专家几十年的数学难题,同时推动了现有系统的进步。

 

该系统设计了一种基于梯度的新颖优化程序,进而发现了多种新的矩阵乘法算法。其中一项发现,直接打破了一项保持了 56 年的数学记录。

 

Balog 在谈到 DeepMind 之前的专用矩阵乘法系统时表示,“说实话,最让人惊讶的是虽然 AlphaEvolve 其实是一项更强调通用性的技术,但它的结果甚至比 AlphaTensor 还要好。对于这些 4 x 4 矩阵,AlphaEvolve 首次找到一种超越 Strassen 1969 年算法的新解法。”

 

这项突破使得两个 4 x 4 复值矩阵相乘只需要 48 次标量乘法,优于此前的 49 次——自 Volker Strassen 当初发表的里程碑成果以来,数学家们一直未能突破这个难题。根据研究论文,AlphaEvolve 共“改进了 14 种矩阵乘法算法的最优解”。

 

该系统的数学应用范围远远超出了矩阵简洁。在针对数学分析、几何学、组合学及数论领域 50 多个未解决问题进行测试时,AlphaEvolve 在约 75%的案例中给出了与最先进解法相媲美的结果。而在约 20%的案例中,它的答案甚至比已知最佳解法还要先进。

 

“接吻数问题”也取得了重大突破——这是一个有着数百年历史的几何学挑战,旨在确定有多少个不重叠的单位球体能够同时接触一个中心球体。在 11 维空间上,AlphaEvolve 发现了包含 593 个球体的配置方式,打破了之前 592 个球体的记录。

怎么做到的?


AlphaEvolve 与其他 AI 编码系统的最大区别,在于其采用的进化方法。

 

该系统同时部署有 Gemini Flash(以提升速度)和 Gemini Pro(以提升深度),借此对现有代码提出修改建议。这些修改会由自动评估器进行测试,并针对每个变化进行评分。最成功的算法将引导下一轮进化。

 

AlphaEvolve 不仅仅是根据训练数据生成代码。它还会主动探索解法空间,发现新颖方法,并通过自动评估流程对其进行改进,最终创造出人类可能从未想到过的解法。

 

Novikov 解释道,“我们方法中的一个关键理念,在于专注具有明确评估方式的问题。对于任何提出的解法或代码片段,我们都可以自动验证其有效性并衡量方法质量。如此一来,我们就能建立起快速可靠的反馈循环来改进整个系统。”

 

这种方法之所以极具价值,是因为该系统可以处理一切具有明确评估指标的问题——既包括数据中心的能源效率,也涉及优雅的数学证明。

 

DeepMind 表示,在实验中,AlphaEvolve 系统可以帮助优化谷歌用于训练其 AI 模型的部分基础设施。他们正在构建一个用于与 AlphaEvolve 交互的用户界面,并计划在可能进行更广泛推广之前,先为选定的学者推出一个早期访问计划。

 

大多数人工智能模型都会产生幻觉。由于其概率架构,它们有时会自信地编造一些事情。事实上,像 OpenAI 的 o3 这样的较新的人工智能模型比它们的前几代产品更容易产生幻觉,这说明了这个问题的挑战性。

 

AlphaEvolve 引入了一种巧妙的机制来减少幻觉:自动评估系统。该系统使用模型生成、评估并得出一个问题的可能答案池,并自动评估和评分答案的准确性。

 

 

DeepMind 实验室表示,其 AlphaEvolve 系统旨在供领域专家使用

 

谷歌算法驱动型 AI 的下一步发展方向

 

AlphaEvolve 目前被部署在谷歌的基础设施与数学研究当中,但其潜力远不止于此。谷歌 DeepMind 设想将其应用于材料科学、药物研发以及其他需要复杂运算解法的领域。

 

Novikov 强调该系统的协作潜力时指出,“最佳人机协作有助于解决开放的科学挑战,并将成果应用在谷歌规模的庞大业务体系当中。”

 

谷歌 DeepMind 目前正与其“人机协同”研究团队合作开发用户界面,并计划面向部分学术研究人员推出早期访问计划。该公司还在探索更广泛的项目应用空间。

 

该系统拥有显著的灵活性优势。Balog 指出,“至少在我从事机器学习研究工作之前,我还很少见到哪种科学工具能够快速起效并产生如此规模的实际影响。这真的非常罕见。”

 

随着大语言模型的进步,AlphaEvolve 的功能也将随之增强。该系统展示了 AI 自身的一种有趣演变——从谷歌服务器的数字化疆域开始,优化赋予自身生命的硬件和软件。如今,这份成果已经大大延伸,开始解决困扰人类几十年甚至几个世纪的巅峰难题。

 

2025-05-15 17:097965

评论

发布
暂无评论

Golang channel 通道

escray

学习 极客时间 Go 语言 6月日更

模块5作业

wade

#架构实战营

架构实战营 模块五:课后作业

👈

架构实战营

架构实战营 模块五:学习总结

👈

架构实战营

看来,MySQL next-key lock 的 bug 并没有被修复!

程序员小航

MySQL 数据库锁

架构实战营 - 模块 5- 作业

请弄脏我的身体

架构实战营

3种面向“对象”编程,你是哪一种?

凌晞

架构 研发管理

音频和视频流最佳选择?SRT协议解析及报文识别

明儿

音视频 协议 流媒体开发

网络攻防学习笔记 Day36

穿过生命散发芬芳

网络攻防 6月日更

Python位运算符——详解

在即

6月日更

如果父母依旧辛苦,那我们的成长又有什么意义?

牧小农

故事 父母

JSON.parse无双引号如何实现转换

吴脑的键客

JavaScript

Go并发编程-channel多路复用

Rayjun

Go 语言 select

设计微博系统中”微博评论“的高性能高可用计算架构

方堃

可落地的积极心态

蛋先生DX

心态 6月日更

【译】JavaScript 代码整洁之道-函数篇

KooFE

JavaScript 大前端 函数 6月日更 整洁代码

【Vue2.x 源码学习】第五篇 - 数组的劫持

Brave

源码 vue2 6月日更

高级软件工程师必备的五大技能

架构精进之路

6月日更 软素质

Go 并发基础

Damon

Go 语言 6月日更

使用 Docker 安装并连接 MySQL

程序员小航

MySQL Docker

Java 并发编程—— CountDownLatch 应用

Antway

6月日更

商业模式创新

soho

架构训练营模块5作业

Neil43

架构训练营

MySQL普通索引的加锁

程序员小航

MySQL 数据库锁

Hadoop实战篇(1)

进击的梦清

大数据 hadoop Linux

模块5 设计微博系统中”微博评论“的高性能高可用计算架构

Chris Cheng

架构实战营

web ssh解决方案——WGCLOUD

王逅逅

zabbix linux运维 运维监控

MySQL next-key lock 加锁范围是什么?

程序员小航

MySQL 索引 数据库锁 主键

权限与认证:基于JWT的授权实现

程序员架构进阶

架构 JWT 认证授权 28天写作 6月日更

标识符与保留字(即关键字)

在即

6月日更

身为程序员 你真的会使用github搜索吗?

madison

GitHub GitHub Pages 高效搜索 搜索技巧

谷歌超强AI Agent 登场:攻克300年数学难题、改进芯片设计!编程迎来AlphaGo时刻?_Google_李冬梅_InfoQ精选文章