写点什么

DeepMind 开源最新奥数级几何推理模型,奥数冠军:它像人一样懂得规则

  • 2024-01-22
    北京
  • 本文字数:2715 字

    阅读完需:约 9 分钟

大小:1.26M时长:07:20
DeepMind 开源最新奥数级几何推理模型,奥数冠军:它像人一样懂得规则

在日前发表在《自然》杂志的论文中,谷歌 DeepMind 介绍了 AlphaGeometry。作为一套 AI 系统,它能够以比肩人类奥数冠军的水平解决复杂的几何问题。

 

在根据 2000 年至 2022 年奥数赛制整理的 30 道几何题基准测试集(IMO-AG-30)中,AlphaGeometry 在标准比赛时间内成功解决 25 道,已经非常接近人类冠军的平均得分。相比之下,此前最先进的 AI 系统(即吴文俊提出的“吴氏方法”)也只能解决 10 道题,而人类冠军则平均解决 25.9 道题。这标志着 AI 性能的又一次突破。



由于缺乏推理技能与训练数据,AI 系统往往难以攻克数学中复杂的几何问题。AlphaGeometry 系统将神经语言模型的预测能力与规则约束推导引擎相结合,以协同方式寻求正确答案。通过开发一种能够生成大量合成训练数据(包含 1 亿个独特示例)的新方法,团队得以在无需任何人类演示的情况下训练 AlphaGeometry,有效回避了数据瓶颈。

 

目前,DeepMind 已经开源 AlphaGeometry 代码及模型,希望配合合成数据生成和训练过程中的其他工具和方法,共同在数学、科学和 AI 领域开创新的可能性。

 

开源地址:https://github.com/google-deepmind/alphageometry

 

采用神经符号方法

 

AlphaGeometry 是一套神经符号系统,由神经语言模型加符号推导引擎组成,希望两相结合以寻求对复杂几何定理的证明。这类似于“快、慢思考相结合”的理念,一个系统提供快速、“直观”的想法,另一系统则做出更加深思熟虑的理性决策。

 

由于语言模型更擅长发现数据中的一般模式和关系,所以能够快速预测可能有用的潜在构造,但却往往缺乏严格推理并解释其决策的能力。另一方面,符号推导引擎则基于形式逻辑,依靠明确的规则来得出结论。后者更理性、可解释性更强,但往往比较“缓慢”且不够灵活——这一点在单独处理大型复杂问题时体现得尤其明显。

 

AlphaGeometry 的语言模型会引导其符号推导引擎为几何问题寻求可能的解。

 

奥数几何问题的题干大多基于图表,需要添加新的几何构造才能解决,例如点、线或圆。AlphaGeometry 的语言模型可以从无数种可能性中预测添加哪些新构造更有助于解题。这些线索能够填补空白,引导符号引擎对图表做进一步推论并逐步趋近正确答案。

 


AlphaGeometry 解决的一个简单问题:给定问题图及其定理前提(左),AlphaGeometry(中)首先使用符号引擎来推导关于图的新表述,直到找出正确解或用尽新表述。

 

如果找不到可行的解,AlphaGeometry 语言模型会添加一种可能有用的构造(蓝色部分,即辅助线)为符号引擎开辟新的推导路径。整个循环不断重复,直到找到正确解为止(右)。在此示例中,只需要一种新构造(一条辅助线)。

 


AlphaGeometry 解决奥数问题:2015 年国际奥数竞赛题(左)与 AlphaGeometry 的精简求解过程(右)。蓝色部分是添加的构造。AlphaGeometry 的解共涉及 109 个逻辑步骤。

 

查看完整解题过程:

https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphageometry-an-olympiad-level-ai-system-for-geometry /AlphaGeometry solution.pdf

 

生成 1 亿个合成数据示例

 

几何求解的基础是对空间、距离、形状和相对位置的正确理解,也是艺术、建筑、工程和诸多其他领域的理论基础。人类可以用纸和笔来学习几何知识,观察图表并运用现有知识来发现新的、更复杂的几何属性及关系。

 

而该系统的合成数据生成方法,也大规模模拟了这种知识构建过程,使 DeepMind 得以从头开始训练 AlphaGeometry、全程无需任何人类演示。

 

该系统利用高度并行计算,首先生成十亿个随机几何对象图,并详尽推导出图中每个点和线之间的所有关系。AlphaGeometry 能够找出各图表中所包含的一切证明,而后进一步探索需要哪些附加构造(如果需要)来得出这些证明。DeepMind 把这个过程称为“符号推导与回溯”。

 


AlphaGeometry 所生成合成数据的视觉表示

 

这个庞大的数据波经过过滤以排除类似的示例,最终产生了包含 1 亿个不同难度独特示例的最终训练数据集,其中有 900 万个都添加了新构造。有了这么多通过添加新构造支持证明的例子,AlphaGeometry 语言模型就能在遇到新题时提出很好的辅助构造建议。

 

利用 AI 进行数学推导

 

AlphaGeometry 提出的每一道奥数题解法,都经过计算机检查和验证。DeepMind 还将结果与之前的 AI 方法以及人类选手在奥赛中的表现做出比较。此外,数学教练、前奥数竞赛 金牌得主 Evan Chen 也帮助对 AlphaGeometry 的解题思路进行评估。

 

Chen 表示,“AlphaGeometry 的输出令人印象深刻,因为答案既可验证又相当简洁。以往,AI 对于竞赛问题的证明存在一定偶然性(结果虽然正确,但需要人工检查)。但 AlphaGeometry 不存在这个弱点:其求解过程始终拥有机器可验证的结构,同时也保持着良好的人类可读性。”

 

“说到机器求解数学题,人们首先想到的往往是那种通过强大坐标系解决几何问题的计算机程序、特别是令人头皮发麻的繁琐代数计算。但 AlphaGeometry 不是这样,它跟人类学生一样懂得使用角度和相似三角形等经典几何规则。”Chen 说道。

 

但由于奥数竞赛总计包含六道问题,其中往往只有两道与几何相关,因此 AlphaGeometry 只能解决竞赛中三分之一的题目。尽管如此,单凭强大的几何求解能力就已经让它成为全球首个能够在 2000 年和 2015 年竞赛中取得铜牌成绩的 AI 模型。

 

而如果将题目限制在几何之内,那么这套系统的成绩几乎可以比肩奥数竞赛的金牌得主。不过 DeepMind 的目标远不止于此,他们还希望推动下一代 AI 系统踏上推理能力的新高峰。

 

考虑到大规模合成数据在从零开始训练 AI 系统方面的广泛潜力,这种方法甚至有望驱动未来 AI 系统在发现数学及其他领域新知识方面做出贡献。

 

结束语

 

“目前,AI 领域的研究人员正尝试从奥数级几何问题入手。我个人对此深表赞同,整个求解过程有点类似国际象棋,即将每一步中的合理操作数量控制在有限范围之内。但我仍然对 AI 系统的实际表现感到惊喜,也为这项令人印象深刻的成就而激动不已。”菲尔兹奖得主兼奥林匹克数学竞赛金牌得主 NGÔ BẢO CHÂU 说道。

 

AlphaGeometry 以 Google DeepMind 和谷歌研究院的工作成果为基础,开创了 AI 数学推导的先河,应用范围涵盖探索纯数学之美、以及使用语言模型解决数学和科学问题。最近,DeepMind 还推出了 FunSearch,首次使用大语言模型在开放式数学科学问题中取得发现。

 

DeepMind 表示,自己的长期目标仍然是构建起拥有跨数学领域泛化能力的 AI 系统,研究通用 AI 系统所必需的复杂问题求解与推理能力,最终帮助人类开拓知识的新前沿。

 

通过 AlphaGeometry,DeepMind 展示了 AI 系统不断增长的逻辑推理能力以及发现/验证新知识的能力。在迈向更先进、更具通用性 AI 系统的道路上,解决奥数级几何问题标志着深度数学推理的又一重大里程碑。

 

相关链接:

https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/

 

2024-01-22 10:275906

评论

发布
暂无评论
发现更多内容

内部排序——插入排序

乔乔

7月月更

Spring Cloud源码分析之Eureka篇第四章:服务注册是如何发起的

程序员欣宸

Java spring Spring Cloud Eureka 7月月更

跬智 Kyligence 入选工信部“工业大数据分析与集成应用重点实验室”工作组成员单位

Kyligence

大数据 Kyligence 工业数据智能

云计算安全扩展要求关注的安全目标和实现方式区分原则有哪些?

行云管家

云计算 等保 等保2.0 云计算安全扩展

Linux透明大页机制在云上大规模集群实践介绍

百度Geek说

Linux 运维 linux 文件权限控制

银行需要搭建智能客服模块的中台能力,驱动全场景智能客服务升级

易观分析

人工智能

得物客服热线的演进之路

得物技术

大前端 客服

【堡垒机】云堡垒机和普通堡垒机的区别是什么?

行云管家

云计算 数据安全 堡垒机 云堡垒机 IT安全

什么是数据泄露

AIWeker

机器学习 Kaggle 数据泄露 7月月更

讲师征集令 | Apache SeaTunnel(Incubating) Meetup 分享嘉宾火热招募中!

Apache SeaTunnel

谈谈 SAP iRPA Studio 创建的本地项目的云端部署问题

汪子熙

SAP 7月月更 iRPA 智能机器人 流程自动化

社会责任·价值共创,中关村网络安全与信息化产业联盟对话网信企业家海泰方圆董事长姜海舟先生

电子信息发烧客

低代码平台中的数据连接方式(下)

Baidu AICLOUD

前端 低代码 爱速搭

如何参与开源项目 - 细说 GitHub 上的 PR 全过程

玩转Devop和研发效能DevStream/DevLake

GitHub 开源 DevOps DevStream

融云斩获 2022 中国信创数字化办公门户卓越产品奖!

融云 RongCloud

Python源码扫描工具Bandit小试牛刀

阿呆

Python Bandit 源码扫描

Python性能分析利器pyinstrument讲解

曲鸟

Python 7月月更

2022PAGC 金帆奖 | 融云荣膺「年度杰出产品技术服务商」

融云 RongCloud

2022年5月互联网医疗领域月度观察

易观分析

互联网医疗

最佳实践 | 用腾讯云AI意愿核身为电话合规保驾护航

牵着蜗牛去散步

人工智能 腾讯云 腾讯 技术干货 电话合规

麒麟信安根植欧拉:共筑中国操作系统崛起之路

脑极体

ORACLE进阶(五)SCHEMA解惑

No Silver Bullet

oracle schema 7月月更

重磅!海泰方圆工业强基智能网联汽车项目顺利通过验收

电子信息发烧客

小程序目录结构

小恺

7月月更

Navigation — 这么好用的导航框架你确定不来看看?

编程的平行世界

android 架构 框架学习 android jetpack

leetcode 241. Different Ways to Add Parentheses 为运算表达式设计优先级(中等)

okokabcd

LeetCode 分治 数据结构与算法

SysOM 案例解析:消失的内存都去哪了 !| 龙蜥技术

OpenAnolis小助手

开源 案例 内存泄漏 龙蜥技术 allocpage

spark调优(三):持久化减少二次查询

怀瑾握瑜的嘉与嘉

spark 7月月更

作战图鉴:12大场景详述容器安全建设要求

青藤云安全

网络安全 解决方案 容器安全

交付效率提升52倍,运营效率提升10倍,看《金融云原生技术实践案例汇编》(附下载)

York

云原生 金融科技 金融行业

DeepMind 开源最新奥数级几何推理模型,奥数冠军:它像人一样懂得规则_AI&大模型_核子可乐_InfoQ精选文章