AICon 深圳站 Keynote 嘉宾官宣!共探AI价值转化的实践路径 了解详情
写点什么

DeepSeek 发布用于形式化数学证明的开源 LLM Prover-V2

作者:Vinod Goje

  • 2025-05-19
    北京
  • 本文字数:1749 字

    阅读完需:约 6 分钟

大小:863.83K时长:04:54
DeepSeek发布用于形式化数学证明的开源LLM Prover-V2

DeepSeek发布了DeepSeek-Prover-V2,这是一个新的开源大型语言模型,专门用于Lean 4中的形式化定理证明。这个模型构建在该公司的DeepSeek-V3基础模型支撑的递归定理证明流水线之上。Lean 4 是微软研究院开发的交互式定理证明助手 Lean theorem prover 的最新版本。这种函数式编程语言和交互式的定理证明系统允许数学家和计算机科学家编写经过机器检查验证的形式化证明。

 

该项目利用通用 LLM 的能力来处理形式化定理证明的结构化领域的问题,向连接形式化和非形式化数学推理迈出了一步。据研究人员称,他们的方法将复杂的定理分解成更易于管理的组件,从而反映了人类的证明构建方法。

 

DeepSeek 研究团队扩展了他们的评估框架,专门为形式化定理证明评估设计了新的基准集

 

研究人员解释说:“除了标准基准,我们还引入了ProverBench,这是一个包含 325 个形式化问题的集合,其中包括从最近的美国数学邀请赛(American Invitational Mathematics Examination,AIME)竞赛(第 24-25 届)中选出的 15 个问题,以丰富我们的评估内容”。


图 1 | 来源:ProverBench - AIME 和教科书问题的形式化

 

对这些 AIME 问题的初步测试结果表明,他们的专门定理证明模型性能很好。研究小组报告说,DeepSeek-Prover-V2 成功解决了 15 个 AIME 问题中的 6 个,而通用 DeepSeek-V3 模型在使用多数投票技术时则解决了 8 个。


图 2 | 来源:DeepSeek-Prover-V2 的基准性能


图 3 | 来源:将子目标分解为一系列 Lemma 语句

 

该团队介绍说,“众所周知,通用模型很难生成完整的Lean证明,因为我们会指示 DeepSeek-V3 只生成高级别的证明草图,忽略掉具体的细节。由此生成的思维链最终形成一个 Lean 定理,它由一系列的 have 语句组成,每个语句均以 sorry 占位符结尾,表示有待解决的子目标。这种方式模仿了人类构建证明的方式,也就是将复杂的定理逐步转化为一系列更易于处理的引理。”

 

然后,系统会采用一种有条理的策略,逐一解决证明的每一个组成部分,从而创造出一种结构化的定理证明方法,这种方法建立在先前已取得的结果基础之上。

 

研究人员详细介绍说:“利用 DeepSeek-V3 生成的子目标,我们采用递归求解策略来系统性地解决每个中间证明步骤。我们从 have 语句中提取子目标表达式,用它们来替代给定问题中的原始目标(参见图 3(a)),然后将前面的子目标作为前提(参见图 3(b))。这种构造方式使后续的子目标可以利用前面步骤的中间结果来解决,从而促进了更局部化的依赖结构,并有利于开发更简单的引理”。

 

为了优化计算资源,该系统采用了一个较小的专用 7B 参数模型来处理分解的引理,这有助于管理大量证明搜索的计算需求。当所有分解步骤都成功解决后,该方法最终会自动推导出完整的证明。

 

研究人员介绍说,“该算法框架分两个阶段运行,利用了两个互补的模型:DeepSeek-V3用于引理分解,7B 证明模型用于完成相应的形式化证明细节。”

 

这种架构为合成形式化推理数据建立了一个自然的途径,能够有效地将高级数学推理与严格的形式化验证要求融合在一起。

 

据研究人员介绍,“我们整理了一组 7B 证明模型无法端到端解决的具有挑战性的问题子集,但它们分解后的子目标都已成功解决。通过组合所有子目标的证明,我们为原始问题构建了一个完整的形式化证明”。

 

尽管在技术上取得了不错的成就,但一些专家还是对实现细节表示了担忧。Epoch AI 公司的首席数学家Elliot Glazer指出了这项研究的潜在问题

 

对 DeepSeek-Prover-V2 的论文有一些担忧。Lean zulip 上的讨论表明,PutnamBench的证明是不合理的,并且使用了隐含的 sorry(可能隐藏在 apply?中),并没有在 read-eval-print-loop 中报道。

 

这些问题凸显了形式化验证领域正在面临的挑战,因为精确的实现细节会对结果的有效性产生重大影响。

 

DeepSeek 发布了两种不同规模模型的 Prover-V2,分别是基于之前 Prover-V1.5-Base 的7B参数版本,它具有高达 32K 标记的扩展上下文长度,以及基于 DeepSeek-V3-Base 的更大671B参数版本。这两个模型现在都可以在HuggingFace上找到,同时还有包含 325 个形式化问题的完整ProverBench数据集,这主要用于进行评估。对形式化定理证明感兴趣的研究人员和开发人员可以访问这些资源,探索这项技术的能力和局限性,并为解决该领域的专家所提出的问题做出贡献。

 

查看英文原文:DeepSeek Launches Prover-V2 Open-Source LLM for Formal Math Proofs

2025-05-19 14:003568

评论

发布
暂无评论

一文让你知道为什么电力行业需要堡垒机

行云管家

电力 等保 堡垒机

IROS 2020 OCRTOC比赛总结 - Team PHAI Robotics

阿里云天池

TDengine 签约协鑫鑫光,优化光伏数据管理

TDengine

nvme磁盘故障注入方法

天翼云开发者社区

nvme 磁盘 磁盘故障

99元做自己网站的管理员

coxi_vv

开源 建站 halo 1Panel 飞致云

支持S3协议的S3cmd工具简单使用

天翼云开发者社区

云计算 S3 cmd

利用Python和API接口获取1688商品列表数据的方法

tbapi

1688 1688API 1688商品列表数据接口 关键词搜索1688接口

一本小册子,咋就让IT人水灵灵地「由I变E」了?

脑极体

AI

【参赛总结】第二届云原生编程挑战赛-冷热读写场景的RocketMQ存储系统设计 - Ninety Percent 战队

阿里云天池

Go语言手写本地 LRU 缓存

FunTester

不只是前端,后端、产品和测试也需要了解的浏览器知识(二)

京东科技开发者

机器学习算法: 朴素贝叶斯(Naive Bayes)

阿里云天池

NFS v3及v4协议区别

天翼云开发者社区

云计算 NFS

深入探索:淘宝/天猫商品详情API返回值实战解析与应用

代码忍者

API 接口 API 测试

记一次 Python 应用开发频繁假死的问题

我再BUG界嘎嘎乱杀

Python 编程 后端 开发语言

三十分钟入门基础Go(Java小子版)

京东科技开发者

京粉智能推广助手-LLM based Agent在联盟广告中的应用与落地

京东科技开发者

5 大场景上手通义灵码企业知识库 RAG

阿里巴巴云原生

阿里云 云原生 通义灵码

SaaS应用加速问题怎么解决?

Ogcloud

SD-WAN SD-WAN组网 SD-WAN服务商 SaaS应用加速 SaaS加速

一文带您了解如何降低对象存储成本

天翼云开发者社区

对象存储 天翼云

一本小册子,咋就让IT人水灵灵地「由I变E」了?

白洞计划

AI

如何创建良好的数据模型?

NocoBase

低代码 数据模型 无代码

京东商品详情API:解锁数据分析与决策支持的新商业价值

代码忍者

5 大场景上手通义灵码企业知识库 RAG

阿里云云效

阿里云 云原生 通义灵码

爱在七夕,巧手编织浪漫云端 —— 用1Panel为她的世界添一抹不凡

coxi_vv

七夕 建站 halo 1Panel 恋爱代码

【YashanDB数据库】YAS-02024 lock wait timeout, wait time 0 milliseconds

YashanDB

yashandb 崖山数据库

DeepSeek发布用于形式化数学证明的开源LLM Prover-V2_AI&大模型_InfoQ精选文章