AICon上海「Agent与多模态解决方案专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

DeepSeek 发布用于形式化数学证明的开源 LLM Prover-V2

作者:Vinod Goje

  • 2025-05-19
    北京
  • 本文字数:1749 字

    阅读完需:约 6 分钟

大小:863.83K时长:04:54
DeepSeek发布用于形式化数学证明的开源LLM Prover-V2

DeepSeek发布了DeepSeek-Prover-V2,这是一个新的开源大型语言模型,专门用于Lean 4中的形式化定理证明。这个模型构建在该公司的DeepSeek-V3基础模型支撑的递归定理证明流水线之上。Lean 4 是微软研究院开发的交互式定理证明助手 Lean theorem prover 的最新版本。这种函数式编程语言和交互式的定理证明系统允许数学家和计算机科学家编写经过机器检查验证的形式化证明。

 

该项目利用通用 LLM 的能力来处理形式化定理证明的结构化领域的问题,向连接形式化和非形式化数学推理迈出了一步。据研究人员称,他们的方法将复杂的定理分解成更易于管理的组件,从而反映了人类的证明构建方法。

 

DeepSeek 研究团队扩展了他们的评估框架,专门为形式化定理证明评估设计了新的基准集

 

研究人员解释说:“除了标准基准,我们还引入了ProverBench,这是一个包含 325 个形式化问题的集合,其中包括从最近的美国数学邀请赛(American Invitational Mathematics Examination,AIME)竞赛(第 24-25 届)中选出的 15 个问题,以丰富我们的评估内容”。


图 1 | 来源:ProverBench - AIME 和教科书问题的形式化

 

对这些 AIME 问题的初步测试结果表明,他们的专门定理证明模型性能很好。研究小组报告说,DeepSeek-Prover-V2 成功解决了 15 个 AIME 问题中的 6 个,而通用 DeepSeek-V3 模型在使用多数投票技术时则解决了 8 个。


图 2 | 来源:DeepSeek-Prover-V2 的基准性能


图 3 | 来源:将子目标分解为一系列 Lemma 语句

 

该团队介绍说,“众所周知,通用模型很难生成完整的Lean证明,因为我们会指示 DeepSeek-V3 只生成高级别的证明草图,忽略掉具体的细节。由此生成的思维链最终形成一个 Lean 定理,它由一系列的 have 语句组成,每个语句均以 sorry 占位符结尾,表示有待解决的子目标。这种方式模仿了人类构建证明的方式,也就是将复杂的定理逐步转化为一系列更易于处理的引理。”

 

然后,系统会采用一种有条理的策略,逐一解决证明的每一个组成部分,从而创造出一种结构化的定理证明方法,这种方法建立在先前已取得的结果基础之上。

 

研究人员详细介绍说:“利用 DeepSeek-V3 生成的子目标,我们采用递归求解策略来系统性地解决每个中间证明步骤。我们从 have 语句中提取子目标表达式,用它们来替代给定问题中的原始目标(参见图 3(a)),然后将前面的子目标作为前提(参见图 3(b))。这种构造方式使后续的子目标可以利用前面步骤的中间结果来解决,从而促进了更局部化的依赖结构,并有利于开发更简单的引理”。

 

为了优化计算资源,该系统采用了一个较小的专用 7B 参数模型来处理分解的引理,这有助于管理大量证明搜索的计算需求。当所有分解步骤都成功解决后,该方法最终会自动推导出完整的证明。

 

研究人员介绍说,“该算法框架分两个阶段运行,利用了两个互补的模型:DeepSeek-V3用于引理分解,7B 证明模型用于完成相应的形式化证明细节。”

 

这种架构为合成形式化推理数据建立了一个自然的途径,能够有效地将高级数学推理与严格的形式化验证要求融合在一起。

 

据研究人员介绍,“我们整理了一组 7B 证明模型无法端到端解决的具有挑战性的问题子集,但它们分解后的子目标都已成功解决。通过组合所有子目标的证明,我们为原始问题构建了一个完整的形式化证明”。

 

尽管在技术上取得了不错的成就,但一些专家还是对实现细节表示了担忧。Epoch AI 公司的首席数学家Elliot Glazer指出了这项研究的潜在问题

 

对 DeepSeek-Prover-V2 的论文有一些担忧。Lean zulip 上的讨论表明,PutnamBench的证明是不合理的,并且使用了隐含的 sorry(可能隐藏在 apply?中),并没有在 read-eval-print-loop 中报道。

 

这些问题凸显了形式化验证领域正在面临的挑战,因为精确的实现细节会对结果的有效性产生重大影响。

 

DeepSeek 发布了两种不同规模模型的 Prover-V2,分别是基于之前 Prover-V1.5-Base 的7B参数版本,它具有高达 32K 标记的扩展上下文长度,以及基于 DeepSeek-V3-Base 的更大671B参数版本。这两个模型现在都可以在HuggingFace上找到,同时还有包含 325 个形式化问题的完整ProverBench数据集,这主要用于进行评估。对形式化定理证明感兴趣的研究人员和开发人员可以访问这些资源,探索这项技术的能力和局限性,并为解决该领域的专家所提出的问题做出贡献。

 

查看英文原文:DeepSeek Launches Prover-V2 Open-Source LLM for Formal Math Proofs

2025-05-19 14:002

评论

发布
暂无评论

【ACL 2023】面向轻量化文图检索的Dual-Encoder模型蒸馏算法ConaCLIP

阿里云大数据AI技术

人工智能 自然语言处理 算法 nlp 企业号 7 月 PK 榜

向量数据库的崛起:从矢量搜索到深度学习 (一)

极限实验室

自然语言处理 深度学习 Embedding 向量数据库 矢量搜索

【HDC.Cloud 2023】小白与AI在华为云Codelabs的第一次邂逅

华为云PaaS服务小智

软件开发 华为云 华为开发者大会 代码示例

火山引擎 DataLeap 构建Data Catalog系统的实践(二):技术与产品概览

字节跳动数据平台

D3可视化

猫九

D3

langchain:Prompt在手,天下我有

程序那些事

#LangChain AI大语言模型 大语言模型

MyBatis查看详情

猫九

StoneDB首席架构师李浩受邀采访:浅谈KPI与开源的可持续发展,认可长期主义很重要

StoneDB

MySQL 数据库 开源社区 StoneDB

成长力量 | 神州数码:我们和阿里云是市场和技术的共同体

新云力量

数字经济 神州数码 成长力量

三种不同的渲染到底是啥?

Finovy Cloud

百度实力担当!大模型标准化“国家队”联合组长

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨 百度飞桨

OpenHarmony 4.0 Beta1发布,邀您体验

OpenHarmony开发者

OpenHarmony

本周精彩直播预告!CXL 技术及应用研究&一站式构建平台 ABS,今天开讲 | 第 85-86 期

OpenAnolis小助手

开源 基础设施 内核 龙蜥大讲堂 abs

“One Size Fits All”:一个过时的想法?| StoneDB 学术分享会 #8

StoneDB

MySQL 数据库 StoneDB

PyTorch模型创建与nn.Module

timerring

PyTorch

vue基础知识

猫九

Vue

百度 App 启动性能优化实践篇

百度Geek说

百度 性能优化 企业号 7 月 PK 榜

Spring5 中更优雅的第三方 Bean 注入

江南一点雨

Java spring

华为云CodeArts DevSecOps系列插件——助力更高效的软件研发

华为云PaaS服务小智

华为 软件开发 华为云 华为开发者大会

【ACL2023】基于电商多模态概念知识图谱增强的电商场景图文模型FashionKLIP

阿里云大数据AI技术

人工智能 自然语言处理 nlp 企业号 7 月 PK 榜

多模型构建的多层级权限管控体系

BinTools图尔兹

运维 权限 dba 数据库管理 数据库管控工具

对线面试官-Redis(八 基于哨兵HA的原理)

派大星

Java 面试题

DeepSeek发布用于形式化数学证明的开源LLM Prover-V2_AI&大模型_InfoQ精选文章