写点什么

DeepSeek 发布用于形式化数学证明的开源 LLM Prover-V2

作者:Vinod Goje

  • 2025-05-19
    北京
  • 本文字数:1749 字

    阅读完需:约 6 分钟

大小:863.83K时长:04:54
DeepSeek发布用于形式化数学证明的开源LLM Prover-V2

DeepSeek发布了DeepSeek-Prover-V2,这是一个新的开源大型语言模型,专门用于Lean 4中的形式化定理证明。这个模型构建在该公司的DeepSeek-V3基础模型支撑的递归定理证明流水线之上。Lean 4 是微软研究院开发的交互式定理证明助手 Lean theorem prover 的最新版本。这种函数式编程语言和交互式的定理证明系统允许数学家和计算机科学家编写经过机器检查验证的形式化证明。

 

该项目利用通用 LLM 的能力来处理形式化定理证明的结构化领域的问题,向连接形式化和非形式化数学推理迈出了一步。据研究人员称,他们的方法将复杂的定理分解成更易于管理的组件,从而反映了人类的证明构建方法。

 

DeepSeek 研究团队扩展了他们的评估框架,专门为形式化定理证明评估设计了新的基准集

 

研究人员解释说:“除了标准基准,我们还引入了ProverBench,这是一个包含 325 个形式化问题的集合,其中包括从最近的美国数学邀请赛(American Invitational Mathematics Examination,AIME)竞赛(第 24-25 届)中选出的 15 个问题,以丰富我们的评估内容”。


图 1 | 来源:ProverBench - AIME 和教科书问题的形式化

 

对这些 AIME 问题的初步测试结果表明,他们的专门定理证明模型性能很好。研究小组报告说,DeepSeek-Prover-V2 成功解决了 15 个 AIME 问题中的 6 个,而通用 DeepSeek-V3 模型在使用多数投票技术时则解决了 8 个。


图 2 | 来源:DeepSeek-Prover-V2 的基准性能


图 3 | 来源:将子目标分解为一系列 Lemma 语句

 

该团队介绍说,“众所周知,通用模型很难生成完整的Lean证明,因为我们会指示 DeepSeek-V3 只生成高级别的证明草图,忽略掉具体的细节。由此生成的思维链最终形成一个 Lean 定理,它由一系列的 have 语句组成,每个语句均以 sorry 占位符结尾,表示有待解决的子目标。这种方式模仿了人类构建证明的方式,也就是将复杂的定理逐步转化为一系列更易于处理的引理。”

 

然后,系统会采用一种有条理的策略,逐一解决证明的每一个组成部分,从而创造出一种结构化的定理证明方法,这种方法建立在先前已取得的结果基础之上。

 

研究人员详细介绍说:“利用 DeepSeek-V3 生成的子目标,我们采用递归求解策略来系统性地解决每个中间证明步骤。我们从 have 语句中提取子目标表达式,用它们来替代给定问题中的原始目标(参见图 3(a)),然后将前面的子目标作为前提(参见图 3(b))。这种构造方式使后续的子目标可以利用前面步骤的中间结果来解决,从而促进了更局部化的依赖结构,并有利于开发更简单的引理”。

 

为了优化计算资源,该系统采用了一个较小的专用 7B 参数模型来处理分解的引理,这有助于管理大量证明搜索的计算需求。当所有分解步骤都成功解决后,该方法最终会自动推导出完整的证明。

 

研究人员介绍说,“该算法框架分两个阶段运行,利用了两个互补的模型:DeepSeek-V3用于引理分解,7B 证明模型用于完成相应的形式化证明细节。”

 

这种架构为合成形式化推理数据建立了一个自然的途径,能够有效地将高级数学推理与严格的形式化验证要求融合在一起。

 

据研究人员介绍,“我们整理了一组 7B 证明模型无法端到端解决的具有挑战性的问题子集,但它们分解后的子目标都已成功解决。通过组合所有子目标的证明,我们为原始问题构建了一个完整的形式化证明”。

 

尽管在技术上取得了不错的成就,但一些专家还是对实现细节表示了担忧。Epoch AI 公司的首席数学家Elliot Glazer指出了这项研究的潜在问题

 

对 DeepSeek-Prover-V2 的论文有一些担忧。Lean zulip 上的讨论表明,PutnamBench的证明是不合理的,并且使用了隐含的 sorry(可能隐藏在 apply?中),并没有在 read-eval-print-loop 中报道。

 

这些问题凸显了形式化验证领域正在面临的挑战,因为精确的实现细节会对结果的有效性产生重大影响。

 

DeepSeek 发布了两种不同规模模型的 Prover-V2,分别是基于之前 Prover-V1.5-Base 的7B参数版本,它具有高达 32K 标记的扩展上下文长度,以及基于 DeepSeek-V3-Base 的更大671B参数版本。这两个模型现在都可以在HuggingFace上找到,同时还有包含 325 个形式化问题的完整ProverBench数据集,这主要用于进行评估。对形式化定理证明感兴趣的研究人员和开发人员可以访问这些资源,探索这项技术的能力和局限性,并为解决该领域的专家所提出的问题做出贡献。

 

查看英文原文:DeepSeek Launches Prover-V2 Open-Source LLM for Formal Math Proofs

2025-05-19 14:003449

评论

发布
暂无评论

第67期 | GPTSecurity周报

云起无垠

GreatSQL 异步复制及搭建

GreatSQL

DBeaver 24.2 发布下载,新增功能概览

sysin

数据库 sql 管理工具 Dbeaver

NGINX 和 HAProxy:基于公有云标准环境的用户体验测试对比

NGINX开源社区

读书笔记 开源 最佳实践 反向代理 HAProxy

参赛心得和思路分享:2021第二届云原生编程挑战赛2: 实现一个柔性集群调度机制

阿里云天池

云原生

华为视频独家呈现:发布会开场舞《见非凡》AiMax 版来袭

最新动态

软件测试学习笔记丨Vim编辑器的常用命令

测试人

软件测试

电商数据分析师必备:京东商品详情API返回值解读

技术冰糖葫芦

api 网关 API Gateway API 测试 pinduoduo API

新闻“样板间”提升50%开发效率,20家新闻媒体应用批量鸿蒙化

最新动态

关于粒子滤波的解析

芯动大师

粒子滤波

读书笔记:简单高效的工作方式

老张

读书笔记 团队管理 远程办公

如何高效的匹配、筛选数据,避免嵌套循环

六哥是全栈

Java ts 开发技巧

Go必知必会:掌握Go语言中的Channel,并发编程的核心

王中阳Go

并发 channel Go 语言 GO语言编程

低代码平台与云服务技术研究白皮书

不在线第一只蜗牛

低代码 云服务

议程抢先看!安谋科技、英特尔、浪潮信息、蚂蚁集团等企业大咖齐聚 2024 云栖大会操作系统开源专场

OpenAnolis小助手

操作系统 云栖大会 龙蜥社区 龙蜥操作系统 AIibaba CIoud Linux

爱回收商品详情数据接口

tbapi

爱回收API 爱回收商品详情数据接口

洞悉市场脉搏,从实时监控商品信息开始 —— 淘宝API的力量

技术冰糖葫芦

API Explorer平台 api 网关 API Gateway API 测试 pinduoduo API

替换传统数据处理平台,TDengine 与华风数据达成合作

TDengine

数据库 tdengine 时序数据库

AI加持的云端IDE——三种方法高效开发前后端聊天交互功能

Trae

人工智能 ide 程序员 AI 编程语言

再创辉煌!望繁信科技斩获第十三届中国创新创业大赛四川赛区桂冠

望繁信科技

数字化转型 流程挖掘 流程资产 流程智能 望繁信科技

对游戏语音软件Oopz遭遇DDoS攻击后的一些建议

网络安全服务

负载均衡 udp 语音聊天软件 DDoS 攻击 黑神话悟空

mac苹果电脑矢量绘图软件:Sketch for mac 中文激活版

你的猪会飞吗

sketch Mac Mac软件下载站 mac破解软件下载

什么是 structuredClone?如何实现深拷贝?

伤感汤姆布利柏

李飞飞团队 ReKep:空间智能机器人可整合 GPT-4o;苹果首款 AI 手机 iPhone 16 发布丨RTE 开发者日报

声网

如何留住自己的团队?

秃头小帅oi

现在的 AI ,有多会做老师?

Trae

Python 人工智能 程序员 AI 求职

互联网大厂Java面试高手心法,在寒潮之下找到自己心仪的 offer。

码哥字节

Java 后端面试

对接开源大模型应用开发平台最佳实践

阿里云大数据AI技术

人工智能 LLM rag OpenSearch dify

DeepSeek发布用于形式化数学证明的开源LLM Prover-V2_AI&大模型_InfoQ精选文章