写点什么

梁文锋执笔的 R1 论文登上 Nature 封面!首次回应外界三大质疑

  • 2025-09-18
    北京
  • 本文字数:2782 字

    阅读完需:约 9 分钟

大小:1.27M时长:07:25
梁文锋执笔的R1论文登上Nature封面!首次回应外界三大质疑

9 月 17 日,开源 AI“顶流”DeepSeek 再次引发行业轰动。其推理模型研究论文 DeepSeek-R1,DeepSeek 创始人梁文锋以通讯作者的名义正式发表在国际顶尖期刊《自然》(Nature)上,并登上当期封面。

 

这不仅标志着国产 AI 研究迈入世界舞台,也意味着大语言模型首次通过了完整的同行评审,填补了行业空白。

 

DeepSeek-R1 的核心突破在于,该模型无需依赖大量人工标注的思维链数据,而是借助强化学习(RL)机制,让模型在训练中自主形成推理能力。研究团队首先基于 DeepSeek-V3 Base 构建出 R1-Zero,通过只奖励最终预测正确性的方式,引导模型逐渐学会生成更长、更具逻辑性的回答。随后,团队在此基础上引入多阶段训练,结合监督微调和拒绝采样,最终打造出既具备强推理性能、又符合人类偏好的 DeepSeek-R1。

 

在全球开源社区中,DeepSeek-R1 已成为最受欢迎的推理模型之一。截至目前,其在 Hugging Face 平台的下载量已突破 1090 万次

 

新版论文回应质疑,披露训练细节

 

与今年初的预印版相比,本次发表于《自然》的论文补充了大量训练细节,并回应了此前外界关于“蒸馏”的质疑,总结下来可以概括为下面几个重点:

 

首先是数据来源问题。该论文中称,DeepSeek-V3 Base 的预训练数据完全来自互联网,虽然可能包含部分由 GPT-4 生成的文本,但团队强调未进行任何有意的蒸馏过程。

 

其次是去污染措施:为避免基准测试成绩“虚高”,团队对预训练和后训练数据进行了大规模清理。仅在数学数据中,就剔除了约 600 万条潜在污染样本

 

安全性评估:DeepSeek-R1 引入外部风险控制机制,并通过 DeepSeek-V3 进行实时审查。在多个公开测试中,其安全性表现优于 Claude-3.7-Sonnet 和 GPT-4o 等主流模型。

 

此外,值得注意的是,该新版论文补充材料中首次披露了 R1 的训练成本:仅相当于 294000 美元。这不包括打造 R1 所基于的基础大模型花费掉的 600 万美元左右,但总金额仍远低于竞争对手模型所花费的数千万美元。

 

论文地址:

https://www.nature.com/articles/s41586-025-09422-z#code-availability

同行评审报告:

https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-025-09422-z/MediaObjects/41586_2025_9422_MOESM2_ESM.pdf

首个经过同行严格审查的模型


R1 被认为是第一个经过同行评审流程的大语言模型重要项目。“这是一个非常受欢迎的先例,”Hugging Face 的机器学习工程师 Lewis Tunstall 说道,他曾审阅过《自然》杂志的论文。 “如果我们没有公开分享这一流程大部分内容的规范,就很难评估这些系统是否存在风险。”

 

到底经过同行严格审查这件事有多重要?意味着什么?

 

据悉,DeepSeek 团队于今年 2 月 14 日将论文提交至《自然》,经过 5 个月审查,在 7 月 17 日获准接收,并于 9 月 17 日正式发表。在此期间,共有 8 位外部专家参与评审,从原创性、方法设计到鲁棒性提出了上百条意见。

 

这些意见既包括对单复数用法等细节的修改,也涉及更为关键的学术问题,例如:避免在论文中过度拟人化 AI、澄清“开源”概念的使用、解释数据污染防控措施,以及提供更透明的监督微调(SFT)和强化学习(RL)数据链接。

 

最终形成的审稿文件长达 64 页,篇幅几乎是论文本身的三倍。DeepSeek 逐一回应并吸纳了建议,在正式发表版本中新增了多处章节与补充材料。



《同行评审报告》的关键结果指出:

 

以往的研究表明,大语言模型在涉及数学或逻辑推理的任务中,如果在生成最终答案前先生成推理过程,往往能取得更好的表现。现有的方法主要包括:通过提示工程(例如在输入中添加“让我们一步一步思考”这样的字符串)来引导模型生成推理,或者利用包含推理示例的训练数据进行监督微调。

 

本论文的主要贡献在于:他们证明了仅依靠强化学习,就可以教会大语言模型进行推理,而无需依赖提示工程,也几乎不依赖人工数据(如人工示范和奖励标注)。

 

这项研究在语言模型的后训练方法上具有奠基性意义:它展示了无需人工干预,仅通过强化学习就能实现接近专家水平的推理能力。最终得到的模型 DeepSeek R1 在多项评测基准上达到了业界领先的水平,并且已经在学术界引发了广泛关注和兴奋。

 

不过,论文也存在不足:其训练数据的具体组成缺乏透明度,可能会限制研究的可复现性;同时,模型开发过程中许多决策缺乏实证结果来解释其有效性。

 

为了回应同行评审的意见,DeepSeek 团队减少了描述中的拟人化,并增加了对技术细节的说明,包括模型训练的数据类型及其安全性。“经过严格的同行评审流程无疑有助于验证模型的有效性和实用性,”哥伦布俄亥俄州立大学的人工智能研究员 Huan Sun 表示。“其他公司也应该这样做。”

 

DeepSeek 的主要创新在于使用一种自动化的试错方法(即纯强化学习)来创建 R1。该过程会奖励模型得出正确答案,而不是教它遵循人类选择的推理示例。该公司表示,这就是其模型学习自身类似推理策略的方式,例如如何在不遵循人类规定的策略的情况下验证其工作原理。为了提高效率,该模型还使用估算值来对自己的尝试进行评分,而不是使用单独的算法,这种技术被称为组相对策略优化

 

Huan Sun 教授表示,该模型在人工智能研究人员中“颇具影响力”。“到目前为止,2025 年几乎所有在大语言模型中进行强化学习的研究都可能以某种方式受到了 R1 的启发。”

使用了 OpenAI 输出的数据训练 R1?


1 月份的媒体报道称,OpenAI 公司(ChatGPT 和“o”系列推理模型的创建者)的研究人员认为 DeepSeek 使用了 OpenAI 模型的输出来训练 R1,这种方法可以在使用更少资源的情况下加速模型的能力。

 

DeepSeek 尚未将其训练数据作为论文的一部分发布。但在与审稿人的交流中,该公司的研究人员表示,R1 并非通过复制 OpenAI 模型生成的推理示例来学习。然而,他们也承认,与大多数其他大语言模型 (LLM) 一样,R1 的基础模型是在网络上训练的,因此它会吸收互联网上已有的任何 AI 生成的内容。

 

Huan Sun 表示,这一反驳“与我们在任何出版物中看到的一样令人信服”。Tunstall 补充道,虽然他不能 100% 确定 R1 没有接受过 OpenAI 样本的训练,但其他实验室的重复尝试表明,DeepSeek 的推理方法可能足够好,无需进行重复训练。“我认为现在的证据相当明确,仅使用纯粹的强化学习就能获得非常高的性能,”他说。

 

Huan Sun 教授表示,对于研究人员来说,R1 仍然非常具有竞争力。在一项名为 ScienceAgentBench 的科学任务挑战赛中,Huan Sun 教授和同事发现,虽然 R1 在准确性方面并非第一,但在平衡性能和成本方面,它是最好的模型之一。



Tunstall 表示,其他研究人员目前正尝试运用创建 R1 的方法来提升现有大语言模型(LLM)的推理能力,并将其扩展到数学和编码以外的领域。他补充道,R1 以这种方式“引发了一场革命”。

 

参考链接:

https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-025-09422-z/MediaObjects/41586_2025_9422_MOESM2_ESM.pdf

https://arxiv.org/abs/2501.12948

https://hal.cs.princeton.edu/scienceagentbench

2025-09-18 13:001
用户头像
李冬梅 加V:busulishang4668

发布了 1159 篇内容, 共 777.5 次阅读, 收获喜欢 1285 次。

关注

评论

发布
暂无评论

moviepy音视频剪辑:moviepy中的剪辑基类Clip的属性和方法详解

老猿Python

Python-计算机视觉-OpenCV-video

Aldeo

Python OpenCV Video

2021春招Java后端开发面试总结:25个技术专题(最全面试攻略)

比伯

Java 编程 架构 面试 程序人生

区块链下乡

CECBC

区块链

Python API 邮件发送测试

HoneyMoose

前端开发:数据处理方法分享(其一)

三掌柜

vue.js 大前端 3月日更

LiteOS内核源码分析:位操作模块

华为云开发者联盟

LiteOS 源代码 位操作 bit Huawei LiteOS

教你如何用霍夫变换完成扭曲车牌识别

程序媛观澜

机器学习 图像识别

域名和服务器的购买和配置

空城机

阿里云 轻量级服务器 云翼计划

渣硕试水字节跳动,本以为简历都过不了,123+HR面直接拿到意向书

Java 程序员 架构 面试

Wireshark数据包分析学习笔记Day19

穿过生命散发芬芳

Wireshark 数据包分析 3月日更

开启Python学习之旅,分享学习路上的神器集合!

王小王-123

Python 学习 资源分享 工具分享

moviepy音视频剪辑:视频剪辑基类VideoClip的属性及方法详解

老猿Python

Python 编程语言 音视频 Moviepy

中国最可靠的 Go 模块代理

happlyfox

学习 3月日更

「产品经理训练营」作业 06:用户路径地图与漏斗模型

狷介

产品经理训练营

(Day30) 谁来驱动变革

mtfelix

28天写作 bewriting

去了解一下区块链

空城机

区块链 笔记 区块链发展

面试拜佛保过?圈内罕见阿里面试官手册,2021最强面试笔记非它莫属

Java 程序员 架构 面试

区块链圈频现百万元年薪招聘 现金+股票仍难觅良才

CECBC

区块链人才

Kubernetes认证管理员

云原生

Kubernetes 云原生 k8s CKA

【Axure9百例NO.45】中继器的不同场景下的样式处理

zhuchuanming

原型设计 Axure 交互原型

Three.js杂记(十一)—— 精灵与粒子(绘制中国地图)

空城机

大前端 WebGL 3D渲染 3D可视化 three.js

《Redis 核心技术与实战》学习笔记 07

escray

redis 学习 极客时间 3月日更 Redis 核心技术与实战

纸币会消失吗:数字货币如何走进我们生活

CECBC

货币

如何减少加班导致的离职?

石云升

项目管理 28天写作 职场经验 管理经验 3月日更

uni-app跨端开发H5、小程序、IOS、Android(七):uni-app渲染

程序员潘Sir

html5 uni-app 大前端 3月日更

时间复杂度总结

我是程序员小贱

3月日更

产品经理能力不够,产品方法论来凑

lenka

3月日更

一个有情怀的PPT模板下载网站

happlyfox

学习 3月日更 工具分享

领跑行业!浪潮云斩获“2021云管和云网大会”多项殊荣

云计算 云原生

开源的 Switch 模拟器——GitHub 热点速览 v.21.12

HelloGitHub

GitHub 开源

梁文锋执笔的R1论文登上Nature封面!首次回应外界三大质疑_生成式 AI_李冬梅_InfoQ精选文章