仅用 8 张显卡和一万块钱，清华团队用7B模型打败GPT-4o数学推理_AI&大模型_OpenBMB 社区_InfoQ精选文章

50万奖金+官方证书，深圳国际金融科技大赛正式启动，点击报名了解详情 



 写点什么

登录/注册

仅用 8 张显卡和一万块钱，清华团队用7B模型打败GPT-4o数学推理

OpenAI o1 和 o3 模型的发布证明了强化学习能够让大模型拥有像人一样的快速迭代试错、深度思考的高阶推理能力，在基于模仿学习的 Scaling Law 逐渐受到质疑的今天，基于探索的强化学习有望带来新的 Scaling Law。

近日，清华大学 NLP 实验室联合上海 AI Lab，清华大学电子系及 OpenBMB 社区提出一种新的结合过程奖励的强化学习方法—— PRIME（Process Reinforcement through IMplicit REwards），采用 PRIME 方法，研究人员不依赖任何蒸馏数据和模仿学习，仅用 8 张 A100，花费一万块钱左右，不到 10 天时间，就能高效训练出一个数学能力超过 GPT-4o、Llama-3.1-70B 的 7B 模型 Eurus-2-7B-PRIME。

具体而言，研究人员利用 Qwen2.5-Math-7B-Base 作为基座模型，训练出了新模型 Eurus-2-7B-PRIME ，并在美国 IMO 选拔考试 AIME 2024 上的准确率达到 26.7%，大幅超越 GPT-4o，Llama3.1-70B 和 Qwen2.5-Math-7B-Instruct，且仅使用了 Qwen Math 数据的 1/10。其中，强化学习方法 PRIME 为模型带来了 16.7% 的绝对提升，远超已知的任何开源方案。

该项目一经开源就在海外 AI 社区爆火，短短几天 Github 取得 400+ star。

未来，基于 PRIME 方法和更强的基座模型有潜力训练出接近 OpenAI o1 的模型。

_blog 链接：_https://curvy-check-498.notion.site/Process-Reinforcement-through-Implicit-Rewards-15f4fcb9c42180f1b498cc9b2eaf896f

_GitHub 链接：_https://github.com/PRIME-RL/PRIME

PRIME 方法介绍

长久以来，开源社区严重依赖数据驱动的模仿学习来增强模型推理能力，但这种方法的局限也显而易见——更强的推理能力需要更高质量的数据，但高质量数据总是稀缺，使得模仿和蒸馏难以持续。虽然 OpenAI o1 和 o3 的成功证明了强化学习有着更高的上限，但强化学习有着两个关键挑战：（1）如何获得精准且可扩展的密集奖励；（2）如何设计可以充分利用这些奖励的强化学习算法。

PRIME 算法从隐式过程奖励（implicit process reward）的思想出发解决这两个问题。隐式过程奖励模型可以仅在输出奖励模型（outcome reward model, ORM）的数据，即答案的最终对错上进行训练，而隐式地建模过程奖励，最终自动训练出一个过程奖励模型，这整个过程都有严格的理论保证。

_详细推导见：_https://huggingface.co/papers/2412.01981

基于隐式过程奖励模型的这种性质，研究人员指出将其应用于强化学习有三大优势：

过程奖励：隐式过程奖励模型能够为每个 token 提供价值估计，在提供过程奖励的同时无需训练额外的价值模型（value model）
可扩展性：隐式过程奖励模型只需结果标签即可在线更新。所以，我们可以结合策略模型采样与结果验证器来直接更新 PRM，有效缓解分布偏移与可扩展性问题。
简洁性：隐式过程奖励模型本质上就是一种语言模型。在实践中，研究人员发现可以直接用初始的策略模型初始化 PRM。

隐式过程奖励解决了 PRM 在大模型强化学习中怎么用，怎么训，怎么扩展的三大问题，甚至不需要训练额外的奖励模型就可以开始强化学习，易用性和可扩展性极佳。

具体的 PRIME 算法流程如下图所示，它是一种在线强化学习算法，能够将每个 token 的过程奖励无缝应用于强化学习流程中。

实验结果

研究人员详细比较了 PRIME 算法和基线方法

相比于仅用结果监督，PRIME 有着 2.5 倍的采样效率提升，在下游任务上也有着显著提升。

研究人员还验证了 PRM 在线更新的重要性，可以看到，在线的 PRM 更新要显著优于固定不更新的 PRM，这也证明了 PRIME 算法设计和合理性

此外，研究人员还额外收集数据，基于 Qwen2.5-Math-Instruct 训练了 SOTA 水平的 EurusPRM，能够在 Best-of-N 采样中达到开源领先水平

showcase 演示

Question （AIME 2024 试题，Claude-3.5-Sonnet 做错）

Answer

Question

Which number is larger? 9.11 or 9.9?

Answer

强化学习是连接已有智能体（大模型）和现实世界（世界模型，具身智能）的桥梁，以及将世界反馈内化为模型智能的路径，将在下一代人工智能的发展中起到重要作用。PRIME 算法创新性地将隐式过程奖励与强化学习结合，解决了大模型强化学习的奖励稀疏问题，有望推动大模型复杂推理能力的进一步提升。

该工作在海外 AI 社区受到了很大欢迎：

评论 1 条评论

发布

98堂邀请码色花堂邀请码

强化学习是连接已有智能体（大模型）和现实世界（世界模型，具身智能）的桥梁，以及将世界反馈内化为模型智能的路径，将在下一代人工智能的发展中起到重要作用。PRIME 算法创新性地将隐式过程奖励与强化学习结合，解决了大模型强化学习的奖励稀疏问题，有望推动大模型复杂推理能力的进一步提升。
这个说的很对

2025-06-03 07:01 · 江苏

 0 回复

没有更多了

区块链钱包开发全解析：从架构设计到安全生态构建

区块链软件开发推广运营

交易所开发 dapp开发链游开发公链开发代币开发

veMLP x veRL ：玩转强化学习训练

火山引擎开发者社区

开发火山引擎

中国主场！“世亚人工智能展·世亚智博会”重塑科技版图

智博会人工智能展世亚智博会

如何查看系统完整性：全面指南与实用工具推荐

运维有小邓

日志管理日志审计系统 IT运维服务文件完整性

2025链游爆款方法论：从Axie到AI跨链的破局路径

区块链软件开发推广运营

交易所开发 dapp开发链游开发代币开发代币开发公链开发

K8s进阶之一文搞懂PV，PVC及SC

电子尖叫食人鱼

Kubernetes 容器

重磅预告|开源鸿蒙开发者大会2025举办在即

HyperWorks分析模型的建立与边界条件施加

CAE 仿真软件 Hypermesh

什么是基于知识图谱的多模态推理？

大型网站架构实战！

程序员高级码农

Java 程序员架构师

用户旅程图用什么软件做？4个用户体验地图工具盘点！

职场工具箱

人工智能产品经理 AIGC 绘图软件用户旅程图

全国首个！字节跳动发布 EthLink，填补以太网 GPU Scale-up 互联协议空白

火山引擎开发者社区

字节跳动以太网

以细节诠释专业，用成长定义价值——对话@孟同学｜得物技术

大型跨国企业搭建企业网络需要注意哪些方面？

企业组网企业网络跨国网络跨国企业组网

如何通过DNS解析实现负载均衡？

防火墙后吃泡面

「智元机器人」“稚晖君”彭志辉：机器人不玩“后空翻”，选择实用主义优先路线！

机器人头条

科技大模型人形机器人具身智能

交易所开发-如何开发一个交易所

区块链软件开发推广运营

交易所开发 dapp开发链游开发公链开发代币开发

组建小型局域网全攻略：6步搞定设备选择与网络搭建

组网局域网企业组网公司网络局域网搭建

Java 原生异步编程与Spring 异步编程详解

不在线第一只蜗牛

高新技术加持下，低代码平台还能进化成什么样？

天津汇柏科技有限公司

远控安全金标准，ToDesk、向日葵、网易UU安全功能盘点，是否能攻破防线

远程办公远程远程控制软件

RocketMQ半消息对消费者不可见是如何实现的？——事务消息机制揭秘

量贩潮汐·WholesaleTide

互联网人离职空窗，我该怎么回答HR最认可？

HarmonyOS沙箱文件管理与离线包加载机制解析

记忆深处的声音

鸿蒙开发工具 HarmonyOS HarmonyOS NEXT 实践分享

AI 调教指南！一文教会你如何在 Trae IDE 中配置自定义规则

火山引擎开发者社区

AI 火山引擎

混合编程会是软件产业发展的必然选择吗？

代码制造者

Python 3.14 新特性盘点，更新了些什么？

不在线第一只蜗牛

热点追踪+精准解读——火山引擎 AI 域名推荐上线！

火山引擎边缘云

域名解析域名域名备案域名系统 AI Agent，

推理加速新范式：火山引擎高性能分布式 KVCache （EIC）核心技术解读

火山引擎开发者社区

【有奖活动】放“码”来战，端云一体化挑战赛

具身智能领域，全球Top50国/华人图谱（含具身智能赛道“师徒关系图”）

机器人头条

科技大模型人形机器人具身智能