燃爆上海 5·23-24,AICon 大模型实战风暴,50+ 干货一网打尽,100% 日程上线 了解详情
写点什么

蚂蚁 & 清华联手开源,人人都能复刻 QwQ-32B

  • 2025-04-01
    北京
  • 本文字数:4399 字

    阅读完需:约 14 分钟

大小:2.17M时长:12:37
蚂蚁 & 清华联手开源,人人都能复刻QwQ-32B

在过去很长时间里,预训练扩展定律(Pre-training Scaling Law)都是机器学习领域最重要的经验法则之一,它不仅帮助研究人员理解和优化模型训练过程,还为资源分配提供了理论依据。简单来说,当在特定任务上使用参数更大的模型、更多的训练数据和更强的计算能力时,模型性能也会更强。


而 DeepSeek R1 、 OpenAI o1 、文心大模型 X1 以及 QVQ-Max 的出现,则表明 LLM 领域的 Scaling Law 正在发生变化。这类模型在数学、代码、长程规划等问题上的表现尤为突出,而且其推理能力提升的关键,就是后训练阶段中强化学习训练和推理阶段思考计算量的增大。一方面意味着后训练扩展定律(Post-Training Scaling Laws)正在引发社区对于算力分配、后训练能力的重新思考,另一方面也让强化学习(RL,Reinforcement Learning)成为了大语言模型能力提升的新引擎。


就在本周,蚂蚁技术研究院和清华大学交叉信息院吴翼团队,发布了训练速度最快最稳定的开源强化学习训练框架 AReaL(Ant Reasoning RL),并公开了全部数据和完成可复现的训练脚本。在最新的 AReaL v0.2 版本 AReaL-boba 中,其 7B 模型数学推理分数刷新同尺寸模型 AIME 分数纪录,并且仅仅使用 200 条数据就在 AIME 2024 上复刻 QwQ-32B 的推理结果,相当于仅仅使用了 200 美金的计算成本,让所有人都可以以极低的成本实现最强的推理训练效果。


后训练定律崛起,强化学习重塑大模型能力边界


后训练扩展定律的兴起是大语言模型能力进化的重要转折点,该定律表明训练阶段的计算量不再只和参数量的上升有关,同时也会包含强化学习探索时大语言模型推理的计算量。这也就意味着可以使用微调、剪枝、量化、蒸馏、强化学习和合成数据增强等技术,进一步提高预训练模型的性能。


以强化学习为例,作为一种对标注数据数量要求更少的机器学习技术,它只通过奖励模型来训练大模型,使其学习做出与特定用例相符的决策。大模型的目标是在与环境交互的过程中,随着时间推移最大化累积奖励。


例如,一个大语言模型可以通过用户的“点赞”反应获得正向强化,这种技术被称为基于人类反馈的强化学习 (RLHF)。另一种更新的技术是基于 AI 反馈的强化学习 (RLAIF),它使用 AI 模型的反馈来指导学习过程,从而简化后训练的优化工作。


通过引入强化学习机制,大语言模型可借助实时反馈对生成内容进行动态优化,使其输出更精准地适配人类偏好,从而将海量知识储备有效转化为针对特定场景的任务解决能力。


不过,强化学习虽然效果显著,但针对大语言模型的大规模强化学习训练门槛却一直很高:

例如在数据方面,某些大规模强化学习训练需要大量高质量的人类反馈数据,需要收集和处理大量的人类偏好数据,可能还会涉及隐私和伦理问题。


计算资源方面,大规模强化学习训练需要强大的计算资源,包括 GPU 集群和高效的分布式训练算法。


成本方面,大规模强化学习训练所需的时间成本、财务成本都比较高,对不少团队来说都是一个挑战。


算法复杂度方面,强化学习算法设计比较复杂,奖励模型构建和策略优化都需要考虑在内,还需要处理自注意力机制、长距离依赖等问题。


模型设计方面,也需要平衡模型的复杂度与性能,同时由于奖励模型准确率直接影响强化学习的效果,还需要高质量训练数据的支持。


生成评估方面,需要结合人工评估与自动指标,如果是多模态模型,还需要应对跨模态任务评估的难题。


总体来说,大规模强化学习训练的流程复杂,涉及模块繁多(如生成、训练、奖励判定等),这为实现高效稳定的分布式训练带来了很多挑战;其次,类似 DeepSeek R1 这样的推理模型输出长度会很长(超过 10K),随着训练持续变化,很容易造成显存和效率瓶颈;最后,目前的开源社区中缺乏高质量的强化学习训练数据,也缺乏完整可复现的训练过程。


针对上述挑战,蚂蚁技术研究院于上个月正式开源了强化学习框架 AReaL(Ant Reasoning RL)。AReaL 基于开源框架 ReaLHF 构建,旨在训练每个人都可以复现和贡献的大型推理模型。



AReaL 秉承完全开放与可复现的理念,团队将持续公开包括 LRM 训练模型的全套代码、完整数据集及系统化训练方案。项目所有核心算法组件完整开源,开发者可自由进行模型验证、功能改进及实际应用,推动大型推理模型、智能体开发领域的协作创新。


此外,AReaL 可以适配多种计算资源环境,从单节点开发调试环境到千卡级 GPU 集群分布式训练场景均可实现全流程高效执行。在首次发布的 v0.1 版本中,就包含了基于 AReaL 的可复现实验,涵盖 1.5B 和 7B 参数的推理模型,并在多种计算预算下进行了验证。


通过 AReaL ,开发者可以在 40 小时内稳定完成 1.5B 的强化学习训练,使其在数学推理任务能力上超越 o1-Preview ;或者在 Qwen2.5-7B 大模型上实现稳定复现的强化学习训练,从而系统化验证 thinking token 的演化规律及模型数学推理能力的持续优化过程。


而本周发布的 v0.2 版本 AReaL-boba ,则让普通人也拥有了“手搓” QwQ-32B 的能力。


开源框架革新:三大核心解锁强化学习规模化


AReaL 团队表示,新版本“boba” 的命名一方面源自团队对珍珠奶茶的偏爱,另一面也是希望强化学习技术能如奶茶成为大众饮品一般,渗透至 AI 开发的每个日常场景,普惠整个社区。事实上,AReaL-boba 也完全拥有这样的能力,其技术亮点主要表现在以下三个方面:


全面拥抱 SGLang 框架,训练速度大幅提升


AReaL-boba 是首个全面拥抱 SGLang 推理框架的开源训练系统,并充分利用了 SGLang 推理框架的多种优势,包括更高的推理性能、更低的资源消耗、更高的灵活性、易于集成等等。


AReaL-boba 在初代 AReaL 版本的基础上实现了突破性进展:通过深度整合 SGLang 框架并实施多维度工程优化,AReaL-boba 能够灵活适配不同的计算资源配置,并且性能提升呈现出显著的规模效应——在 1.5B 参数模型上训练速度提升 35%,7B 模型加速达 60%,当扩展至 32B 大模型时更获得 73% 的显著性能跃升,为大规模强化学习训练提供了高效的解决方案。



此外,AReaL-boba 也展现出了卓越的大模型训练效率:仅需 128 张 H800 显卡即可在 24 小时内完成 1.5B 参数的 SOTA 推理模型训练;当扩展至 256 张 H800 时,可在 48 小时内完成 7B 参数的 SOTA 推理模型训练。这些也得益于 AReaL-boba 在系统级方面的优化:


  • 生成后端升级


AReaL-boba 的生成后端升级到了 SGLang v0.4.0 ,并通过 RadixAttention 机制显著提高了从同一提示中采样多个响应的场景中的吞吐量。此外,SGLang 会在权重更新时自动刷新 Radix 缓存,从而确保强化学习的正确性。


  • 优化可变长度序列与大批量训练


为了高效处理可变序列长度问题, AReaL 团队摒弃了填充操作,转而将序列打包为 1D 张量。通过动态分配算法(近似)最优地将序列分配到最大令牌预算下,在平衡微批次规模的同时最小化微批次数量。该方法能最大化 GPU 内存利用率,从而支持高效处理大规模可变长度输入。


  • 面向千卡级 GPU 扩展的高性能数据传输


AReaL 团队采用了基于 InfiniBand/RoCE 协议的 GPU 直连远程直接内存访问(GDRDMA)技术,配合 NVIDIA 集合通信库(NCCL),实现了 GPU 间的直接通信。该技术绕过了传统 CPU 中介传输和 PCIe 总线瓶颈,相较于基于以太网的传统方案,显著降低了通信延迟并提升了传输吞吐量。即使在包含 1000 块 GPU 的超大集群中,也能将生成到训练流程的数据传输开销控制在 3 秒以内。


种种技术加持之下, AReaL-boba 成为了目前训练速度最快的开源框架


强化学习赋能,7B 模型数学推理分数刷新开源社区纪录


数学推理是大型模型实现强人工智能的关键,它不仅能直接提升模型在数学相关任务的表现,更通过培养逻辑严谨性、抽象思维和问题分解能力,间接增强模型在通用领域的推理效能。


AReaL 团队基于 Qwen-R1-Distill-7B 基础模型,通过大规模强化学习训练,在 48 小时内即可取得领域最佳的数学推理能力,并刷新开源社区新纪录,实现 AIME2024 61.9 分与 AIME2025 48.3 分的优异成绩,显著超越 OpenAI o1-preview 模型。


与基础模型相比,AReaL-boba 通过强化学习实现了模型的能力跃迁,分别较 AIME2024 和 AIME2025 提升了 6.9 分与 8.6 分,进一步验证了强化学习规模化应用在推理模型优化中的关键价值。



基于 AReaL 完全开放与可复现的理念, AReaL-boba 在开源推理模型的基础上也开源了所有的训练数据 AReaL-boba-106k ,以及全部的训练脚本和评估脚本。同时在项目官方仓库上,AReaL 团队也放出了极其详细的技术笔记,总结了大量训练中的关键点,包括 PPO 超参数、奖励函数设置、正则化设置、长度上限设置等等。


例如,AReaL 团队以 PPO 超参数作为核心训练算法,为节省计算资源,移除了策略评估网络(Critic 模型)。同时,将折扣因子 γ 和广义优势估计(GAE)参数λ均设置为 1。这些配置策略与 Open-Reasoner-Zero 项目的实现方案保持一致。


在奖励函数设置方面, AReaL 团队则采用了稀疏序列级奖励机制。模型被要求将最终答案用方框标出(即\boxed{}格式),随后系统会对该答案进行验证。若答案正确则给予 +5 的奖励,错误则处以 -5 的惩罚。同时,由于 KL 散度奖励可能对模型性能产生负面影响,尤其是在长思维链训练中,因此将其系数设为 0 以消除干扰。


创新性蒸馏技术,200 条数据轻松复刻 QwQ-32B


针对 32B 参数规模的推理模型,AReaL 团队进一步精简了训练数据并发布了 AReaL-boba-200 数据集以及相关训练脚本,在以 Qwen-32B-Distill 作为基础模型时, AReaL-boba 采用轻量级监督微调(SFT)技术,在 AIME2024 评测中成功复现了 QwQ-32B 模型的推理性能,并且整个训练过程仅需 200 美元的计算成本,为开发者甚至普通人提供了低门槛实现高性能推理训练的可行性路径。



结尾


与传统的深度学习算法相比,强化学习更为复杂,且模块更多,这使得搭建适应强化学习算法的训练系统成为了一件颇具挑战的课题, AReaL 作为一个专为大型推理模型设计的灵活高效的开源强化学习系统,如今已经更新到了训练速度更快的 AReaL-boba 版本,这无疑为强化学习在大模型时代的创新应用注入了新的活力。


值得一提的是,AReaL 团队的核心成员均来自蚂蚁研究院强化学习实验室,以及交叉信息研究院吴翼团队,项目也借鉴了大量优秀的开源项目,比如 DeepScaleR、Open-Reasoner-Zero、OpenRLHF、veRL、SGLang、QwQ、Light-R1 和 DAPO。作为国内第一个完整开源(数据、代码、模型、脚本全开源)的项目团队,AReaL 的初衷就是真正实现 AI 训练的普惠。


在项目官方仓库中,AReaL 团队也列出了团队后续的开源计划和目标,包括异步训练、训练吞吐优化、数据集和算法升级,以及代码和 Agent 智能体能力支持。也许,下一个 AReaL 版的“奶茶”,也已经在路上。


这不仅是一次技术开源尝试,更是推动算力普惠化的积极探索——当 AReaL-boba 将大模型强化学习训练简化为如同点奶茶般简易的操作时,人人都能“手搓”大模型的时代,可能马上就要来临了。


2025-04-01 18:116362

评论

发布
暂无评论

我删库跑路失败了

程序员鱼皮

Java c++ Python Linux 服务器

底层技术支撑智慧出行,汽车智能化发展下区块链大放异彩

旺链科技

区块链产业

吹水、面试、进阶齐飞!Github霸榜的阿里分布式设计实录也太香了

Java架构师迁哥

【工作感悟】2021最值得加入的互联网公司有哪些

欢喜学安卓

android 程序员 面试 移动开发

DataPipeline实时数据融合平台V3.0里程碑版发布!澎湃新动能

DataPipeline数见科技

大数据 数据融合 数据管理

TDengine JDBC整合Druid

山石道人

涛思数据 tdengine Druid Spring MVC taos-jdbc

腾讯二面:Linux操作系统里一个进程最多可以创建多少个线程?

白亦杨

HashMap从入门到精通,原创好文,值得收藏!

wljslmz

Java hashmap java8 HashMap底层原理

前端性能优化实践 | 百度APP个人主页优化

百度开发者中心

大前端 百度app

越学越有趣:『手把手带你学NLP』系列项目07 ——机器翻译的那些事儿

百度大脑

机器学习 nlp

32岁的我裸辞了,八年Java老鸟,只因薪水被应届生倒挂,在闭关三个月后拿到阿里Offer,定级P7!

Java架构师迁哥

使用tar 命令进行文件的归档和压缩

学神来啦

云计算 Linux 运维 linux运维

KDD CUP 2021首届图神经网络大赛放榜,百度飞桨PGL获得2金1银

百度大脑

神经网络 百度

不愧是阿里内部“SpringCloudAlibaba学习笔记”看完直接斩获12家offer

Java 编程 架构 面试 微服务

GNURadio报错Unable to create context(windows10环境)

allu

问题总结

一周信创舆情观察(6.28~7.4)

统小信uos

统一缓存帝国 - 实战 Spring Cache

悟空聊架构

缓存 passjava 悟空聊架构 7月日更 Spring Cache

什么?C语言也能try...catch!

实力程序员

DataWorks赋能企业一站式数据开发治理能力

阿里云大数据AI技术

4轮技术面+1轮HR面,成功拿到腾讯40k*16的Offer ,详解面试流程和真题解析

Java 程序员 架构 面试

Hightopo可视化入局“智慧工厂”,助力企业改革创新

一只数据鲸鱼

数据可视化 绿色工业 3D数据可视化 高炉炼铁 智慧工业

【工作感悟】Android大厂高级面试题灵魂100问

欢喜学安卓

android 程序员 面试 移动开发

一位年薪 180 万的蚂蚁金服大佬扔给我的笔记,建议看完

Java架构师迁哥

金九银十面试必备,“全新”突击真题宝典,阿里腾讯字节都稳了

Java 编程 程序员 架构 面试

GitHub星标70K阿里大佬手写的Spring Boot实战手册

Java架构师迁哥

2021年,BAT接连入局!“低代码”为何能备受资本追捧?

优秀

低代码

北鲲云超算平台——让科技更好地服务于用户

北鲲云

永续合约交易所开发,虚拟币合约交易系统源码

智邦国际ERP系统31.99版本发布,解锁精准高效协同管理模式!

叶落便知秋

教你给场景添加天空盒,超简单!

ThingJS数字孪生引擎

大数据 大前端 开发 可视化 数字孪生

免费分享JDBC与MyBatis的优秀图书

Java入门到架构

Java

蚂蚁 & 清华联手开源,人人都能复刻QwQ-32B_生成式 AI_王嘉陆_InfoQ精选文章