2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

清华、蚂蚁联合开源 AReaL-boba2,实现全异步强化学习,14B 代码模型达到 SOTA 水平

  • 2025-06-05
    北京
  • 本文字数:1212 字

    阅读完需:约 4 分钟

大小:606.91K时长:03:27
清华、蚂蚁联合开源AReaL-boba2,实现全异步强化学习,14B代码模型达到SOTA水平

6 月 3 日,清华蚂蚁联合研发的全异步强化学习训练系统 AReaL-boba2(AReaL v0.3)正式宣布开源。


项目地址:https://huggingface.co/inclusionAI/AReaL-boba-2-14B-Open


据了解,这一系统全面实现了异步强化学习训练,完全解耦模型生成与训练,性能效果不变的前提下,训练速度对比上一版本最高提升 2.77 倍,GPU 资源利用率大幅优化。


研究人员使用这一系统在 Qwen3 系列模型上做强化学习训练,实现 8B、14B 模型在 LiveCodeBench, Codeforce, Codecontest 等 benchmark 上达到 SOTA 水准。此外, AReaL-boba2还原生支持多轮智能体强化学习训练,开发者可以根据自己的需求自由定制智能体和智能体环境,进行多智能体 Agentic RL 训练。

 

寻找兼顾高效能、高效率的强化学习训练方式,一直是从业人员持续面临的课题。在传统的强化学习训练流程中,同步强化学习训练每一个批次(batch)的数据都是由同一个模型版本产生,因此模型参数更新需要等待批次中数据全部生成完成才能启动。


由于推理模型的输出长短差异极大,在同样的批大小(batch size)下,强化学习训练必须等待批次中最长的输出生成完才能继续进行训练,以及进行下一个批次的数据收集,造成极大 GPU 资源浪费。而异步强化学习(Asynchronous RL)将数据生成与模型训练完全解耦,以不间断的流式生成和并行训练的计算方式,极大提高了资源使用率,天然适用于多轮次交互的 Agent 场景。业界认为,异步强化学习是一种重要的算法范式,将成为未来强化学习的重要方向之一。

 

在 AReaL-boba2的工作中,研究人员通过算法系统 co-design 的方式实现了完全异步强化学习训练(fully asynchronous RL),从根本上解决了同步强化学习的各种问题。AReaL-boba2生成任务持续流式进行以保证 GPU 资源始终满载运行,杜绝了 GPU 空闲。AReaL-boba2的系统设计可以在保证稳定 RL 训练的同时,参数同步的通信和计算花销仅占总训练时间的 1%以内。


此外,由于全异步 RL 中同批次数据可能由不同版本的模型产生,AReaL-boba2也对 RL 算法进行了升级,在提速的同时确保模型效果。

 

AReaL 由蚂蚁技术研究院和清华大学交叉信息研究院共同发起,是国内首个完整开源数据、代码、模型、脚本的强化学习开源项目。


目前 AReaL 已经开源了 AReaL v0.1 版、AReaL v0.2 版(AReaL-boba)。其中,AReaL v0.2(AReaL-boba) 版本是其里程碑版本,可用 128 张 H800 GPU 在 1 天训练完成 SOTA 1.5B 推理模型训练,256 张 H800 GPU 2 天内完成 SOTA 7B 推理模型训练的效果。


此前 AReaL-boba 项目也得到了来自海外开发者的高度认可,评价“AReal-boba 通过开放 SOTA 推理模型的资源和透明的训练方式,让先进的 AI 推理技术平权化,降低了研究的门槛。 ”

 

AReaL 团队在技术报告中表示,该项目融合了蚂蚁强化学习实验室与清华交叉信息院吴翼团队多年的技术积累,也获得了大量来自蚂蚁集团超算技术团队和数据智能实验室的帮助。AReaL 的诞生离不开 DeepScaleR、Open-Reasoner-Zero、OpenRLHF、VeRL、SGLang、QwQ、Light-R1、DAPO 等优秀开源框架和模型的启发。

2025-06-05 10:495514
用户头像
李冬梅 加V:busulishang4668

发布了 1194 篇内容, 共 818.6 次阅读, 收获喜欢 1305 次。

关注

评论

发布
暂无评论
发现更多内容

实战拆解:阿里云 ESA 重构金融行业的安全与速度

阿里云CloudImagine

云计算 最佳实践 边缘计算 安全防护 ESA

Golang基础笔记七之指针,值类型和引用类型

Hunter熊

Go 指针 逃逸分析 引用类型 内存逃逸

【HarmonyOS 5】鸿蒙TEE(可信执行环境)详解

GeorgeGcs

​《仿盒马》app开发技术分享-- 新人专享券(2)

鸿蒙小林

HarmonyOS NEXT

《仿盒马》app开发技术分享-- 首页地址选择&会员码(8)

鸿蒙小林

【7 月 5 日北京】倒计时 5 天!原来 IoTDB 用户大会有这么多现场福利

Apache IoTDB

生而非凡,稳健流畅,HarmonyOS体验再升级

最新动态

语音能否彻底取代键盘?Wispr Flow 融资 3000 万美金背后的思考丨Voice Agent 学习笔记

声网

《仿盒马》app开发技术分享-- 首页活动配置(5)

鸿蒙小林

HarmonyOS NEXT

Nexpose 8.12.0 for Linux & Windows - 漏洞扫描

sysin

Nexpose

一次线上生产库的全流程切换完整方案

京东科技开发者

手滑救星!通知中心一秒即达,这次真的“滑”得漂亮!

HarmonyOS SDK

harmoyos

华为JDC登场!观测云带来下一代监控观测平台的AI实战解法

观测云

人工智能

什么是即席查询?企业数据敏捷分析的新范式

镜舟科技

数据分析 存算分离架构 StarRocks 即席查询 OLAP 引擎

《仿盒马》app开发技术分享-- 首页商品流(7)

鸿蒙小林

Gartner推荐的容器监控系统管理实践——嘉为蓝鲸监控中心

嘉为蓝鲸

AIOPS Gartner 智能运维 可观测

从0到亿级数据抓取:亮数据如何破解全球采集难题?

阿Q说代码

数据挖掘 数据采集 亮数据

缓存之美:Guava Cache 相比于 Caffeine 差在哪里?

京东科技开发者

高性能缓存设计:如何解决缓存伪共享问题

京东科技开发者

BOE(京东方)携手合作伙伴定义下一代电竞显示趋势 借势核聚变嘉年华构建产业生态闭环

爱极客侠

HarmonyOS多设备开发方案全新升级,赋能全场景高效开发

最新动态

《仿盒马》app开发技术分享-- 金刚区(3)

鸿蒙小林

《仿盒马》app开发技术分享-- 首页banner(6)

鸿蒙小林

让高端装备“先跑起来”:虚拟仿真验证平台重塑研制流程

DevOps和数字孪生

高端装备

腾讯云自研企业级操作系统TencentOS Server,助力央国企加速自主创新

极客天地

懒懒笔记 | 课代表带你梳理【RAG课程 17&18:企业级安全 + 多智能体协同,打造可控、智能的RAG系统】

商汤万象开发者

AI agent LLM llama

Meta 拟收购语音 AI 初创 PlayAI;Qwen-TTS API 正式上线,支持京沪川方言丨日报

声网

SyncMate for mac(数据同步软件)

Geek贝

ETLCloud CDC中如何监听多表?

谷云科技RestCloud

数据库 数据处理 ETL CDC 数据集成工具

《仿盒马》app开发技术分享-- 首页模块配置(4)

鸿蒙小林

HarmonyOS NEXT

《仿盒马》app开发技术分享-- 自定义标题栏&商品详情初探(9)

鸿蒙小林

清华、蚂蚁联合开源AReaL-boba2,实现全异步强化学习,14B代码模型达到SOTA水平_AI&大模型_李冬梅_InfoQ精选文章