写点什么

清华、蚂蚁联合开源 AReaL-boba2,实现全异步强化学习,14B 代码模型达到 SOTA 水平

  • 2025-06-05
    北京
  • 本文字数:1212 字

    阅读完需:约 4 分钟

大小:606.91K时长:03:27
清华、蚂蚁联合开源AReaL-boba2,实现全异步强化学习,14B代码模型达到SOTA水平

6 月 3 日,清华蚂蚁联合研发的全异步强化学习训练系统 AReaL-boba2(AReaL v0.3)正式宣布开源。


项目地址:https://huggingface.co/inclusionAI/AReaL-boba-2-14B-Open


据了解,这一系统全面实现了异步强化学习训练,完全解耦模型生成与训练,性能效果不变的前提下,训练速度对比上一版本最高提升 2.77 倍,GPU 资源利用率大幅优化。


研究人员使用这一系统在 Qwen3 系列模型上做强化学习训练,实现 8B、14B 模型在 LiveCodeBench, Codeforce, Codecontest 等 benchmark 上达到 SOTA 水准。此外, AReaL-boba2还原生支持多轮智能体强化学习训练,开发者可以根据自己的需求自由定制智能体和智能体环境,进行多智能体 Agentic RL 训练。

 

寻找兼顾高效能、高效率的强化学习训练方式,一直是从业人员持续面临的课题。在传统的强化学习训练流程中,同步强化学习训练每一个批次(batch)的数据都是由同一个模型版本产生,因此模型参数更新需要等待批次中数据全部生成完成才能启动。


由于推理模型的输出长短差异极大,在同样的批大小(batch size)下,强化学习训练必须等待批次中最长的输出生成完才能继续进行训练,以及进行下一个批次的数据收集,造成极大 GPU 资源浪费。而异步强化学习(Asynchronous RL)将数据生成与模型训练完全解耦,以不间断的流式生成和并行训练的计算方式,极大提高了资源使用率,天然适用于多轮次交互的 Agent 场景。业界认为,异步强化学习是一种重要的算法范式,将成为未来强化学习的重要方向之一。

 

在 AReaL-boba2的工作中,研究人员通过算法系统 co-design 的方式实现了完全异步强化学习训练(fully asynchronous RL),从根本上解决了同步强化学习的各种问题。AReaL-boba2生成任务持续流式进行以保证 GPU 资源始终满载运行,杜绝了 GPU 空闲。AReaL-boba2的系统设计可以在保证稳定 RL 训练的同时,参数同步的通信和计算花销仅占总训练时间的 1%以内。


此外,由于全异步 RL 中同批次数据可能由不同版本的模型产生,AReaL-boba2也对 RL 算法进行了升级,在提速的同时确保模型效果。

 

AReaL 由蚂蚁技术研究院和清华大学交叉信息研究院共同发起,是国内首个完整开源数据、代码、模型、脚本的强化学习开源项目。


目前 AReaL 已经开源了 AReaL v0.1 版、AReaL v0.2 版(AReaL-boba)。其中,AReaL v0.2(AReaL-boba) 版本是其里程碑版本,可用 128 张 H800 GPU 在 1 天训练完成 SOTA 1.5B 推理模型训练,256 张 H800 GPU 2 天内完成 SOTA 7B 推理模型训练的效果。


此前 AReaL-boba 项目也得到了来自海外开发者的高度认可,评价“AReal-boba 通过开放 SOTA 推理模型的资源和透明的训练方式,让先进的 AI 推理技术平权化,降低了研究的门槛。 ”

 

AReaL 团队在技术报告中表示,该项目融合了蚂蚁强化学习实验室与清华交叉信息院吴翼团队多年的技术积累,也获得了大量来自蚂蚁集团超算技术团队和数据智能实验室的帮助。AReaL 的诞生离不开 DeepScaleR、Open-Reasoner-Zero、OpenRLHF、VeRL、SGLang、QwQ、Light-R1、DAPO 等优秀开源框架和模型的启发。

2025-06-05 10:495075
用户头像
李冬梅 加V:busulishang4668

发布了 1118 篇内容, 共 733.1 次阅读, 收获喜欢 1261 次。

关注

评论

发布
暂无评论
发现更多内容

Vue进阶(幺零九):npm install 遇到 -4048 错误的解决办法

No Silver Bullet

Vue 9月日更

Vue进阶(幺幺零):ant-design-vue

No Silver Bullet

Vue 9月日更

CentOS 7 小技巧合集

耳东@Erdong

centos Centos 7 9月日更

数据驱动的前提,数据质量

奔向架构师

数据治理 9月日更

研发人员如何进行有效沟通

KJ Meng

研发管理 团队协作 技术沟通 沟通艺术 软素质

架构训练营模块七作业(补)

老实人Honey

极客时间架构实战营作业三

jjn0703

架构实战营

对话华为云专家,摆脱无意义“内卷”

华为云开发者联盟

面试 华为云 就业 内卷

深入理解rtmp(四)之协议实现分析

轻口味

android 音视频 RTMP 9月日更

如何将集合中的数据List,对比写入系统中

卢卡多多

集合 同步 9月日更

安全系列之:跨域资源共享CORS

程序那些事

Java HTTP CORS 程序那些事 跨域资源共享

只需3步,快来用AI预测你爱的球队下一场能赢吗?

华为云开发者联盟

机器学习 AI 华为云 modelarts 球赛

必示科技加入云计算标准和开源推进委员会,助力AIOps行业标准建设

BizSeer必示科技

AIOPS 智能运维 必示科技

我爸电脑上有个加密压缩包,我给用 Python 给解开了

梦想橡皮擦

9月日更

vivo营销自动化技术解密|开篇

vivo互联网技术

Java 后端 软件架构设计 电商营销 平台搭建

在线JSON转Rust工具

入门小站

工具

WEB 剪切板操作navigator.clipboard的使用

devpoint

Blob 9月日更

手撸二叉树之二叉搜索树中俩个节点之和

HelloWorld杰少

9月日更

【LeetCode】下一个更大元素 IJava题解

Albert

算法 LeetCode 9月日更

B站就是一个神奇的地方

IT蜗壳-Tango

9月日更

中秋节快到了,确定不爬点月饼送岳母娘?

Regan Yue

爬虫 后端 Go 语言 引航计划 月饼

【Flutter 专题】48 图解 Android 原生集成 Flutter Module

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 9月日更

Java Stream 源码深入解析

Zexho

Java 源码 stream jdk8

Java基础知识查漏补缺

IT蜗壳-Tango

9月日更

linux之chroot命令

入门小站

Linux

redis主从实践(二)

风翱

redis 9月日更

Golang 接受 Interfaces, 返回 Structs

baiyutang

设计模式 Go 语言 构架 9月日更

Android正确的保活方案,不要掉进保活需求死循环陷进

Halifax

android 大前端 kotlin 移动开发 语言 & 开发

自动化会提高测试覆盖率,那测试覆盖率是什么?

禅道项目管理

测试 自动化测试 测试覆盖率

大数据包围你我,技术人如何走知识分享之路

华为云开发者联盟

大数据 开发者 技术人 华为云 知识分享

纵观移动云对象存储发展历程,也少不了 Apache APISIX 的能力加持

API7.ai 技术团队

Apache api 网关 APISIX 企业案例 移动云

清华、蚂蚁联合开源AReaL-boba2,实现全异步强化学习,14B代码模型达到SOTA水平_AI&大模型_李冬梅_InfoQ精选文章