智能体刷屏的背后,是 AI 应用拐点的来临?AICon 北京站议程重磅公布,50+ 硬核分享不容错过 了解详情
写点什么

清华、蚂蚁联合开源 AReaL-boba2,实现全异步强化学习,14B 代码模型达到 SOTA 水平

  • 2025-06-05
    北京
  • 本文字数:1212 字

    阅读完需:约 4 分钟

大小:606.91K时长:03:27
清华、蚂蚁联合开源AReaL-boba2,实现全异步强化学习,14B代码模型达到SOTA水平

6 月 3 日,清华蚂蚁联合研发的全异步强化学习训练系统 AReaL-boba2(AReaL v0.3)正式宣布开源。


项目地址:https://huggingface.co/inclusionAI/AReaL-boba-2-14B-Open


据了解,这一系统全面实现了异步强化学习训练,完全解耦模型生成与训练,性能效果不变的前提下,训练速度对比上一版本最高提升 2.77 倍,GPU 资源利用率大幅优化。


研究人员使用这一系统在 Qwen3 系列模型上做强化学习训练,实现 8B、14B 模型在 LiveCodeBench, Codeforce, Codecontest 等 benchmark 上达到 SOTA 水准。此外, AReaL-boba2还原生支持多轮智能体强化学习训练,开发者可以根据自己的需求自由定制智能体和智能体环境,进行多智能体 Agentic RL 训练。

 

寻找兼顾高效能、高效率的强化学习训练方式,一直是从业人员持续面临的课题。在传统的强化学习训练流程中,同步强化学习训练每一个批次(batch)的数据都是由同一个模型版本产生,因此模型参数更新需要等待批次中数据全部生成完成才能启动。


由于推理模型的输出长短差异极大,在同样的批大小(batch size)下,强化学习训练必须等待批次中最长的输出生成完才能继续进行训练,以及进行下一个批次的数据收集,造成极大 GPU 资源浪费。而异步强化学习(Asynchronous RL)将数据生成与模型训练完全解耦,以不间断的流式生成和并行训练的计算方式,极大提高了资源使用率,天然适用于多轮次交互的 Agent 场景。业界认为,异步强化学习是一种重要的算法范式,将成为未来强化学习的重要方向之一。

 

在 AReaL-boba2的工作中,研究人员通过算法系统 co-design 的方式实现了完全异步强化学习训练(fully asynchronous RL),从根本上解决了同步强化学习的各种问题。AReaL-boba2生成任务持续流式进行以保证 GPU 资源始终满载运行,杜绝了 GPU 空闲。AReaL-boba2的系统设计可以在保证稳定 RL 训练的同时,参数同步的通信和计算花销仅占总训练时间的 1%以内。


此外,由于全异步 RL 中同批次数据可能由不同版本的模型产生,AReaL-boba2也对 RL 算法进行了升级,在提速的同时确保模型效果。

 

AReaL 由蚂蚁技术研究院和清华大学交叉信息研究院共同发起,是国内首个完整开源数据、代码、模型、脚本的强化学习开源项目。


目前 AReaL 已经开源了 AReaL v0.1 版、AReaL v0.2 版(AReaL-boba)。其中,AReaL v0.2(AReaL-boba) 版本是其里程碑版本,可用 128 张 H800 GPU 在 1 天训练完成 SOTA 1.5B 推理模型训练,256 张 H800 GPU 2 天内完成 SOTA 7B 推理模型训练的效果。此前 AReaL-boba 项目也得到了来自海外开发者的高度认可,评价“AReal-boba 通过开放 SOTA 推理模型的资源和透明的训练方式,让先进的 AI 推理技术平权化,降低了研究的门槛。 ”

 

AReaL 团队在技术报告中表示,该项目融合了蚂蚁强化学习实验室与清华交叉信息院吴翼团队多年的技术积累,也获得了大量来自蚂蚁集团超算技术团队和数据智能实验室的帮助。AReaL 的诞生离不开 DeepScaleR、Open-Reasoner-Zero、OpenRLHF、VeRL、SGLang、QwQ、Light-R1、DAPO 等优秀开源框架和模型的启发。

2025-06-05 10:4922
用户头像
李冬梅 加V:busulishang4668

发布了 1085 篇内容, 共 702.4 次阅读, 收获喜欢 1242 次。

关注

评论

发布
暂无评论
发现更多内容

HBase 的协处理器详细剖析

五分钟学大数据

11月日更

【活动预告】下一代数据平台走向何方?

SphereEx

大数据 大前端 ShardingSphere SphereEx 线上沙龙

质量基础设施“一站式”线上平台搭建,NQI一站式综合平台解决方案

电微13828808271

SAP 公有云和私有云解决方案概述

汪子熙

公有云 云平台 SAP 11月日更 公有云私有云

10年阿里人告诉你:秒杀系统设计就该这么玩

热爱java的分享家

Java 架构 程序人生 编程语言 经验分享

先到先得!Alibaba甩出第四次更新的JDK源码高级笔记(终极版)

热爱java的分享家

Java 源码 jdk 面试 经验分享

恒源云(GPUSHARE)_训练一个专门捣乱的模型

恒源云

人工智能 深度学习 算力

JS柯里化和反柯里化

Jeannette

跨端分布式计算技术初探|HDC2021技术分论坛

HarmonyOS开发者

HarmonyOS

ETL工具算法构建企业级数据仓库五步法

大数据技术指南

11月日更

分布式软时钟有多重要?|HDC2021技术分论坛

HarmonyOS开发者

HarmonyOS

广发证券携手HarmonyOS打造智慧金融服务|HDC2021技术分论坛

HarmonyOS开发者

HarmonyOS

async/await 优雅永不过时

CRMEB

Tapdata “设擂招贤”携手 LeetCode 举办全球极客技术竞赛

tapdata

智慧园区一体化管理平台开发,园区智能化集成系统

电微13828808271

尝试 Promise A+

Jeannette

硬科技起飞,这家成立仅三年的AI研究院已颇具国际风范

硬科技星球

应急响应入门之Linux分析排查

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 安全漏洞

闭包与内存泄露

Jeannette

Apache Tomcat 7.x安全加固指南

喀拉峻

网络安全 安全 信息安全

微信 ClickHouse 实时数仓的最佳实践

科技热闻

字节跳动如何系统性治理 iOS 稳定性问题

字节跳动终端技术

ios 字节跳动 APM APP稳定性

一周信创舆情观察(11.15~11.21)

统小信uos

2021年26家大厂Java面试题整理了360道(分布式+微服务+高并发)

热爱java的分享家

Java 架构 面试 程序人生 经验分享

TDengine在理想汽车物联网业务场景的落地实践

TDengine

tdengine 时序数据库

高可用是什么意思啊?行云管家支持高可用部署吗?

行云管家

高可用 服务器 IT运维

下单延迟10s撤单性能测试

FunTester

性能测试 延迟队列 接口测试 测试框架 FunTester

Javascript的内存管理

Jeannette

JS函数的this

Jeannette

架构实战营 模块五

felix

#架构实战营

SAP ERP classification 和 SAP Cloud for Customer 的同步

汪子熙

中间件 SAP ERP C4C 11月日更

清华、蚂蚁联合开源AReaL-boba2,实现全异步强化学习,14B代码模型达到SOTA水平_AI&大模型_李冬梅_InfoQ精选文章