写点什么

清华、蚂蚁联合开源 AReaL-boba2,实现全异步强化学习,14B 代码模型达到 SOTA 水平

  • 2025-06-05
    北京
  • 本文字数:1212 字

    阅读完需:约 4 分钟

大小:606.91K时长:03:27
清华、蚂蚁联合开源AReaL-boba2,实现全异步强化学习,14B代码模型达到SOTA水平

6 月 3 日,清华蚂蚁联合研发的全异步强化学习训练系统 AReaL-boba2(AReaL v0.3)正式宣布开源。


项目地址:https://huggingface.co/inclusionAI/AReaL-boba-2-14B-Open


据了解,这一系统全面实现了异步强化学习训练,完全解耦模型生成与训练,性能效果不变的前提下,训练速度对比上一版本最高提升 2.77 倍,GPU 资源利用率大幅优化。


研究人员使用这一系统在 Qwen3 系列模型上做强化学习训练,实现 8B、14B 模型在 LiveCodeBench, Codeforce, Codecontest 等 benchmark 上达到 SOTA 水准。此外, AReaL-boba2还原生支持多轮智能体强化学习训练,开发者可以根据自己的需求自由定制智能体和智能体环境,进行多智能体 Agentic RL 训练。

 

寻找兼顾高效能、高效率的强化学习训练方式,一直是从业人员持续面临的课题。在传统的强化学习训练流程中,同步强化学习训练每一个批次(batch)的数据都是由同一个模型版本产生,因此模型参数更新需要等待批次中数据全部生成完成才能启动。


由于推理模型的输出长短差异极大,在同样的批大小(batch size)下,强化学习训练必须等待批次中最长的输出生成完才能继续进行训练,以及进行下一个批次的数据收集,造成极大 GPU 资源浪费。而异步强化学习(Asynchronous RL)将数据生成与模型训练完全解耦,以不间断的流式生成和并行训练的计算方式,极大提高了资源使用率,天然适用于多轮次交互的 Agent 场景。业界认为,异步强化学习是一种重要的算法范式,将成为未来强化学习的重要方向之一。

 

在 AReaL-boba2的工作中,研究人员通过算法系统 co-design 的方式实现了完全异步强化学习训练(fully asynchronous RL),从根本上解决了同步强化学习的各种问题。AReaL-boba2生成任务持续流式进行以保证 GPU 资源始终满载运行,杜绝了 GPU 空闲。AReaL-boba2的系统设计可以在保证稳定 RL 训练的同时,参数同步的通信和计算花销仅占总训练时间的 1%以内。


此外,由于全异步 RL 中同批次数据可能由不同版本的模型产生,AReaL-boba2也对 RL 算法进行了升级,在提速的同时确保模型效果。

 

AReaL 由蚂蚁技术研究院和清华大学交叉信息研究院共同发起,是国内首个完整开源数据、代码、模型、脚本的强化学习开源项目。


目前 AReaL 已经开源了 AReaL v0.1 版、AReaL v0.2 版(AReaL-boba)。其中,AReaL v0.2(AReaL-boba) 版本是其里程碑版本,可用 128 张 H800 GPU 在 1 天训练完成 SOTA 1.5B 推理模型训练,256 张 H800 GPU 2 天内完成 SOTA 7B 推理模型训练的效果。


此前 AReaL-boba 项目也得到了来自海外开发者的高度认可,评价“AReal-boba 通过开放 SOTA 推理模型的资源和透明的训练方式,让先进的 AI 推理技术平权化,降低了研究的门槛。 ”

 

AReaL 团队在技术报告中表示,该项目融合了蚂蚁强化学习实验室与清华交叉信息院吴翼团队多年的技术积累,也获得了大量来自蚂蚁集团超算技术团队和数据智能实验室的帮助。AReaL 的诞生离不开 DeepScaleR、Open-Reasoner-Zero、OpenRLHF、VeRL、SGLang、QwQ、Light-R1、DAPO 等优秀开源框架和模型的启发。

2025-06-05 10:495263
用户头像
李冬梅 加V:busulishang4668

发布了 1154 篇内容, 共 771.0 次阅读, 收获喜欢 1282 次。

关注

评论

发布
暂无评论
发现更多内容

解决vue组件终端报错: error Component name “xxx“ should always be multi-word vue/multi-word

不觉心动

6 月 优质更文活动

文末有奖品 | 开放原子全球峰会最新剧透,给我冲!

KaiwuDB

数据库

趋吉避凶、取名问卜!大语言模型再算命领域有哪些应用

FN0

AIGC

小程序容器与PWA有什么不同?

没有用户名丶

RabbitMQ工作模式总结

不觉心动

6 月 优质更文活动

天翼云SD-WAN解决方案直播

天翼云开发者社区

云计算 服务器 云服务

SpringBoot整合RabbitMQ生产者

不觉心动

6 月 优质更文活动

深度学习应用篇-计算机视觉-语义分割综述[5]:FCN、SegNet、Deeplab等分割算法、常用二维三维半立体数据集汇总、前景展望等

汀丶人工智能

人工智能 深度学习 计算机视觉 语义分割算法 6 月 优质更文活动

深度学习应用篇-计算机视觉-语义分割综述[6]:DeepLab系列简介、DeepLabV3深入解读创新点、训练策略、主要贡献

汀丶人工智能

人工智能 深度学习 计算机视觉 语义分割算法 6 月 优质更文活动

Terraform 改善基础架构的十个最佳实践

SEAL安全

Terraform 基础架构 企业号 6 月 PK 榜

ESP8266调用NTP服务器进行时间校准

DS小龙哥

6 月 优质更文活动

新斗罗大陆游戏详细图文架设教程

echeverra

斗罗大陆

当中间件遇到云原生,看看会发生什么事

金蝶天燕云

云原生中间件 中间件套件

我对混沌工程的理解

老张

混沌工程

解决SpringBoot整合Mybatis和Mybatis-Plus不能公用(版本兼容性问题)

不觉心动

6 月 优质更文活动

Redis.confp配置文件的一些配置

不觉心动

6 月 优质更文活动

Redis的发布订阅

不觉心动

6 月 优质更文活动

RabbitMQ工作模式 Pub/Sub订阅模式

不觉心动

6 月 优质更文活动

科兴未来|第六届中国·南宁海(境)外人才创新创业大赛

科兴未来News

纠删码技术在vivo存储系统的演进【上篇】

vivo互联网技术

分布式存储 磁盘故障 纠删码 数据可靠性

人工智能正在使代码普惠化!未来五年人人都能编程

FN0

openEuler22+GreatSQL+dbops玩转MGR

GreatSQL

MySQL 高可用 greatsql greatsql社区

火热报名 |【崖山论“见”】第3期,如何让SQL速度飞起来

YashanDB

数据库 sql 技术沙龙 优化器 技术干货

使用SpringBoot整合数据库连接池Druid的错误总结

不觉心动

6 月 优质更文活动

【Netty】「NIO」(五)多线程优化

sidiot

Java 后端 Netty 6 月 优质更文活动

RabbitMQ工作模式 Routing路由模式

不觉心动

6 月 优质更文活动

聊聊那些奇葩的代码规范 —— 滥用静态导入

HoneyMoose

RabbitMQ工作模式之Work queues工作队列模式

不觉心动

6 月 优质更文活动

Springboot整合RabbitMQ生产端和消费端

不觉心动

6 月 优质更文活动

《弥合鸿沟——2023校园招聘调研报告&备战攻略》重磅发布!一文速览10大关键发现

用友BIP

招聘 人才 校招

清华、蚂蚁联合开源AReaL-boba2,实现全异步强化学习,14B代码模型达到SOTA水平_AI&大模型_李冬梅_InfoQ精选文章