
6 月 3 日,清华蚂蚁联合研发的全异步强化学习训练系统 AReaL-boba2(AReaL v0.3)正式宣布开源。
项目地址:https://huggingface.co/inclusionAI/AReaL-boba-2-14B-Open
据了解,这一系统全面实现了异步强化学习训练,完全解耦模型生成与训练,性能效果不变的前提下,训练速度对比上一版本最高提升 2.77 倍,GPU 资源利用率大幅优化。
研究人员使用这一系统在 Qwen3 系列模型上做强化学习训练,实现 8B、14B 模型在 LiveCodeBench, Codeforce, Codecontest 等 benchmark 上达到 SOTA 水准。此外, AReaL-boba2还原生支持多轮智能体强化学习训练,开发者可以根据自己的需求自由定制智能体和智能体环境,进行多智能体 Agentic RL 训练。
寻找兼顾高效能、高效率的强化学习训练方式,一直是从业人员持续面临的课题。在传统的强化学习训练流程中,同步强化学习训练每一个批次(batch)的数据都是由同一个模型版本产生,因此模型参数更新需要等待批次中数据全部生成完成才能启动。
由于推理模型的输出长短差异极大,在同样的批大小(batch size)下,强化学习训练必须等待批次中最长的输出生成完才能继续进行训练,以及进行下一个批次的数据收集,造成极大 GPU 资源浪费。而异步强化学习(Asynchronous RL)将数据生成与模型训练完全解耦,以不间断的流式生成和并行训练的计算方式,极大提高了资源使用率,天然适用于多轮次交互的 Agent 场景。业界认为,异步强化学习是一种重要的算法范式,将成为未来强化学习的重要方向之一。
在 AReaL-boba2的工作中,研究人员通过算法系统 co-design 的方式实现了完全异步强化学习训练(fully asynchronous RL),从根本上解决了同步强化学习的各种问题。AReaL-boba2生成任务持续流式进行以保证 GPU 资源始终满载运行,杜绝了 GPU 空闲。AReaL-boba2的系统设计可以在保证稳定 RL 训练的同时,参数同步的通信和计算花销仅占总训练时间的 1%以内。
此外,由于全异步 RL 中同批次数据可能由不同版本的模型产生,AReaL-boba2也对 RL 算法进行了升级,在提速的同时确保模型效果。
AReaL 由蚂蚁技术研究院和清华大学交叉信息研究院共同发起,是国内首个完整开源数据、代码、模型、脚本的强化学习开源项目。
目前 AReaL 已经开源了 AReaL v0.1 版、AReaL v0.2 版(AReaL-boba)。其中,AReaL v0.2(AReaL-boba) 版本是其里程碑版本,可用 128 张 H800 GPU 在 1 天训练完成 SOTA 1.5B 推理模型训练,256 张 H800 GPU 2 天内完成 SOTA 7B 推理模型训练的效果。此前 AReaL-boba 项目也得到了来自海外开发者的高度认可,评价“AReal-boba 通过开放 SOTA 推理模型的资源和透明的训练方式,让先进的 AI 推理技术平权化,降低了研究的门槛。 ”
AReaL 团队在技术报告中表示,该项目融合了蚂蚁强化学习实验室与清华交叉信息院吴翼团队多年的技术积累,也获得了大量来自蚂蚁集团超算技术团队和数据智能实验室的帮助。AReaL 的诞生离不开 DeepScaleR、Open-Reasoner-Zero、OpenRLHF、VeRL、SGLang、QwQ、Light-R1、DAPO 等优秀开源框架和模型的启发。
评论