写点什么

Google OpenRL 是一个用于大型语言模型(LLM)后训练微调的实验性自托管 API

作者:Sergio De Simone
  • 2026-06-30
    北京
  • 本文字数:981 字

    阅读完需:约 3 分钟

谷歌 GKE Labs 推出开源项目 OpenRL,为在标准 Kubernetes 集群上对大型语言模型(LLM)进行后训练和微调提供一个自托管 API。

谷歌表示,OpenRL 将强化学习(RL)基础设施从 AI 研究中抽象出来,使机器学习团队能够直接在自己的集群上扩展后训练工作流。

据谷歌工程师称,在大型语言模型(LLM)上进行基于代理的强化学习时,“极易因系统复杂性高而陷入困境”。即使是一个简单的强化学习循环,也需要同时处理许多环节:数据准备与清洗、环境选择、训练循环调试、奖励设计、处理推理不一致问题、硬件配置以及底层基础设施管理。

这些都是棘手的问题。但真正让情况变得更加复杂的是,在当今的工具和框架中,AI 研究与基础设施问题紧密地交织在一起。

谷歌工程师认为,通过将基础设施与 AI 研究分离,这些挑战将变得更易于应对,使专业团队能够专注于各自的领域,这与 Kubernetes 通过实现基础设施抽象化,从而为应用程序开发人员和可靠性工程师简化工作流的方式如出一辙。

OpenRL 提高训练后微调效率的方式之一,是在你的基础设施上运行多个强化学习任务,借此提高整体的 GPU 利用率。据谷歌研究人员称,传统的强化学习循环是严格按顺序执行的,这往往导致 GPU 在等待 CPU 或网络受限任务(尤其是奖励计算)完成时处于空闲状态。

此外,谷歌指出,OpenRL 通过明确划分职责来提升用户体验:研究人员可以专注于开发强化学习循环,而工程师则负责执行和扩展训练后微调工作流。

在进行研发时,你无需直接在配备 GPU 的机器上运行强化学习循环,而只需在 Mac 上运行强化学习循环,并将其指向在 Kubernetes 集群或虚拟机上运行的训练 API 即可。

OpenRL 代码库中还包含一个 autoresearch 方案,演示了如何在 Gemma 模型的 text-to-sql 工作流中,针对参数扫描运行并行实验并优化奖励信号。除了实际的应用价值外,谷歌还将其作为自动化如何简化并扩展 AI 研究的范例做了重点介绍。

OpenRL 可以在 macOS、Nvidia GPU 和 GKE 上轻松使用。此外,得益于其与 Tinker 端点的兼容性,它还能与 Tinker-Cookbook 集成。

OpenRL 并非唯一致力于通过更好的分离关注点来简化训练后微调的尝试。例如,FeynRL 确保了微调方案与系统逻辑的分离,这不仅使研究人员能够更轻松地开发和测试新方法,还能借助 DeepSpeed、Ray 和 vLLM 等工具实现这些方法的规模化应用。

原文链接:https://www.infoq.com/news/2026/06/google-open-rl-fine-tuning/