KubeCon NA 2025：Robert Nishihara讨论了使用Kubernetes、Ray、PyTorch和vLLM进行开源AI计算

AI 工作负载在计算和数据方面正变得越来越复杂，像Kubernetes和PyTorch这样的技术可以帮助构建生产环境就绪的 AI 系统来支持它们。来自 Anyscale 的 Robert Nishihara 最近在2025年北美KubeCon + CloudNativeCon会议上谈到了如何通过包含 Kubernetes、PyTorch、vLLM和Ray技术的 AI 计算栈来支持这些新的 AI 工作负载。

Ray 是一个开源框架，旨在构建和扩展机器学习和 Python 应用程序。它能够为分布式工作负载编排基础设施，是在伯克利的一个强化学习研究项目中开发的。最近，Ray 成为了PyTorch基金会的一部分，为更广泛的开源 AI 生态系统做出贡献。

Nishihara 强调了推动 AI 工作负载演变的三个主要领域，即数据处理、模型训练和模型服务。数据处理必须适应 AI 应用所需的新兴数据类型，从传统的表格数据扩展到多模态数据集（可以包括图像、视频、音频、文本和传感器数据）。这种演变对于支持推理任务至关重要，推理任务是 AI 驱动应用的基本组成部分。此外，用于数据存储和计算操作的硬件需要支持 GPU 和标准 CPU。他指出，数据处理已经从“在 CPU 上的 SQL 操作”转变为“在 GPU 上的推理”。

模型训练涉及强化学习（reinforcement learning，RL）和训练后任务，包括通过在模型上运行推理来生成新数据。Ray 的Actor API可以用于训练器（Trainer）和生成器（Generator）组件。一个“Actor”本质上是一个有状态的工作者（worker），当实例化时创建一个新的工作者类，并管理该特定工作者实例上的方法调度。此外，Ray 的原生远程直接内存访问（Remote Direct Memory Access，RDMA）支持允许通过 RDMA 直接传输 GPU 对象，以提高性能。

在 Ray 之上已经开发了多个开源的强化学习框架。例如，AI 驱动的代码编辑工具Cursor的 composer 就是基于 Ray 构建的。Nishihara 还提到了其他值得注意的框架，如Verl（字节跳动）、OpenRLHF、ROLL（阿里巴巴）、NeMO-RL（Nvidia）和SkyRL（加州大学伯克利分校），它们使用Hugging Face、FSDP、DeepSpeed、Megatron等训练引擎，以及 Hugging Face、vLLM、SGLang和 OpenAI 等服务引擎，均由 Ray 编排。

他分享了 Ray 背后的应用架构，指出了上层和下层都存在日益增长的复杂性。连接顶层应用程序和底层硬件的软件栈的需求不断增长。顶层包括 AI 工作负载、模型训练和像 PyTorch、vLLM、Megatron 和 SGLang 这样的推理框架。相比之下，底层由计算基底（GPU 和 CPU）和像 Kubernetes 和Slurm这样的容器编排器组成。Ray 和Spark这样的分布式计算框架作为顶层和底层组件之间的桥梁，处理数据摄取和数据移动。

Kubernetes 和 Ray 互补地托管 AI 应用程序，将容器级别的隔离扩展到进程级别的隔离，并提供垂直和水平的自动扩展。Nishihara 指出，与模型训练相比，推理阶段需求的增加或减少，将 GPU 在这些阶段之间的转移变得更有益处，这是通过使用 Ray 和 Kubernetes 一起实现的能力。

总之，Nishihara 强调了 AI 平台的核心要求，这些要求必须支持原生多云体验、跨 GPU 预留的工作负载优先级、可观测性和工具、模型和数据世系跟踪以及总体治理。可观测性在容器级别、工作负载级别及进程级别都至关重要，它可以监控对象传输速度等指标。

原文链接：

KubeCon NA 2025 - Robert Nishihara on Open Source AI Compute with Kubernetes, Ray, PyTorch, and vLLM

创作场景

KubeCon NA 2025：Robert Nishihara 讨论了使用 Kubernetes、Ray、PyTorch 和 vLLM 进行开源 AI 计算