从模型诞生到上线：Ray 在小红书 AI 数据生产中的算力调度实践｜AICon上海

当前，以 Agent 为核心的新一轮技术浪潮正在席卷产业。那么，世界模型的下一个突破在哪？Agent 从 Demo 到工程化还差什么？研发体系不重构，还能撑多久？

6 月 26 日-6 月 27 日，AICon全球人工智能开发与应用大会将在上海举办。本次大会将围绕以上问题，邀请来自腾讯、阿里、快手、华为、飞猪等 50+头部企业的技术负责人、高校与科研机构的一线专家，分享 Agent 在真实生产环境中的落地经验与前瞻思考。深入探讨 Agent 从原型到量产的工程挑战、数据与记忆的基础设施底座、安全可信的落地保障，以及大模型推理优化、智算架构升级等关键命题。

小红书数据引擎开发工程师陈宇确认出席 “AI 原生数据工程” 专题，发表题为《从模型诞生到上线：Ray 在小红书 AI 数据生产中的算力调度实践》的主题分享。小红书数据引擎团队以 Ray 为统一引擎底座，基于 Ray 引擎的统一调度能力与丰富的上层框架，覆盖了 AI 数据生产三个阶段截然不同的算力诉求——同一套引擎底座，通过不同的框架组合与资源供给策略，驱动从稳定常驻集群到海量弹性算力的全场景落地。本演讲将以这三个阶段为线索，分享 Ray 引擎如何凭借统一的调度底座，通过不同的框架组合与资源供给策略，覆盖 AI 数据生产全生命周期中截然不同的算力诉求，以及在工程实践中形成的核心判断：算力供给模式必须匹配业务阶段的特征，而非用单一模式覆盖所有场景。

陈宇，小红书数据引擎团队核心成员，负责 RED-Ray 分布式计算平台的研发与落地。专注 AI 数据基础设施方向，覆盖大规模预训练数据处理、模型离线刷库与近线推理入库等核心场景；主导向 KubeRay 开源社区提出并设计 KubeRay Federation 跨集群联邦方案（kuberay#4561）。在 AI 算力供给与弹性调度方向有丰富的一线实战经验。他在本次会议的详细演讲内容如下：

演讲提纲：
一、开篇（为什么一套引擎覆盖三类场景）
AI 数据生产分三阶段：训练数据准备（稳定常驻+多引擎协同）、离线刷库（短期爆发+容忍驱逐+跨云）、近线增量入库（持续自适应+精确断点恢复）
Ray 的核心价值：统一调度、支持异构资源、上层生态丰富。整体规模：弹性 CPU 上亿核时/月，GPU 百万卡时/月
2. 二、Ray 底座能力
Ray Core：全局资源视图、任意节点发起分布式任务、高性能通信（小数据直传/大数据零拷贝）
AutoScaler：按需扩缩容，无需预规划
生态：RayData、RayServe、RayKlein、Daft、RayDP、DataJuicer
3. 三、训练数据准备（多引擎协同）
挑战：数据来源多样、处理链路复杂、无万能引擎且协同成本高
方案：多引擎统一在 Ray 底座，一个 Python 脚本无缝切换不同引擎
实践：RuntimeEnv 做依赖隔离，本地直连集群开发，大规模集群解决 GCS、调度、日志等稳定性问题
4. 四、离线刷库（弹性算力）
挑战：任务紧急、规模大、资源碎片化（多云多区 GPU）
痛点：大任务拆分导致长尾严重
演进：
Virtual Kubelet 聚合多集群 CPU，支持大规模推理，但扩容和驱逐成本高
存算分离：Serve 化模型算子，用轻量客户端驱动弹性 GPU
KubeRay Federation：在框架层实现跨集群统一调度，从根本解决负载不均
5. 近线增量入库（流式算力）
需求：分钟级处理、7×24 运行、弹性扩缩容、精确恢复
方案：自研 Ray Klein
基于分布式一致性快照，实现 Kafka offset 级恢复
数据驱动+反压机制，自动平衡吞吐
全局重启与可观测性完善
一套代码支持流批统一
6. 总结
训练数据：统一底座+多引擎协同。
离线刷库：VK 解决资源聚合，Federation 解决调度
近线入库：Checkpoint 粒度决定可靠性
核心结论：算力供给模式必须匹配业务阶段，Ray 提供灵活底座支持差异化
后续：推进 Federation、Ray Serverless 化、Daft 多模态规模化落地
听众收益：
了解如何基于 Ray 构建覆盖训练数据处理、离线推理、近线推理的统一算力供给体系
了解 RayDP、Ray Data、Daft、DataJuicer 在真实 PreTrain / SFT 数据处理链路中的选型逻辑与协同方式
获得流批统一引擎 Ray Klein 的设计思路，解决近线与离线场景代码割裂的问题

除此之外，本次大会还策划了端侧 AI、物理与数字空间智能化、世界模型与多模态智能突破、Agent 架构与工程化实践、Agent 安全与可信治理、企业级研发体系重构、AI 原生数据工程、AI 时代的个人提效与组织变革等 14 个专题论坛，届时将有来自不同行业、不同领域、不同企业的 50+资深专家在现场带来前沿技术洞察和一线实践经验。

更多详情可扫码或联系票务经理 13269078023 进行咨询。

创作场景

从模型诞生到上线：Ray 在小红书 AI 数据生产中的算力调度实践｜AICon 上海