写点什么

从模型诞生到上线:Ray 在小红书 AI 数据生产中的算力调度实践|AICon 上海

  • 2026-05-26
    北京
  • 本文字数:1754 字

    阅读完需:约 6 分钟

当前,以 Agent 为核心的新一轮技术浪潮正在席卷产业。那么,世界模型的下一个突破在哪?Agent 从 Demo 到工程化还差什么?研发体系不重构,还能撑多久?

6 月 26 日-6 月 27 日,AICon全球人工智能开发与应用大会将在上海举办。本次大会将围绕以上问题,邀请来自腾讯、阿里、快手、华为、飞猪等 50+头部企业的技术负责人、高校与科研机构的一线专家,分享 Agent 在真实生产环境中的落地经验与前瞻思考。深入探讨 Agent 从原型到量产的工程挑战、数据与记忆的基础设施底座、安全可信的落地保障,以及大模型推理优化、智算架构升级等关键命题。

小红书数据引擎开发工程师陈宇确认出席 “AI 原生数据工程” 专题,发表题为从模型诞生到上线:Ray 在小红书 AI 数据生产中的算力调度实践的主题分享。小红书数据引擎团队以 Ray 为统一引擎底座,基于 Ray 引擎的统一调度能力与丰富的上层框架,覆盖了 AI 数据生产三个阶段截然不同的算力诉求——同一套引擎底座,通过不同的框架组合与资源供给策略,驱动从稳定常驻集群到海量弹性算力的全场景落地。本演讲将以这三个阶段为线索,分享 Ray 引擎如何凭借统一的调度底座,通过不同的框架组合与资源供给策略,覆盖 AI 数据生产全生命周期中截然不同的算力诉求,以及在工程实践中形成的核心判断:算力供给模式必须匹配业务阶段的特征,而非用单一模式覆盖所有场景。

陈宇,小红书数据引擎团队核心成员,负责 RED-Ray 分布式计算平台的研发与落地。专注 AI 数据基础设施方向,覆盖大规模预训练数据处理、模型离线刷库与近线推理入库等核心场景;主导向 KubeRay 开源社区提出并设计 KubeRay Federation 跨集群联邦方案(kuberay#4561)。在 AI 算力供给与弹性调度方向有丰富的一线实战经验。他在本次会议的详细演讲内容如下:

演讲提纲:

  1. 一、开篇(为什么一套引擎覆盖三类场景)

    AI 数据生产分三阶段:训练数据准备(稳定常驻+多引擎协同)、离线刷库(短期爆发+容忍驱逐+跨云)、近线增量入库(持续自适应+精确断点恢复)

    Ray 的核心价值:统一调度、支持异构资源、上层生态丰富。整体规模:弹性 CPU 上亿核时/月,GPU 百万卡时/月

  2. 二、Ray 底座能力

    Ray Core:全局资源视图、任意节点发起分布式任务、高性能通信(小数据直传/大数据零拷贝)

    AutoScaler:按需扩缩容,无需预规划

    生态:RayData、RayServe、RayKlein、Daft、RayDP、DataJuicer

  3. 三、训练数据准备(多引擎协同)

    挑战:数据来源多样、处理链路复杂、无万能引擎且协同成本高

    方案:多引擎统一在 Ray 底座,一个 Python 脚本无缝切换不同引擎

    实践:RuntimeEnv 做依赖隔离,本地直连集群开发,大规模集群解决 GCS、调度、日志等稳定性问题

  4. 四、离线刷库(弹性算力)

    挑战:任务紧急、规模大、资源碎片化(多云多区 GPU)

    痛点:大任务拆分导致长尾严重

    演进:

    Virtual Kubelet 聚合多集群 CPU,支持大规模推理,但扩容和驱逐成本高

    存算分离:Serve 化模型算子,用轻量客户端驱动弹性 GPU

    KubeRay Federation:在框架层实现跨集群统一调度,从根本解决负载不均

  5. 近线增量入库(流式算力)

    需求:分钟级处理、7×24 运行、弹性扩缩容、精确恢复

    方案:自研 Ray Klein

    基于分布式一致性快照,实现 Kafka offset 级恢复

    数据驱动+反压机制,自动平衡吞吐

    全局重启与可观测性完善

    一套代码支持流批统一

  6. 总结

    训练数据:统一底座+多引擎协同。

    离线刷库:VK 解决资源聚合,Federation 解决调度

    近线入库:Checkpoint 粒度决定可靠性

    核心结论:算力供给模式必须匹配业务阶段,Ray 提供灵活底座支持差异化

    后续:推进 Federation、Ray Serverless 化、Daft 多模态规模化落地

听众收益:

  • 了解如何基于 Ray 构建覆盖训练数据处理、离线推理、近线推理的统一算力供给体系

  • 了解 RayDP、Ray Data、Daft、DataJuicer 在真实 PreTrain / SFT 数据处理链路中的选型逻辑与协同方式

  • 获得流批统一引擎 Ray Klein 的设计思路,解决近线与离线场景代码割裂的问题

除此之外,本次大会还策划了端侧 AI、物理与数字空间智能化世界模型与多模态智能突破Agent 架构与工程化实践Agent 安全与可信治理企业级研发体系重构AI 原生数据工程AI 时代的个人提效与组织变革等 14 个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在现场带来前沿技术洞察和一线实践经验。

更多详情可扫码或联系票务经理 13269078023 进行咨询。