写点什么

训推一体潮汐弹性:蚂蚁集团在智算基础设施的池化调度实践|AICon 上海

  • 2026-05-20
    北京
  • 本文字数:1412 字

    阅读完需:约 5 分钟

当前,以 Agent 为核心的新一轮技术浪潮正在席卷产业。那么,世界模型的下一个突破在哪?Agent 从 Demo 到工程化还差什么?研发体系不重构,还能撑多久?

6 月 26 日-6 月 27 日,AICon全球人工智能开发与应用大会将在上海举办。本次大会将围绕以上问题,邀请来自腾讯、阿里、快手、华为、飞猪等 50+头部企业的技术负责人、高校与科研机构的一线专家,分享 Agent 在真实生产环境中的落地经验与前瞻思考。深入探讨 Agent 从原型到量产的工程挑战、数据与记忆的基础设施底座、安全可信的落地保障,以及大模型推理优化、智算架构升级等关键命题。

蚂蚁集团高级技术专家吴伟已确认出席 “企业智算架构弹性适配” 专题,并发表题为《训推一体潮汐弹性:蚂蚁集团在智算基础设施的池化调度实践》的主题分享。大模型时代,训练与推理长期分池运行,训练侧弹性但离线、推理侧固定但在线,两者资源需求呈"潮汐"对立——夜间训练吃满集群、白天推理迎来峰值,导致 GPU 平均利用率较低。本演讲将分享完整的架构设计、潮汐调度策略和异构适配中的踩坑经验。

吴伟,蚂蚁集团高级技术专家,蚂蚁容器调度团队负责人,负责蚂蚁内部通智一体容器平台的资源调度和资源管理。18 年加入蚂蚁以来,经历了云原生资源调度从通算到智算的演进。在通算时代,参与了蚂蚁内部系统 k8s 云原生化的升级改造、CPU 在离线混部、CPU 利用率提升等多个项目;在智算时代,负责蚂蚁 GPU 异构资源编排,正在探索通过训推池化、推理服务弹性、任务优先级抢占、自动化 FO 等技术手段,来提升 XPU 资源使用效率,以更好地服务蚂蚁百灵、阿福、灵光等 AI 业务。他在本次会议的详细演讲内容如下:

演讲提纲:

  1. 训练推理资源池分离的背景和问题

    场景引入:展示一张典型 GPU 集群 24 小时利用率曲线图——训练任务凌晨跑满、推理白天峰值、中间大量空白

    核心矛盾:训推分离模式下,两个资源池永远"一个吃不饱、一个在闲置"

  2. 训推一体解决方案整体介绍

    异构算力池化 + 弹性调度

  3. 训推一体关键技术:异构算力池化

    统一抽象模型(XPU):将异构资源统一到一套设备资源管理体系

    关键能力模块:资源纳管(异构芯片接入、拓扑自动发现)→ 异构调度(同构/混合调度)→ 弹性扩缩(Scale Up/Down 无感)→ 任务热迁移(跨芯片业务无感)

  4. 训推一体关键技术:弹性调度

    弹性配额层

    优先级抢占层:

    优先级设计:P0(在线推理)> P1(交互式推理)> P2/P3(离线训练)

    抢占流程:高优先级任务触发 → 低优先级任务 Checkpoint → 资源释放 → 高优先级任务调度 → 负载下降后恢复

    动态混部层(潮汐调度)

  5. 蚂蚁集团的实践效果

  6. 总结和展望:跨 AIDC 的训推联邦调度、基于预测的弹性预分配等

听众收益:

  • 可以了解"弹性配额—优先级抢占—动态混部"三层调度架构的完整设计思路,直接应用于自身企业的大模型基础设施规划和建设中,避免从零探索的试错成本

  • 建立 GPU 资源效率优化的数据化认知框架:通过蚂蚁集团的具体实践,听众可以建立一套 GPU 集群效率度量和优化的基准体系,用于评估自身基础设施的改进空间

除此之外,本次大会还策划了端侧 AI、物理与数字空间智能化世界模型与多模态智能突破Agent 架构与工程化实践Agent 安全与可信治理企业级研发体系重构AI 原生数据工程AI 时代的个人提效与组织变革等 14 个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在现场带来前沿技术洞察和一线实践经验。

8 折倒计时进入最后一周,现在报名立减 1160,查看更多详情可扫码或联系票务经理 13269078023 进行咨询。