训推一体潮汐弹性：蚂蚁集团在智算基础设施的池化调度实践｜AICon上海

当前，以 Agent 为核心的新一轮技术浪潮正在席卷产业。那么，世界模型的下一个突破在哪？Agent 从 Demo 到工程化还差什么？研发体系不重构，还能撑多久？

6 月 26 日-6 月 27 日，AICon全球人工智能开发与应用大会将在上海举办。本次大会将围绕以上问题，邀请来自腾讯、阿里、快手、华为、飞猪等 50+头部企业的技术负责人、高校与科研机构的一线专家，分享 Agent 在真实生产环境中的落地经验与前瞻思考。深入探讨 Agent 从原型到量产的工程挑战、数据与记忆的基础设施底座、安全可信的落地保障，以及大模型推理优化、智算架构升级等关键命题。

蚂蚁集团高级技术专家吴伟已确认出席 “企业智算架构弹性适配” 专题，并发表题为《训推一体潮汐弹性：蚂蚁集团在智算基础设施的池化调度实践》的主题分享。大模型时代，训练与推理长期分池运行，训练侧弹性但离线、推理侧固定但在线，两者资源需求呈"潮汐"对立——夜间训练吃满集群、白天推理迎来峰值，导致 GPU 平均利用率较低。本演讲将分享完整的架构设计、潮汐调度策略和异构适配中的踩坑经验。

吴伟，蚂蚁集团高级技术专家，蚂蚁容器调度团队负责人，负责蚂蚁内部通智一体容器平台的资源调度和资源管理。18 年加入蚂蚁以来，经历了云原生资源调度从通算到智算的演进。在通算时代，参与了蚂蚁内部系统 k8s 云原生化的升级改造、CPU 在离线混部、CPU 利用率提升等多个项目；在智算时代，负责蚂蚁 GPU 异构资源编排，正在探索通过训推池化、推理服务弹性、任务优先级抢占、自动化 FO 等技术手段，来提升 XPU 资源使用效率，以更好地服务蚂蚁百灵、阿福、灵光等 AI 业务。他在本次会议的详细演讲内容如下：

演讲提纲：
训练推理资源池分离的背景和问题
场景引入：展示一张典型 GPU 集群 24 小时利用率曲线图——训练任务凌晨跑满、推理白天峰值、中间大量空白
核心矛盾：训推分离模式下，两个资源池永远"一个吃不饱、一个在闲置"
2. 训推一体解决方案整体介绍
异构算力池化 + 弹性调度
3. 训推一体关键技术：异构算力池化
统一抽象模型（XPU）：将异构资源统一到一套设备资源管理体系
关键能力模块：资源纳管（异构芯片接入、拓扑自动发现）→ 异构调度（同构/混合调度）→ 弹性扩缩（Scale Up/Down 无感）→ 任务热迁移（跨芯片业务无感）
4. 训推一体关键技术：弹性调度
弹性配额层
优先级抢占层：
优先级设计：P0（在线推理）> P1（交互式推理）> P2/P3（离线训练）
抢占流程：高优先级任务触发 → 低优先级任务 Checkpoint → 资源释放 → 高优先级任务调度 → 负载下降后恢复
动态混部层（潮汐调度）
5. 蚂蚁集团的实践效果
6. 总结和展望：跨 AIDC 的训推联邦调度、基于预测的弹性预分配等
听众收益：
可以了解"弹性配额—优先级抢占—动态混部"三层调度架构的完整设计思路，直接应用于自身企业的大模型基础设施规划和建设中，避免从零探索的试错成本
建立 GPU 资源效率优化的数据化认知框架：通过蚂蚁集团的具体实践，听众可以建立一套 GPU 集群效率度量和优化的基准体系，用于评估自身基础设施的改进空间

除此之外，本次大会还策划了端侧 AI、物理与数字空间智能化、世界模型与多模态智能突破、Agent 架构与工程化实践、Agent 安全与可信治理、企业级研发体系重构、AI 原生数据工程、AI 时代的个人提效与组织变革等 14 个专题论坛，届时将有来自不同行业、不同领域、不同企业的 50+资深专家在现场带来前沿技术洞察和一线实践经验。

8 折倒计时进入最后一周，现在报名立减 1160，查看更多详情可扫码或联系票务经理 13269078023 进行咨询。

创作场景

训推一体潮汐弹性：蚂蚁集团在智算基础设施的池化调度实践｜AICon 上海