写点什么

大模型云上训练工程突破:阿里云 PAI 在超大规模集群下的调度与容错实践|AICon 上海

  • 2026-06-01
    北京
  • 本文字数:1065 字

    阅读完需:约 3 分钟

当前,以 Agent 为核心的新一轮技术浪潮正在席卷产业。那么,世界模型的下一个突破在哪?Agent 从 Demo 到工程化还差什么?研发体系不重构,还能撑多久?

6 月 26 日-6 月 27 日,AICon全球人工智能开发与应用大会将在上海举办。本次大会将围绕以上问题,邀请来自腾讯、阿里、快手、华为、飞猪等 50+头部企业的技术负责人、高校与科研机构的一线专家,分享 Agent 在真实生产环境中的落地经验与前瞻思考。深入探讨 Agent 从原型到量产的工程挑战、数据与记忆的基础设施底座、安全可信的落地保障,以及大模型推理优化、智算架构升级等关键命题。

阿里云高级产品专家贾珂确认出席 “企业智算架构弹性适配” 专题,发表题为大模型云上训练工程突破:阿里云PAI在超大规模集群下的调度与容错实践的主题分享。AI 时代,大模型训练面临稳定性、效率与成本的三重挑战,而超大规模集群的管理更是难上加难。本次分享将系统解读阿里云人工智能平台 PAI 的训练服务架构:管理数个超大规模 AI 训练集群,总规模达数十万张 GPU 卡。目前该平台已支撑多个行业的大模型训练任务,覆盖不同规模的训练需求与应用场景。

贾珂,阿里云高级产品专家,10 年+大数据和 AI 研发和产品设计经验,专注 AI 基础设施与大模型训练服务产品研发。阿里云人工智能平台 PAI,算力调度和训练服务产品经理,主导大规模异构资源超大规模分布式训练、弹性资源调度等核心模块的架构设计与商业化落地。致力于通过"稳定、高效、高性价比"的云上训练方案,降低千行百业大模型训练门槛,助力技术普惠化。他在本次会议的详细演讲内容如下:

演讲提纲:

  1. PAI 平台全景:阿里云 PAI 整体设计框架和介绍,"1 个构建平台+2 大核心服务"架构解析:最佳开发平台 + 超大规模训练 + 推理服务

  2. 云上服务的挑战和设计思路,服务多租户,需要兼具架构设计领先型和使用灵活性。

  3. 超大规模训练的调度,通过多级配额、抢占式调度、竞价实例等机制实现极致性价比。

  4. 超大规模训练的高稳定: 容错训练与自动自愈、秒级模型保存恢复、全链路健康检测与可观测性

  5. 超大规模训练的易用性:深度学习容器化体验;预集成主流框架;一键提交训练任务

  6. 多行业多客户使用场景

听众收益:

  • 可以了解云上大模型商业化产品的深度解析

除此之外,本次大会还策划了端侧 AI、物理与数字空间智能化世界模型与多模态智能突破Agent 架构与工程化实践Agent 安全与可信治理企业级研发体系重构AI 原生数据工程AI 时代的个人提效与组织变革等 14 个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在现场带来前沿技术洞察和一线实践经验。

更多详情可扫码或联系票务经理 13269078023 进行咨询。