大模型云上训练工程突破：阿里云PAI在超大规模集群下的调度与容错实践｜AICon上海

当前，以 Agent 为核心的新一轮技术浪潮正在席卷产业。那么，世界模型的下一个突破在哪？Agent 从 Demo 到工程化还差什么？研发体系不重构，还能撑多久？

6 月 26 日-6 月 27 日，AICon全球人工智能开发与应用大会将在上海举办。本次大会将围绕以上问题，邀请来自腾讯、阿里、快手、华为、飞猪等 50+头部企业的技术负责人、高校与科研机构的一线专家，分享 Agent 在真实生产环境中的落地经验与前瞻思考。深入探讨 Agent 从原型到量产的工程挑战、数据与记忆的基础设施底座、安全可信的落地保障，以及大模型推理优化、智算架构升级等关键命题。

阿里云高级产品专家贾珂确认出席 “企业智算架构弹性适配” 专题，发表题为《大模型云上训练工程突破：阿里云PAI在超大规模集群下的调度与容错实践》的主题分享。AI 时代，大模型训练面临稳定性、效率与成本的三重挑战，而超大规模集群的管理更是难上加难。本次分享将系统解读阿里云人工智能平台 PAI 的训练服务架构：管理数个超大规模 AI 训练集群，总规模达数十万张 GPU 卡。目前该平台已支撑多个行业的大模型训练任务，覆盖不同规模的训练需求与应用场景。

贾珂，阿里云高级产品专家，10 年+大数据和 AI 研发和产品设计经验，专注 AI 基础设施与大模型训练服务产品研发。阿里云人工智能平台 PAI，算力调度和训练服务产品经理，主导大规模异构资源超大规模分布式训练、弹性资源调度等核心模块的架构设计与商业化落地。致力于通过"稳定、高效、高性价比"的云上训练方案，降低千行百业大模型训练门槛，助力技术普惠化。他在本次会议的详细演讲内容如下：

演讲提纲：
PAI 平台全景：阿里云 PAI 整体设计框架和介绍，"1 个构建平台+2 大核心服务"架构解析：最佳开发平台 + 超大规模训练 + 推理服务
云上服务的挑战和设计思路，服务多租户，需要兼具架构设计领先型和使用灵活性。
超大规模训练的调度，通过多级配额、抢占式调度、竞价实例等机制实现极致性价比。
超大规模训练的高稳定：容错训练与自动自愈、秒级模型保存恢复、全链路健康检测与可观测性
超大规模训练的易用性：深度学习容器化体验；预集成主流框架；一键提交训练任务
多行业多客户使用场景
听众收益：
可以了解云上大模型商业化产品的深度解析

除此之外，本次大会还策划了端侧 AI、物理与数字空间智能化、世界模型与多模态智能突破、Agent 架构与工程化实践、Agent 安全与可信治理、企业级研发体系重构、AI 原生数据工程、AI 时代的个人提效与组织变革等 14 个专题论坛，届时将有来自不同行业、不同领域、不同企业的 50+资深专家在现场带来前沿技术洞察和一线实践经验。

更多详情可扫码或联系票务经理 13269078023 进行咨询。

创作场景

大模型云上训练工程突破：阿里云 PAI 在超大规模集群下的调度与容错实践｜AICon 上海