
6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。
阿里巴巴达摩院视觉技术实验室 EfficientAIGC 负责人唐家声已确认出席并发表题为《实现多模态生成“极致”加速的算法与系统挑战》的主题分享,探讨以扩散模型为代表的多模态模型在近两年成为生成领域的基础模型,也使得文生图、文生视频等真正走入 C 端用户,推动澎湃的 AIGC 社区形成。但是随着模型的 Scale 越来越大,模型推理时间过长、显存占用过高仍旧是难以忍受的问题,以 Flux 和 Wan2.1 为例。但是过去在模型架构上的剪枝等手段不够适配扩散模型的特性,在此背景下,达摩院从算法设计与系统优化等不同的角度构建了多维度的扩散模型加速的方法,包括动态计算的 DyDiT、引入强化学习的联合动态范式 RAPID、FP8 与稀疏化的联合感知优化的 FPSAttention。

唐家声在阿里巴巴达摩院长期从事机器学习与计算机视觉领域的研究与应用,在视觉表征学习、目标跟踪与系统、分布式训练与高效推理等方向有丰富的项目与科研经历。多次获得 CVPR/ICCV/ECCV 上的多目标跟踪顶级竞赛冠军和 MOTChallenge 排行榜第一名。目前负责达摩院视觉技术实验室的 EfficientAIGC 方向,专注于视觉生成模型的高效分布式训练、高效微调与推理的算法系统联合优化等问题。他在本次会议的详细演讲内容如下:
演讲提纲
问题背景
扩散模型的演进与多模态生成的效率挑战
解构效率问题——算法设计与系统优化
2. 算法设计
动态化思想加速 DiT——DyDiT
多维度动态计算联合「强化」——RAPID3
3. 系统优化
FP8 & 稀疏化的联合感知训练——FPS Attention
4. 总结与展望
听众收益
了解生成效率问题的技术挑战
了解达摩院在这一方向的思考与 best practice
演讲亮点:基于团队 ICLR-2025 的最新工作 DyDiT 及其演进工作,讲述扩散模型推理加速的一个重要方向。
除此之外,本次大会还策划了AI Agent 构建与多场景实践、多模态实践与应用、大模型助力研发的实战经验、AI 在业务运营中的深度落地、大模型时代的数据处理与分析、AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。
现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。

评论