写点什么

千卡级分布式集群上的视觉多模态大模型落地实践 |AICon 上海

  • 2025-04-22
    北京
  • 本文字数:1113 字

    阅读完需:约 4 分钟

大小:605.33K时长:03:26
千卡级分布式集群上的视觉多模态大模型落地实践 |AICon上海

5 月 23 日-24 日,AICon全球人工智能开发与应用大会上海站即将拉开帷幕。本次大会将聚焦 AI 技术的前沿突破与产业落地,围绕 AI Agent、多模态应用、大模型架构创新、推理性能优化、大模型驱动数据创新、AI 产品创新与出海策略等核心议题,呈现技术与应用融合的最新趋势。


vivo AI 研究院 AI 架构师王兆雄已确认出席 AICon 上海并将在多模态大模型创新实践专题发表题为《千卡级分布式集群上的视觉多模态大模型落地实践》的主题分享。多模态大模型在智能客服、自动驾驶、AIGC 等领域的应用需求不断增长,但其训练工程面临计算、存储、数据处理、分布式通信等多重挑战。特别是在千卡级 GPU 训练集群上,如何优化数据加载、提升训练稳定性、突破计算与存储瓶颈,成为 AI Infra 需要重点攻克的难题。


本次演讲将基于 LLaVA 视觉多模态理解模型和 FLUX 文生图模型的训练工程实践,详细解析大规模 GPU 训练集群下的数据存储优化、分布式计算策略、训练容错机制,并探讨如何提升大规模多模态模型的训练效率和稳定性。演讲将重点介绍混合并行训练、数据高效加载、自动容错恢复等技术方案,为业界提供可落地的工程实践经验。


王兆雄曾就职于京东商城和猎豹移动,拥有丰富的大数据分析和游戏服务端研发经验,主导设计并实现了支撑数千万日活用户的轻量级游戏服务端架构。目前在 vivo AI 研究院任职,负责过 vivo 手机智慧桌面信息流和全局搜索服务端的推荐与搜索架构,支撑亿级用户。现负责视觉多模态大模型的训练工程,具备千卡级分布式集群上大模型训练的丰富经验,致力于构建高性能、可扩展的 AI 解决方案。他在本次会议的详细演讲内容如下:


演讲提纲:

1. 多模态大模型的训练工程挑战

2. AI Infra 四大优化方向

  • 数据处理优化

  • 模型计算优化

  • 分布式通信优化

  • 训练稳定性建设

3. 训练工程案例:LLaVA & FLUX

  • 视觉多模态理解模型(LLaVA)的训练优化

  • 文生图 FLUX 结构的训练工程

4. AI Infra 未来展望


听众收益:

  • 深入理解多模态大模型的训练挑战,尤其是理解模型 vs 生成模型的工程区别

  • 掌握大规模 GPU 训练集群的优化策略,包括数据处理、并行计算、通信优化

  • 学习如何提升训练稳定性,减少长时间训练中的失败率

  • 借鉴 LLaVA 和 FLUX 训练的实际优化经验,为自身多模态模型训练提供参考


除此之外,本次大会还策划了AI Agent 构建及多元应用多模态大模型创新实践AI for Data,数据管理与价值挖掘实践大模型推理性能优化策略AI 产品设计的创新思维智能硬件与大模型的融合探索金融领域大模型应用实践大模型助力业务提效实践等专题,届时将有来自不同行业、不同领域、不同企业的 60+资深专家在 AICon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-04-22 14:005428

评论

发布
暂无评论

mcgs笔记 设备窗口 通讯状态

万里无云万里天

自动化 HMI mcgs

望繁信科技与华恒生物正式签约,共同开启流程数字化转型新篇章

望繁信科技

数字化转型 流程挖掘 流程资产 流程智能

来云栖大会!探展云上开发,沉浸式体验云原生 + AI 新奇玩法

阿里云云效

阿里云 云原生

什么是 Rainbond?打破 Kubernetes 的复杂性

北京好雨科技有限公司

Kubernetes 云原生 rainbond 企业 9 月 PK 榜

mcgs笔记 工程上传功能

万里无云万里天

自动化 HMI mcgs

mcgs笔记 画面 百分比缩放

万里无云万里天

自动化 HMI mcgs

Flink Forward Asia 2024 议题征集令|探索实时计算新边界

阿里云大数据AI技术

flink 实时计算 FFA

来云栖大会!探展云上开发,沉浸式体验云原生 + AI 新奇玩法

阿里巴巴云原生

阿里云 云原生

技术干货 | YashanDB+Zabbix搭建监控可视化平台,手把手实操!

YashanDB

yashandb 崖山数据库

火山引擎携手地瓜机器人,加速大模型在机器人场景规模落地

火山引擎边缘云

IoT 机器人 AIOT 智能IoT边缘服务 大模型

图像检测【YOLOv5】——深度学习

芯动大师

深度学习 模型 Anaconda

mcgs笔记 构件 动画显示构件模拟设备转动

万里无云万里天

自动化 HMI mcgs

inBuilder的业务领域划分

inBuilder低代码平台

微服务 低代码

【开源鸿蒙】运行OpenHarmony轻量系统QEMU RISC-V版本

码匠许师傅

qemu OpenHarmony risc-v

【开源鸿蒙】调试OpenHarmony轻量系统QEMU RISC-V版本

码匠许师傅

gdb qemu OpenHarmony risc-v

mcgs笔记 构件 水平移动与垂直移动

万里无云万里天

自动化 HMI mcgs

mcgs笔记 按钮 按下与抬起的差异设置

万里无云万里天

自动化 HMI mcgs

mcgs笔记 构件 标签的闪烁效果

万里无云万里天

自动化 HMI mcgs

6个 Spring websocket注解:整体架构分析与注解应用案例(必须收藏)

肖哥弹架构

Java spring websocket

VMware Avi Load Balancer 30.2.2 发布下载,新增功能概览

sysin

负载均衡 vmware 应用交付 AVI

828华为云会议Flexus版重磅亮相,让每一场会议都高效!

轶天下事

mcgs笔记 工具箱 元件库(公共图库)展示(下)

万里无云万里天

自动化 HMI mcgs

mcgs笔记 画面 由全屏回到缩小的窗口状态

万里无云万里天

自动化 HMI mcgs

mcgs笔记 设备窗口 快速连接变量

万里无云万里天

自动化 HMI mcgs

阿里巴巴拍立淘API:实时图像搜索与快速响应的技术探索

代码忍者

API 测试 pinduoduo API

手工转测试开发轻松实现薪资 50%涨幅的逆袭之路

霍格沃兹测试开发学社

悲惨!刚入职没几天,无意间把数据库删了,很尴尬,原因很奇葩

五阳

程序员 java 架构

2024年职教展-2024全国职业教育产业博览会

秋硕展览

残疾人辅具展|2024年广州国际残疾人用品展会

秋硕展览

mcgs笔记 构件 查看位置坐标与大小

万里无云万里天

自动化 HMI mcgs

千卡级分布式集群上的视觉多模态大模型落地实践 |AICon上海_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章