2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

千卡级分布式集群上的视觉多模态大模型落地实践 |AICon 上海

  • 2025-04-22
    北京
  • 本文字数:1113 字

    阅读完需:约 4 分钟

大小:605.33K时长:03:26
千卡级分布式集群上的视觉多模态大模型落地实践 |AICon上海

5 月 23 日-24 日,AICon全球人工智能开发与应用大会上海站即将拉开帷幕。本次大会将聚焦 AI 技术的前沿突破与产业落地,围绕 AI Agent、多模态应用、大模型架构创新、推理性能优化、大模型驱动数据创新、AI 产品创新与出海策略等核心议题,呈现技术与应用融合的最新趋势。


vivo AI 研究院 AI 架构师王兆雄已确认出席 AICon 上海并将在多模态大模型创新实践专题发表题为《千卡级分布式集群上的视觉多模态大模型落地实践》的主题分享。多模态大模型在智能客服、自动驾驶、AIGC 等领域的应用需求不断增长,但其训练工程面临计算、存储、数据处理、分布式通信等多重挑战。特别是在千卡级 GPU 训练集群上,如何优化数据加载、提升训练稳定性、突破计算与存储瓶颈,成为 AI Infra 需要重点攻克的难题。


本次演讲将基于 LLaVA 视觉多模态理解模型和 FLUX 文生图模型的训练工程实践,详细解析大规模 GPU 训练集群下的数据存储优化、分布式计算策略、训练容错机制,并探讨如何提升大规模多模态模型的训练效率和稳定性。演讲将重点介绍混合并行训练、数据高效加载、自动容错恢复等技术方案,为业界提供可落地的工程实践经验。


王兆雄曾就职于京东商城和猎豹移动,拥有丰富的大数据分析和游戏服务端研发经验,主导设计并实现了支撑数千万日活用户的轻量级游戏服务端架构。目前在 vivo AI 研究院任职,负责过 vivo 手机智慧桌面信息流和全局搜索服务端的推荐与搜索架构,支撑亿级用户。现负责视觉多模态大模型的训练工程,具备千卡级分布式集群上大模型训练的丰富经验,致力于构建高性能、可扩展的 AI 解决方案。他在本次会议的详细演讲内容如下:


演讲提纲:

1. 多模态大模型的训练工程挑战

2. AI Infra 四大优化方向

  • 数据处理优化

  • 模型计算优化

  • 分布式通信优化

  • 训练稳定性建设

3. 训练工程案例:LLaVA & FLUX

  • 视觉多模态理解模型(LLaVA)的训练优化

  • 文生图 FLUX 结构的训练工程

4. AI Infra 未来展望


听众收益:

  • 深入理解多模态大模型的训练挑战,尤其是理解模型 vs 生成模型的工程区别

  • 掌握大规模 GPU 训练集群的优化策略,包括数据处理、并行计算、通信优化

  • 学习如何提升训练稳定性,减少长时间训练中的失败率

  • 借鉴 LLaVA 和 FLUX 训练的实际优化经验,为自身多模态模型训练提供参考


除此之外,本次大会还策划了AI Agent 构建及多元应用多模态大模型创新实践AI for Data,数据管理与价值挖掘实践大模型推理性能优化策略AI 产品设计的创新思维智能硬件与大模型的融合探索金融领域大模型应用实践大模型助力业务提效实践等专题,届时将有来自不同行业、不同领域、不同企业的 60+资深专家在 AICon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-04-22 14:004935

评论

发布
暂无评论

企业如何挑选适合自己需求的文件传输软件

镭速

文件传输软件

超好用的数据可视化工具——Grafana

云原生应用市场

监控 数据 Grafana 告警

面部表情识别的未来发展趋势

数据堂

浪潮海岳云原生平台技术分享丨轻松解决数据库备份痛点

inBuilder低代码平台

云原生 低代码平台

预设成功

FunTester

基于Pair-wise和CrossEncoder训练单塔模型

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 8 月 PK 榜

软件测试/测试开发丨Python 内置库 多线程threading

测试人

Python 程序员 软件测试 自动化测试 测试开发

面部表情识别在社交媒体中的应用

数据堂

HarmonyOS系统级推送服务,打造消息通知新体验

极客天地

2023年广州国际智能窗帘及智能门窗遮阳展会

秋硕展览

TooKit助力开发者上云

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 8 月 PK 榜

智慧生活的下半场,从全屋智能4.0接入未来

这不科技

华为 鸿蒙系统

时序数据库 TDengine SQL 查询语法规则汇总,官方教程奉上!

爱倒腾的程序员

数据库

HarmonyOS NEXT新能力,一站式高效开发HarmonyOS应用

极客天地

推动多云管理平台发展的因素简单分析

行云管家

云计算 云管平台 上云

告别传统人肉运维,实现360°可观测!奇点云数据存算引擎DataKun R2.0发布

奇点云

产品发布 奇点云 数据安全引擎 数据存算引擎

文心一言 VS 讯飞星火 VS chatgpt (73)-- 算法导论7.1 4题

福大大架构师每日一题

福大大架构师每日一题

软件测试/测试开发丨Python 内置库 正则表达式re

测试人

Python 正则表达式 程序员 软件测试 测试开发

软件测试/测试开发丨Python 内置库 pythonlogging

测试人

Python 程序员 软件测试 自动化测试 测试开发

腾讯云ES:一站式配置,TKE容器日志采集与分析就是这么简单

腾讯云大数据

ES

镭速-解析极速文件传输软件

镭速

文件传输软件 传输文件

龙蜥社区系统运维 MeetUp

乘云数字DataBuff

关于低代码解放程序员这件事儿

互联网工科生

低代码 可视化开发 企业级应用程序开发 JNPF

瓴羊Quick BI跻身Gartner魔力象限挑战者行列

夜雨微澜

MRS大企业ERP流程实时数据湖加工最佳实践

华为云开发者联盟

大数据 后端 华为云 华为云开发者联盟 企业号 8 月 PK 榜

简明易懂的介绍:Selenium是什么?

Liam

编程 测试 自动化测试 web开发 测试工具

HarmonyOS系统级推送服务,打造消息通知新体验

HarmonyOS SDK

文件传输软件常见问题解决办法大全

镭速

文件传输软件

千卡级分布式集群上的视觉多模态大模型落地实践 |AICon上海_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章