50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

千卡级分布式集群上的视觉多模态大模型落地实践 |AICon 上海

  • 2025-04-22
    北京
  • 本文字数:1113 字

    阅读完需:约 4 分钟

大小:605.33K时长:03:26
千卡级分布式集群上的视觉多模态大模型落地实践 |AICon上海

5 月 23 日-24 日,AICon全球人工智能开发与应用大会上海站即将拉开帷幕。本次大会将聚焦 AI 技术的前沿突破与产业落地,围绕 AI Agent、多模态应用、大模型架构创新、推理性能优化、大模型驱动数据创新、AI 产品创新与出海策略等核心议题,呈现技术与应用融合的最新趋势。


vivo AI 研究院 AI 架构师王兆雄已确认出席 AICon 上海并将在多模态大模型创新实践专题发表题为《千卡级分布式集群上的视觉多模态大模型落地实践》的主题分享。多模态大模型在智能客服、自动驾驶、AIGC 等领域的应用需求不断增长,但其训练工程面临计算、存储、数据处理、分布式通信等多重挑战。特别是在千卡级 GPU 训练集群上,如何优化数据加载、提升训练稳定性、突破计算与存储瓶颈,成为 AI Infra 需要重点攻克的难题。


本次演讲将基于 LLaVA 视觉多模态理解模型和 FLUX 文生图模型的训练工程实践,详细解析大规模 GPU 训练集群下的数据存储优化、分布式计算策略、训练容错机制,并探讨如何提升大规模多模态模型的训练效率和稳定性。演讲将重点介绍混合并行训练、数据高效加载、自动容错恢复等技术方案,为业界提供可落地的工程实践经验。


王兆雄曾就职于京东商城和猎豹移动,拥有丰富的大数据分析和游戏服务端研发经验,主导设计并实现了支撑数千万日活用户的轻量级游戏服务端架构。目前在 vivo AI 研究院任职,负责过 vivo 手机智慧桌面信息流和全局搜索服务端的推荐与搜索架构,支撑亿级用户。现负责视觉多模态大模型的训练工程,具备千卡级分布式集群上大模型训练的丰富经验,致力于构建高性能、可扩展的 AI 解决方案。他在本次会议的详细演讲内容如下:


演讲提纲:

1. 多模态大模型的训练工程挑战

2. AI Infra 四大优化方向

  • 数据处理优化

  • 模型计算优化

  • 分布式通信优化

  • 训练稳定性建设

3. 训练工程案例:LLaVA & FLUX

  • 视觉多模态理解模型(LLaVA)的训练优化

  • 文生图 FLUX 结构的训练工程

4. AI Infra 未来展望


听众收益:

  • 深入理解多模态大模型的训练挑战,尤其是理解模型 vs 生成模型的工程区别

  • 掌握大规模 GPU 训练集群的优化策略,包括数据处理、并行计算、通信优化

  • 学习如何提升训练稳定性,减少长时间训练中的失败率

  • 借鉴 LLaVA 和 FLUX 训练的实际优化经验,为自身多模态模型训练提供参考


除此之外,本次大会还策划了AI Agent 构建及多元应用多模态大模型创新实践AI for Data,数据管理与价值挖掘实践大模型推理性能优化策略AI 产品设计的创新思维智能硬件与大模型的融合探索金融领域大模型应用实践大模型助力业务提效实践等专题,届时将有来自不同行业、不同领域、不同企业的 60+资深专家在 AICon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-04-22 14:005385

评论

发布
暂无评论

诊所数字化:患者数字档案的价值机遇和风险

boshi

数字化医疗 七日更 28天写作

【计算机内功修炼】十:线程间到底共享了哪些进程资源

码农的荒岛求生

c c++ 线程 操作系统 进程

科大讯飞发布全新一代智能办公本X2

Xue Liang

优雅编程 | javascript代码优化的4个小技巧

devpoint

递归 命名空间 闭包 函数绑定

专治小学生作业拖沓

Ian哥

28天写作

腾讯位置服务开发应用

我是哪吒

28天写作 2月春节不断更 腾讯地图 腾讯位置服务开发应用 腾讯位置

风口上的量子计算机:核聚变一样的赌局,钻石一样的骗局

脑极体

区块链电子合同存证,电子合同区块链服务平台

13530558032

字节跳动面试官这样问消息队列:高可用、不重复消费、可靠传输、顺序消费、消息堆积,我整理了下

冰河

面试 分布式 中间件 消息队列 一起进大厂

runtime笔记

Conan

ios

火山翻译:工业级应用与研究

DataFunTalk

基于grpc手撸一个RPC框架

cloudcoder

伊卡洛斯象征了什么?「Day 5」

道伟

文化 28天写作

阿里粗排技术体系与最新进展

DataFunTalk

28天瞎写的第二百四十三天:正念冥想可以解决什么问题?

树上

冥想 28天写作 正念

翻译:《实用的Python编程》02_05_Collections

codists

Python

感性赢了理性那一面——浅谈峰终定律

Justin

心理学 28天写作

javascript中的内置对象和数据结构

程序那些事

JavaScript 数据结构 ES6 程序那些事

工作多年,如何找到自己更好的职业方向

一笑

28天写作

别再这么写代码了,这几个方法不香吗?

楼下小黑哥

Java 重构

为您收录的操作系统系列 - 进程管理(下篇)

鲁米

方法论 操作系统 进程

解读云原生技术

xcbeyond

Kubernetes 云原生 服务网格 28天写作

移除数组中的数字,不用额外空间, 实战RxSwift中的Observable, subscribe, dispose, 吴军老师态度读后感 John 易筋 ARTS 打卡 Week 39

John(易筋)

ARTS 打卡计划 吴军的态度 态度读后感

如何有效改变别人的认知和行为?

数列科技杨德华

28天写作

(28DW-S8-Day5) 区块链如何防伪

mtfelix

比特币 区块链 非对称加密 28天写作 防伪技术

Linux入门篇 —— Shell详解

若尘

Linux 命令行 linux操作

Elasticsearch 查询结果排序

escray

elastic 七日更 28天写作 死磕Elasticsearch 60天通过Elastic认证考试 2月春节不断更

简单的网站搭建

很甜回忆

网站

Kalm——基于Kubernetes的部署工具

David

开源 Kubernetes DevOps 运维 运维平台

【2021海量真实校招】软件测试面试真题,(大数据整理)刷完应对各家企业面试完全没有问题!

程序员阿沐

面试 软件测试 自动化测试 黑盒测试 白盒测试

一口气发布十大建网利器,华为打算煲出怎样的5G味道?

脑极体

千卡级分布式集群上的视觉多模态大模型落地实践 |AICon上海_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章