10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

腾讯混元多模态大模型技术实践与思考|AICon 北京

  • 2025-05-27
    北京
  • 本文字数:1311 字

    阅读完需:约 4 分钟

大小:714.38K时长:04:03
腾讯混元多模态大模型技术实践与思考|AICon北京

6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。


腾讯多模态算法中心 Tech Lead DUANGE 已确认出席并发表题为腾讯混元多模态大模型技术实践与思考的主题分享,本次分享将基于混元多模态基础大模型,深入探讨腾讯在多模态技术领域的最新研发进展。混元多模态大模型技术覆盖文本、图像、视频和音频理解与生成多种技术。特别值得一提的是,图像到文本模型包含三个关键组件:视觉变换器(ViT)用于视觉编码、视觉-语言适配器,以及采用专家混合(MoE)架构的大型语言模型。团队高度重视数据质量和多样性,开发了一套高效的自动化数据处理管道。选择 MoE 架构得益于其在性能和可扩展性方面的卓越表现。通过分阶段训练和推理优化技术,模型的能力得到了进一步加强。为确保模型满足用户需求,团队在强化学习中对偏好进行了对齐,并采用真实用户的 A/B 测试。目前,该模型已在司内多个业务场景中部署应用。展望未来,计划扩展模型能力,覆盖更多模态,并进一步提升智能性和可靠性。



DUANGE 现任腾讯混元多模态算法中心 Tech Lead ,目前专注于多模态基础模型研发。曾任微软亚洲研究院主管研究员,在人工智能领域国际期刊和会议如 TPAMI、CVPR、NeurIPS 等发表学术论文 30 余篇,Google Scholar 他引 10,000 余次。研究成果多次作为核心技术应用于业界知名产品与业务中,曾多次获得国际算法竞赛奖项,包括物体跟踪竞赛 VOT 冠军,HACS Temporal Action Localization 竞赛冠军等。担任模式识别领域国际知名期刊 Pattern Recognition 副主编,多媒体领域学术会议 ACM Multimedia 领域主席。他在本次会议的详细演讲内容如下:


演讲提纲

1. 混元多模态模型发展概况

  • 模型架构:视觉变换器(ViT)、视觉-语言适配器、专家混合(MoE)架构

  • 支持的模态:文本、图像、视频、音频

  • 关键技术特点与创新点

2. 混元多模态模型技术实践与挑战

  • 数据处理:高效的自动化数据处理管道

  • 训练优化:分阶段训练与推理优化技术

  • 用户反馈机制:强化学习对偏好对齐、A/B 测试

  • 面临的技术挑战与解决方案

3. 混元多模态模型应用探索

  • 图像与文本理解提升推荐系统准确性

  • 多模态内容的自动生成与审核

  • 其他业务场景中的应用实例

4. 未来展望

  • 模型能力的扩展方向

  • 提升智能性与可靠性的策略


您认为,这样的技术在实践过程中有哪些痛点?

  • 模型输出暂未达到绝对的准确,例如存在幻觉等问题。


您的演讲有哪些前沿亮点?

  • 介绍大模型实践的经验与思考。


听众收益

  • 了解多模态大模型的实验经验

  • 了解在实际业务中的应用场景


除此之外,本次大会还策划了AI Agent 构建与多场景实践多模态实践与应用大模型助力研发的实战经验AI 在业务运营中的深度落地大模型时代的数据处理与分析AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-05-27 15:002998

评论

发布
暂无评论

架构师训练营大作业 (二)

木头发芽

搜狗开源框架发布纯自研C++ Kafka客户端

高速增长的跨境电商业务背后,区块链应用场景来了吗?

CECBC

跨境电商

Seata-AT 如何保证分布式事务一致性

阿里巴巴云原生

云计算 开源 分布式 微服务 云原生

CEG挖矿系统APP开发|CEG挖矿软件开发

系统开发

ModelArts黑科技揭秘|弹性训练,让训练资源张弛有度

华为云开发者联盟

学习 华为云

LeetCode题解:剑指 Offer 40. 最小的k个数,sort,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

阿里云开源项目 OAM 负责人张磊入选「中国开源先锋 33 人」

阿里巴巴云原生

开源 开发者 云原生 k8s cncf

大作业2

龙卷风

架构师一期

区块链食品溯源系统开发,农产品溯源小程序搭建

13530558032

7年Java开发经验,面试20多家公司,砍下16个Offer,总结干货面试题!

Java架构追梦

Java 架构 面试 大厂

漏洞扫描软件AWVS的介绍和使用

行者AI

安全 漏洞

软件测试所需要掌握的技能

测试人生路

软件测试

架构师训练营大作业(一)

木头发芽

LTN挖矿系统开发

Geek_a620db

区块链电子合同铸就数字经济信任基石

CECBC

电子合同

Dubbo 3.0 前瞻系列:服务发现支持百万集群,带来可伸缩微服务架构

阿里巴巴云原生

开源 微服务 云原生 dubbo 中间件

你真的会学习吗?从结构化思维说起

阿里巴巴云原生

云原生 技术人 自我思考 职场成长 成长笔记

SpringBoot系列(7)- 自动装配

引花眠

springboot

译|Optimal Logging

cyningsun

监控 日志 异常 故障 错误

PiNetwork 挖矿算力系统开发

Geek_a620db

STARFIELD星域APP系统开发|STARFIELD星域软件开发

系统开发

阿里云仓库使用小技巧

Java maven

从根上理解高性能、高并发(二):深入操作系统,理解I/O与零拷贝技术

JackJiang

网络编程 高并发 高性能 即时通讯

阿里“云钉一体”加速整合 低代码开发平台“钉钉宜搭”发布

人称T客

批量作业调度工具Taskctl Web应用版/ETL免费调度工具/数据挖掘,抽取,转换工具

敏捷调度TASKCTL

数据挖掘 大数据 kettle 运维自动化 海豚调度

道高一丈,且看CWE4.2的新特性

华为云开发者联盟

技术 安全 漏洞

利用文字技术帮助选购商品,慧眼“识”物的人都这样做……

华为云开发者联盟

文字识别 智能 识别

智慧平安小区整体解决方案,智慧社区管控系统开发

13530558032

企业使用云计算低效益怎么办?区块链或成良药

CECBC

云计算

ARTS打卡 第28周

引花眠

微服务 ARTS 打卡计划 springboot

腾讯混元多模态大模型技术实践与思考|AICon北京_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章