
6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。
腾讯多模态算法中心 Tech Lead DUANGE 已确认出席并发表题为《腾讯混元多模态大模型技术实践与思考》的主题分享,本次分享将基于混元多模态基础大模型,深入探讨腾讯在多模态技术领域的最新研发进展。混元多模态大模型技术覆盖文本、图像、视频和音频理解与生成多种技术。特别值得一提的是,图像到文本模型包含三个关键组件:视觉变换器(ViT)用于视觉编码、视觉-语言适配器,以及采用专家混合(MoE)架构的大型语言模型。团队高度重视数据质量和多样性,开发了一套高效的自动化数据处理管道。选择 MoE 架构得益于其在性能和可扩展性方面的卓越表现。通过分阶段训练和推理优化技术,模型的能力得到了进一步加强。为确保模型满足用户需求,团队在强化学习中对偏好进行了对齐,并采用真实用户的 A/B 测试。目前,该模型已在司内多个业务场景中部署应用。展望未来,计划扩展模型能力,覆盖更多模态,并进一步提升智能性和可靠性。
DUANGE 现任腾讯混元多模态算法中心 Tech Lead ,目前专注于多模态基础模型研发。曾任微软亚洲研究院主管研究员,在人工智能领域国际期刊和会议如 TPAMI、CVPR、NeurIPS 等发表学术论文 30 余篇,Google Scholar 他引 10,000 余次。研究成果多次作为核心技术应用于业界知名产品与业务中,曾多次获得国际算法竞赛奖项,包括物体跟踪竞赛 VOT 冠军,HACS Temporal Action Localization 竞赛冠军等。担任模式识别领域国际知名期刊 Pattern Recognition 副主编,多媒体领域学术会议 ACM Multimedia 领域主席。他在本次会议的详细演讲内容如下:
演讲提纲
1. 混元多模态模型发展概况
模型架构:视觉变换器(ViT)、视觉-语言适配器、专家混合(MoE)架构
支持的模态:文本、图像、视频、音频
关键技术特点与创新点
2. 混元多模态模型技术实践与挑战
数据处理:高效的自动化数据处理管道
训练优化:分阶段训练与推理优化技术
用户反馈机制:强化学习对偏好对齐、A/B 测试
面临的技术挑战与解决方案
3. 混元多模态模型应用探索
图像与文本理解提升推荐系统准确性
多模态内容的自动生成与审核
其他业务场景中的应用实例
4. 未来展望
模型能力的扩展方向
提升智能性与可靠性的策略
您认为,这样的技术在实践过程中有哪些痛点?
模型输出暂未达到绝对的准确,例如存在幻觉等问题。
您的演讲有哪些前沿亮点?
介绍大模型实践的经验与思考。
听众收益
了解多模态大模型的实验经验
了解在实际业务中的应用场景
除此之外,本次大会还策划了AI Agent 构建与多场景实践、多模态实践与应用、大模型助力研发的实战经验、AI 在业务运营中的深度落地、大模型时代的数据处理与分析、AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。
现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。

评论