写点什么

多模态从技术突破到创新应用落地|AICon 前瞻

  • 2025-11-14
    北京
  • 本文字数:1746 字

    阅读完需:约 6 分钟

多模态从技术突破到创新应用落地|AICon 前瞻

多模态大模型正在融合文本、图像、音频、视频等多种模态,推动跨模态理解与生成能力不断增强。


12 月 19~20 日,AICon 全球人工智能开发与应用大会将在北京进行,本次大会特别策划了专题《多模态从技术突破到创新应用落地》,由快手多模态大模型 Keye 及大模型落地应用负责人高婷婷担任出品人。


高婷婷,长期深耕多模态大模型技术研发与商业化落地,现任快手 Keye 多模态大模型及大模型应用负责人。主导研发的 Keye 多模态大模型,在综合感知能力对标同规模顶尖模型的基础上,在视频理解场景实现显著优势,并在开源社区引发广泛关注。

同时持续推进大模型工业化落地,构建覆盖短视频内容理解、直播实时交互、电商智能互动、广告 AIGC 的全链路技术方案,有效推动技术价值与商业价值的协同增长。


本专题将聚焦多模态模型的最新技术进展与实践,分享应用场景与创新价值,探讨其在场景落地中的机遇与挑战。

实战主题前瞻

演讲推荐一:突破多模态大模型的效率瓶颈:结构、数据与训练优化


演讲嘉宾:余天予,清华大学博士生


多模态大模型作为人工智能的最前沿领域之一正在快速发展。然而,多模态大模型的训练与推理效率已成为影响其普及性与可扩展性的核心瓶颈。


为应对这一挑战,MiniCPM-V 团队推出 MiniCPM-V 4.5 训练方案,兼具训练推理的高效性和强大的性能。在模型结构、数据策略与训练方法三个方面进行了关键改进:使用了统一的 3D-Resampler 模型架构,实现对图像与视频的高压缩率紧凑编码;构建了统一的文档知识与文本识别学习范式,无需繁重的数据工程;并设计了混合强化学习策略,使模型在短推理与长推理两种模式下均具备卓越能力。

演讲推荐二:快手直播的 AI 进化论:技术落地与用户体验升级


演讲嘉宾:吴翔宇,快手算法专家


随着直播行业的飞速发展,快手平台每天产生海量的直播内容。传统的技术手段在内容理解深度、用户交互实时性、以及个性化体验优化方面逐渐面临瓶颈。例如,如何精准刻画数亿用户与千万主播之间的匹配关系?如何实现主播与观众之间更自然、有趣的互动?又如何推进用户对主播的第一印象的形成来促进主粉关系的转化?这些问题都在大模型的时代,都一一有了回答。


本次分享将聚焦快手如何通过多模态大模型与用户反馈信息,实现主播与用户的理解,并通过强化学习进一步拟合用户对主播的偏好,带来直播业务的提升。业务落地上,在直播这样相对成熟的业务场景下,大模型能力如何优化用户的看播体验,提高主播的服务质量。

演讲推荐三:从视频理解到实时交互:Citywalk 场景中的 VideoAgent 设计与实践


演讲嘉宾:宋阳,OPPO 算法专家


OPPO 在 2025 年开发者大会上发布了“AI 实景对话”首次让助手“走出屏幕”。在线下门店场景中,我们与大众点评达成深度合作,支持用户在逛街时(CityWalk),通过实景对话功能调用手机中大众点评的店铺信息与菜单数据,完成类似“AI 版探店助手”的体验。即使站在餐厅门口,也无需手动搜索,AI 即可提供评价、推荐菜品与价格信息。


CityWalk Agent 作为“AI 实景对话”一个独特的 Agent,在实际场景中遇到并解决了诸多技术挑战:

  1. 路由意图:粗粒度路由识别 CityWalk 领域,细粒度意图识别锚定上屏卡。

  2. 店铺指代:结合用户多轮语音提问和点击动作准确关联店铺名,支持随时打断。

  3. 记忆管理:综合历史对话和历史画面,动态管理视频记忆。

  4. 后处理:基于 poi 坐标距离和相似度过滤,店名难例 rag 和图像超清。


通过组合优化,CityWalk Agent 意图店名的召回率和准确率达到了 90%以上的效果。

演讲推荐四:多模态一致性生成技术和社交落地实践


演讲嘉宾:郑天祥,腾讯混元多模态视频内容算法负责人


SORA2 和 Veo3.1 等新一代视频生成模型,在持续拉高生成效果上限的同时,基于 SORA APP 等 AI + 社交产品,为行业提供了新的想象空间和落地经验。社交作为腾讯核心业务之一,如何在大模型时代找到 AI 和社交的新交汇点,让大模型技术赋能人之间的互动,是一个崭新又重要的命题。


本次演讲将聚焦 AI 社交场景,重点阐述腾讯混元在面向这一场景所做的技术选型、模型升级和落地实践经验,并基于实际落地效果分享物理合理性、音画同出、多人互动能力等技术细节对核心玩法影响和价值,促进大模型能力和应用落地并行演化。


通过本专题系列内容,听众将获得“看得见的案例 + 拿得走的方法 + 可复制的路径”,把多模态大模型从技术热点真正转化为业务增长的长期能力。

2025-11-14 15:231

评论

发布
暂无评论

【涂鸦物联网足迹】物联网主流通信方式

IoT云工坊

人工智能 云计算 大数据 物联网 云平台

第三周作业

丁乐洪

8张图带你分析Redis与MySQL数据一致性问题

Java架构师迁哥

穿越时空的回响:华为欧洲创新日的蝴蝶振翅

脑极体

week3 代码重构 -作业一

杨斌

科学家联合提出基于区块链的追溯框架

CECBC

区块链 农业

架构师训练营 1 期第 7 周:性能优化(一)- 作业

piercebn

极客大学架构师训练营

https 握手失败问题排查全记录

程序员与厨子

nginx https 网络 HTTP 抓包

Week 7 作业一

黄立

week3 代码重构 学习总结

杨斌

架构师训练营第 1 期 - 第七周总结

Todd-Lee

极客大学架构师训练营

【涂鸦物联网足迹】涂鸦云平台全景介绍

IoT云工坊

人工智能 云计算 大数据 物联网平台 物联网

爆火!阿里P9用500多页手册搞定双十一高并发秒杀系统,绝了

996小迁

Java 架构 面试 高并发 秒杀系统

Spring+多线程+集合+MVC+数据结构算法 +MyBatis源码学习笔记分享

Java架构之路

Java 程序员 架构 面试 编程语言

WSL还是不错的

孙苏勇

WSL2 工具链 wsl

在Idea中使用JUnit单元测试

jiangling500

单元测试 IDEA JUnit

Week 7 性能优化总结

黄立

区块链追溯系统迎来新突破

CECBC

区块链 溯源 产品溯源

三、设计模式

Geek_28b526

架構師訓練營第 1 期 - 第 07 周總結

Panda

架構師訓練營第 1 期

区块链将颠覆和改变传统金融业底层逻辑

CECBC

区块链 数字经济

查漏补缺:166个最常用的Linux命令,哪些你还不知道?

小Q

Java Linux 程序员 操作系统 开发

架构师训练营第 1 期 - 第七周作业

Todd-Lee

极客大学架构师训练营

架构师训练营 - 第三周学习总结

joshuamai

手把手教你如何在Windows安装Anaconda

计算机与AI

Python Anaconda

架构师训练营 - 第三周课后练习

joshuamai

LeetCode题解:231. 2的幂,位运算取二进制中最右边的1,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

目标检测之YOLOv2

Dreamer

架构师训练营 - 第 7 周课后作业(1 期)

阿甘

极客大学 - 架构师训练营 第七周作业

9527

一定要偷偷学,偷偷进步!腾讯内部首发Java多线程、高并发、设计模式“满级”笔记

Java架构追梦

Java 架构 面试 设计模式 多线程与高并发

多模态从技术突破到创新应用落地|AICon 前瞻_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章