多模态从技术突破到创新应用落地｜AICon 前瞻

多模态大模型正在融合文本、图像、音频、视频等多种模态，推动跨模态理解与生成能力不断增强。

12 月 19～20 日，AICon 全球人工智能开发与应用大会将在北京进行，本次大会特别策划了专题《多模态从技术突破到创新应用落地》，由快手多模态大模型 Keye 及大模型落地应用负责人高婷婷担任出品人。

高婷婷，长期深耕多模态大模型技术研发与商业化落地，现任快手 Keye 多模态大模型及大模型应用负责人。主导研发的 Keye 多模态大模型，在综合感知能力对标同规模顶尖模型的基础上，在视频理解场景实现显著优势，并在开源社区引发广泛关注。
同时持续推进大模型工业化落地，构建覆盖短视频内容理解、直播实时交互、电商智能互动、广告 AIGC 的全链路技术方案，有效推动技术价值与商业价值的协同增长。

本专题将聚焦多模态模型的最新技术进展与实践，分享应用场景与创新价值，探讨其在场景落地中的机遇与挑战。

实战主题前瞻

演讲推荐一：突破多模态大模型的效率瓶颈：结构、数据与训练优化

演讲嘉宾：余天予，清华大学博士生

多模态大模型作为人工智能的最前沿领域之一正在快速发展。然而，多模态大模型的训练与推理效率已成为影响其普及性与可扩展性的核心瓶颈。

为应对这一挑战，MiniCPM-V 团队推出 MiniCPM-V 4.5 训练方案，兼具训练推理的高效性和强大的性能。在模型结构、数据策略与训练方法三个方面进行了关键改进：使用了统一的 3D-Resampler 模型架构，实现对图像与视频的高压缩率紧凑编码；构建了统一的文档知识与文本识别学习范式，无需繁重的数据工程；并设计了混合强化学习策略，使模型在短推理与长推理两种模式下均具备卓越能力。

演讲推荐二：快手直播的 AI 进化论：技术落地与用户体验升级

演讲嘉宾：吴翔宇，快手算法专家

随着直播行业的飞速发展，快手平台每天产生海量的直播内容。传统的技术手段在内容理解深度、用户交互实时性、以及个性化体验优化方面逐渐面临瓶颈。例如，如何精准刻画数亿用户与千万主播之间的匹配关系？如何实现主播与观众之间更自然、有趣的互动？又如何推进用户对主播的第一印象的形成来促进主粉关系的转化？这些问题都在大模型的时代，都一一有了回答。

本次分享将聚焦快手如何通过多模态大模型与用户反馈信息，实现主播与用户的理解，并通过强化学习进一步拟合用户对主播的偏好，带来直播业务的提升。业务落地上，在直播这样相对成熟的业务场景下，大模型能力如何优化用户的看播体验，提高主播的服务质量。

演讲推荐三：从视频理解到实时交互：Citywalk 场景中的 VideoAgent 设计与实践

演讲嘉宾：宋阳，OPPO 算法专家

OPPO 在 2025 年开发者大会上发布了“AI 实景对话”首次让助手“走出屏幕”。在线下门店场景中，我们与大众点评达成深度合作，支持用户在逛街时（CityWalk），通过实景对话功能调用手机中大众点评的店铺信息与菜单数据，完成类似“AI 版探店助手”的体验。即使站在餐厅门口，也无需手动搜索，AI 即可提供评价、推荐菜品与价格信息。

CityWalk Agent 作为“AI 实景对话”一个独特的 Agent，在实际场景中遇到并解决了诸多技术挑战：

路由意图：粗粒度路由识别 CityWalk 领域，细粒度意图识别锚定上屏卡。
店铺指代：结合用户多轮语音提问和点击动作准确关联店铺名，支持随时打断。
记忆管理：综合历史对话和历史画面，动态管理视频记忆。
后处理：基于 poi 坐标距离和相似度过滤，店名难例 rag 和图像超清。

通过组合优化，CityWalk Agent 意图店名的召回率和准确率达到了 90%以上的效果。

演讲推荐四：多模态一致性生成技术和社交落地实践

演讲嘉宾：郑天祥，腾讯混元多模态视频内容算法负责人

SORA2 和 Veo3.1 等新一代视频生成模型，在持续拉高生成效果上限的同时，基于 SORA APP 等 AI + 社交产品，为行业提供了新的想象空间和落地经验。社交作为腾讯核心业务之一，如何在大模型时代找到 AI 和社交的新交汇点，让大模型技术赋能人之间的互动，是一个崭新又重要的命题。

本次演讲将聚焦 AI 社交场景，重点阐述腾讯混元在面向这一场景所做的技术选型、模型升级和落地实践经验，并基于实际落地效果分享物理合理性、音画同出、多人互动能力等技术细节对核心玩法影响和价值，促进大模型能力和应用落地并行演化。

通过本专题系列内容，听众将获得“看得见的案例 + 拿得走的方法 + 可复制的路径”，把多模态大模型从技术热点真正转化为业务增长的长期能力。