写点什么

多模态从技术突破到创新应用落地|AICon 前瞻

  • 2025-11-14
    北京
  • 本文字数:1746 字

    阅读完需:约 6 分钟

多模态从技术突破到创新应用落地|AICon 前瞻

多模态大模型正在融合文本、图像、音频、视频等多种模态,推动跨模态理解与生成能力不断增强。


12 月 19~20 日,AICon 全球人工智能开发与应用大会将在北京进行,本次大会特别策划了专题《多模态从技术突破到创新应用落地》,由快手多模态大模型 Keye 及大模型落地应用负责人高婷婷担任出品人。


高婷婷,长期深耕多模态大模型技术研发与商业化落地,现任快手 Keye 多模态大模型及大模型应用负责人。主导研发的 Keye 多模态大模型,在综合感知能力对标同规模顶尖模型的基础上,在视频理解场景实现显著优势,并在开源社区引发广泛关注。

同时持续推进大模型工业化落地,构建覆盖短视频内容理解、直播实时交互、电商智能互动、广告 AIGC 的全链路技术方案,有效推动技术价值与商业价值的协同增长。


本专题将聚焦多模态模型的最新技术进展与实践,分享应用场景与创新价值,探讨其在场景落地中的机遇与挑战。

实战主题前瞻

演讲推荐一:突破多模态大模型的效率瓶颈:结构、数据与训练优化


演讲嘉宾:余天予,清华大学博士生


多模态大模型作为人工智能的最前沿领域之一正在快速发展。然而,多模态大模型的训练与推理效率已成为影响其普及性与可扩展性的核心瓶颈。


为应对这一挑战,MiniCPM-V 团队推出 MiniCPM-V 4.5 训练方案,兼具训练推理的高效性和强大的性能。在模型结构、数据策略与训练方法三个方面进行了关键改进:使用了统一的 3D-Resampler 模型架构,实现对图像与视频的高压缩率紧凑编码;构建了统一的文档知识与文本识别学习范式,无需繁重的数据工程;并设计了混合强化学习策略,使模型在短推理与长推理两种模式下均具备卓越能力。

演讲推荐二:快手直播的 AI 进化论:技术落地与用户体验升级


演讲嘉宾:吴翔宇,快手算法专家


随着直播行业的飞速发展,快手平台每天产生海量的直播内容。传统的技术手段在内容理解深度、用户交互实时性、以及个性化体验优化方面逐渐面临瓶颈。例如,如何精准刻画数亿用户与千万主播之间的匹配关系?如何实现主播与观众之间更自然、有趣的互动?又如何推进用户对主播的第一印象的形成来促进主粉关系的转化?这些问题都在大模型的时代,都一一有了回答。


本次分享将聚焦快手如何通过多模态大模型与用户反馈信息,实现主播与用户的理解,并通过强化学习进一步拟合用户对主播的偏好,带来直播业务的提升。业务落地上,在直播这样相对成熟的业务场景下,大模型能力如何优化用户的看播体验,提高主播的服务质量。

演讲推荐三:从视频理解到实时交互:Citywalk 场景中的 VideoAgent 设计与实践


演讲嘉宾:宋阳,OPPO 算法专家


OPPO 在 2025 年开发者大会上发布了“AI 实景对话”首次让助手“走出屏幕”。在线下门店场景中,我们与大众点评达成深度合作,支持用户在逛街时(CityWalk),通过实景对话功能调用手机中大众点评的店铺信息与菜单数据,完成类似“AI 版探店助手”的体验。即使站在餐厅门口,也无需手动搜索,AI 即可提供评价、推荐菜品与价格信息。


CityWalk Agent 作为“AI 实景对话”一个独特的 Agent,在实际场景中遇到并解决了诸多技术挑战:

  1. 路由意图:粗粒度路由识别 CityWalk 领域,细粒度意图识别锚定上屏卡。

  2. 店铺指代:结合用户多轮语音提问和点击动作准确关联店铺名,支持随时打断。

  3. 记忆管理:综合历史对话和历史画面,动态管理视频记忆。

  4. 后处理:基于 poi 坐标距离和相似度过滤,店名难例 rag 和图像超清。


通过组合优化,CityWalk Agent 意图店名的召回率和准确率达到了 90%以上的效果。

演讲推荐四:多模态一致性生成技术和社交落地实践


演讲嘉宾:郑天祥,腾讯混元多模态视频内容算法负责人


SORA2 和 Veo3.1 等新一代视频生成模型,在持续拉高生成效果上限的同时,基于 SORA APP 等 AI + 社交产品,为行业提供了新的想象空间和落地经验。社交作为腾讯核心业务之一,如何在大模型时代找到 AI 和社交的新交汇点,让大模型技术赋能人之间的互动,是一个崭新又重要的命题。


本次演讲将聚焦 AI 社交场景,重点阐述腾讯混元在面向这一场景所做的技术选型、模型升级和落地实践经验,并基于实际落地效果分享物理合理性、音画同出、多人互动能力等技术细节对核心玩法影响和价值,促进大模型能力和应用落地并行演化。


通过本专题系列内容,听众将获得“看得见的案例 + 拿得走的方法 + 可复制的路径”,把多模态大模型从技术热点真正转化为业务增长的长期能力。

2025-11-14 15:235553

评论

发布
暂无评论

文心一言 VS 讯飞星火 VS chatgpt (95)-- 算法导论9.2 4题

福大大架构师每日一题

福大大架构师每日一题

TDengine 与煤矿智能 AI 视频管理系统实现兼容性互认

TDengine

时序数据库 #TDengine 恒达智控

一文详解数据仓库的物理细粒度备份恢复

华为云开发者联盟

数据库 大数据 华为云 华为云开发者联盟 企业号9月PK榜

未来社交媒体的变革者

百度开发者中心

媒体服务 #人工智能 生成式AI

从理解到实现:一种强大的AI技术

百度开发者中心

深度学习 #人工智能 生成式AI

国密算法是什么意思?支持国密算法的云管平台哪家好?

行云管家

云计算 云管平台 云管理 国密 国密浏览器

晋级揭晓!华秋第九届中国硬件创新创客大赛-华东分赛区决赛成功举办!

华秋电子

创业

如何使用Vcluster实现Kubernetes中的多租户

互联网工科生

Kubernetes 集群

SDK或低代码运行时,提示找不到某些库文件

矩视智能

深度学习 机器视觉

用友iuap 技术平台:创新基础架构,赋能企业数智化转型

用友BIP

数智底座 2023全球商业创新大会

第1期 | 抚今 现代企业已步入新的项目制管理时代

用友BIP

项目管理

创新性与自主性的融合

百度开发者中心

AIGC #人工智能 生成式AI

大模型开发:从数据挖掘到智能应用

百度开发者中心

AIGC #人工智能 大模型微调

从过去5年CWE TOP 25的数据看软件缺陷的防护

云计算 软件开发 代码

什么是高刷LED屏?

Dylan

刷新 LED显示屏 led显示屏厂家

SmartNews 基于 Flink 的 Iceberg 实时数据湖实践

Apache Flink

大数据 flink 实时计算

坐标休斯顿,TDengine 受邀参与第九届石油天然气数字化大会

TDengine

时序数据库 #TDengine

人民日报发文祝贺,这位作者是藏不住了!

博文视点Broadview

支持适配国产化平台的云管理软件你给推荐哪家?

行云管家

云计算 云服务 国产化 云管理

基于Falcon-7B模型的QLoRA微调实操:构建面向心理健康领域的Chatbot

Baihai IDP

AI LLM 白海科技 大模型微调实践 QLoRA实践

香港站群服务器构建多站点网络的利器,将业务推向新高度

一只扑棱蛾子

站群服务器

基于开源IM即时通讯框架MobileIMSDK:RainbowChat v10.0版已发布

JackJiang

网络编程 即时通讯 IM

应用场域的深度融合与创新构想

百度开发者中心

#人工智能 ChatGPT 大模型微调

多模态从技术突破到创新应用落地|AICon 前瞻_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章