写点什么

多模态理解技术在短视频上的思考与应用|QCon 北京

  • 2025-03-31
    北京
  • 本文字数:1198 字

    阅读完需:约 4 分钟

多模态理解技术在短视频上的思考与应用|QCon 北京

2025 年 4 月 10 - 12 日,QCon 北京站将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。


快手多模态模型高级算法专家高欢已确认出席并发表题为多模态理解技术在短视频上的思考与应用的主题分享。具体围绕社交短视频理解任务展开,首先介绍多模态理解技术的发展现状,讲述应用产品视角和学术定义视角的多模态理解能力,并介绍业界主流的技术方案。随后将围绕社交短视频的特点和痛点展开,介绍一套经过验证的解决方案流程。最后,将围绕两个近期的热门多模态方向进行讨论:视觉 R1 和 Benchmark 。


高欢目前是快手快意多模态基座模型负责人,主要负责 AI 生成场景背后的多模态理解研发工作,深度参与快手多个 AIGC 算法技术落地。主要研究兴趣包括:多模态大语言模型、视频理解编码器、大语言模型,曾在 NeurIPS、ACL、AAAI、ECCV、ICDE 等顶级学术会议上发表多篇论文。本次会议中,他的详细演讲内容如下:


演讲提纲

1. 多模态技术的发展

  • 多模态技术的应用产品

  • 多模态理解任务分类:感知、认知、定位、推理

  • 模型结构:多模态特征融合、动态分辨率处理

  • 长视频理解挑战和解决方案:帧采样和 Token 丢弃

2. 社交短视频理解的难点

  • 社交短视频的特殊性

  • 社交短视频理解任务

3. 社交短视频理解任务的解决方案

  • 数据飞轮:社交短视频并不是脏数据

  • 信息堆积方案:非端到端,有利有弊

  • 视频 Token 压缩方案:内容完整性非常重要

  • 效果对比

4. 未来与展望

  • 视觉 R1,真的想好要推理什么了吗?

  • Benchmark 比比皆是,足够衡量多模态理解能力吗?


您认为,这样的技术在实践过程中有哪些痛点?

  • 忠实于内容和联想推理,在视频理解上是一对跷跷板的存在。剪辑特效类视频与自然事件类视频是影响模型偏好的两个不同方向。基于自己的业务场景,如何找到最佳的平衡点,是最重要的痛点


演讲亮点

  • 多模态技术飞速发展,“刷榜秘籍”已经漫天都是,但本次演讲不教大家如何刷榜,而会与大家交流如何从实用的角度看待多模态理解问题


听众收益

  • 交流多模态理解上更有意思和有价值的工作方向


除此之外,本次大会还设置了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-03-31 10:022952

评论

发布
暂无评论

看完这5个核心功能,你会明白低代码平台到底能解决什么问题!

J2PaaS低代码平台

低代码 低代码开发 低代码平台

Deco 智能代码技术揭秘:设计稿智能生成代码

凹凸实验室

机器学习 AI 大前端 低代码

Taro 3.4 beta 发布: 支持 Preact 为应用开辟更多体积空间

凹凸实验室

taro 大前端 React HarmonyOS

ONES Talk | 我们为什么选择最难走的软件之路

万事ONES

SaaS ONES

hw5-微博评论高性能高可用

WWH

架构实战营

TypeScript 之基础入门

冴羽

JavaScript typescript html5 翻译 大前端

高维数据世界|基于高维稀疏矩阵的潜在变量模型研究

索信达控股

算法 变量模型 模型介绍 高维数据

Rust 元宇宙 9 —— 库和序列化

Miracle

rust 元宇宙

手把手带你写一个 Vue3 的自定义指令

CRMEB

Java&Go三种HTTP客户端性能测试

FunTester

Java 性能测试 测试框架 Go 语言 FunTester

数据产品经理实战-指标体系搭建

第519区

数据产品经理 数据产品 指标体系 指标管理

社交泛娱出海新引擎,融云「六化」能力助开发者轻装上阵

融云 RongCloud

游戏出海 出海社交 出海

WICC 广州高峰对话:为开发者标注「航海地图」

融云 RongCloud

开发 游戏 社交 泛娱乐 出海

字节跳动亿级DAU客户端发布最佳实践

字节跳动终端技术

一页纸需求的应对方法 —— 五步法

CODING DevOps

业务价值 角色梳理 术语定义 主业务流程梳理 纲举目张

元气部落盲盒小程序开发芒趣盲盒app开发

风行无疆

ONES Automation 流程自动化解决方案

万事ONES

自动化 SaaS

创新模式驱动生产力提升,融云社交场景化 SDK 探索

融云 RongCloud

直播 sdk 语聊房 场景化

读《区块链技术及应用第二版》华为区块链发展思路、双引擎战略及华为区块链特点和使用有感

孙叫兽

区块链 华为链 华为区块链服务

Nocalhost 成功加入 CNCF 沙箱

科技热闻

恒源云(GPUSHARE)_卷积神经网络的工作原理

恒源云

深度学习

专家推荐五个免费的网络安全工具

喀拉峻

网络安全 安全 渗透测试 渗透

行业视野 | ONES CEO 王颖奇对话极客公园张鹏

万事ONES

SaaS SaaS平台

Python代码阅读(第66篇):两个列表的包含关系

Felix

Python Code 列表 阅读代码 Python初学者

APISIX-Datadog 插件发布,助力用户提高系统的可观测性

API7.ai 技术团队

云原生 可观测性 API网关 APISIX Datadog

论渗透信息收集的重要性

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 漏洞挖掘

【DevKit黑科技揭秘】│深入浅出DevKit性能调优,让系统“瓶颈”无处遁形

Geek_32c4d0

英特尔宋继强:秉持三个坚持,穿越技术周期,构建未来技术生态

科技新消息

”微博评论“的高性能高可用计算架构设计

Steven

架构实战营

从双十一的物流大战,看全球通信网络的低延迟优化

融云 RongCloud

音视频 通信 低延迟 全球通信

总决赛金银铜奖揭晓,2021信创“大比武”鲲鹏赛道圆满落幕!

科技热闻

多模态理解技术在短视频上的思考与应用|QCon 北京_AI&大模型_QCon全球软件开发大会_InfoQ精选文章