2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

多模态理解技术在短视频上的思考与应用|QCon 北京

  • 2025-03-31
    北京
  • 本文字数:1198 字

    阅读完需:约 4 分钟

多模态理解技术在短视频上的思考与应用|QCon 北京

2025 年 4 月 10 - 12 日,QCon 北京站将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。


快手多模态模型高级算法专家高欢已确认出席并发表题为多模态理解技术在短视频上的思考与应用的主题分享。具体围绕社交短视频理解任务展开,首先介绍多模态理解技术的发展现状,讲述应用产品视角和学术定义视角的多模态理解能力,并介绍业界主流的技术方案。随后将围绕社交短视频的特点和痛点展开,介绍一套经过验证的解决方案流程。最后,将围绕两个近期的热门多模态方向进行讨论:视觉 R1 和 Benchmark 。


高欢目前是快手快意多模态基座模型负责人,主要负责 AI 生成场景背后的多模态理解研发工作,深度参与快手多个 AIGC 算法技术落地。主要研究兴趣包括:多模态大语言模型、视频理解编码器、大语言模型,曾在 NeurIPS、ACL、AAAI、ECCV、ICDE 等顶级学术会议上发表多篇论文。本次会议中,他的详细演讲内容如下:


演讲提纲

1. 多模态技术的发展

  • 多模态技术的应用产品

  • 多模态理解任务分类:感知、认知、定位、推理

  • 模型结构:多模态特征融合、动态分辨率处理

  • 长视频理解挑战和解决方案:帧采样和 Token 丢弃

2. 社交短视频理解的难点

  • 社交短视频的特殊性

  • 社交短视频理解任务

3. 社交短视频理解任务的解决方案

  • 数据飞轮:社交短视频并不是脏数据

  • 信息堆积方案:非端到端,有利有弊

  • 视频 Token 压缩方案:内容完整性非常重要

  • 效果对比

4. 未来与展望

  • 视觉 R1,真的想好要推理什么了吗?

  • Benchmark 比比皆是,足够衡量多模态理解能力吗?


您认为,这样的技术在实践过程中有哪些痛点?

  • 忠实于内容和联想推理,在视频理解上是一对跷跷板的存在。剪辑特效类视频与自然事件类视频是影响模型偏好的两个不同方向。基于自己的业务场景,如何找到最佳的平衡点,是最重要的痛点


演讲亮点

  • 多模态技术飞速发展,“刷榜秘籍”已经漫天都是,但本次演讲不教大家如何刷榜,而会与大家交流如何从实用的角度看待多模态理解问题


听众收益

  • 交流多模态理解上更有意思和有价值的工作方向


除此之外,本次大会还设置了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-03-31 10:023063

评论

发布
暂无评论

八股MQ002——说说Rebalance?

Codyida

后端

八股MQ004——聊聊Producer

Codyida

后端

NFTScan 推出「nftonchain」Telegram channel,实时推送链上 NFT 热点数据

NFT Research

NFT 智能推送 #Web3

版本控制 | 如何使用虚幻引擎的多用户编辑(MUE)功能

龙智—DevSecOps解决方案

版本控制 虚幻引擎 虚拟制作 虚幻多用户编辑

自动化测试 | 如何在API开发中践行“设计优先”方法?SwaggerHub助您一臂之力

龙智—DevSecOps解决方案

API SmartBear

使用篇丨链路追踪(Tracing)很简单:链路拓扑

阿里巴巴云原生

阿里云 云原生 链路追踪 Tracing

推动变革,打造全新的全面预算管理解决方案

智达方通

智能多维数据库 多维数据库 业财融合 全面预算管理

SpringBoot 项目解决跨域的几种方案

Java Spring Boot

八股MQ001——为什么需要使用MQ?

Codyida

后端

干货满满的技术盛宴!OpenHarmony开发者大会技术分论坛成功举办

最新动态

升级企业数智化底座 用友iuap拉满长期主义

用友BIP

简洁好用的思维导图软件:simplemind 中文版

真大的脸盆

Mac 思维导图 Mac 软件 思维导图软件

Netty服务端开发及性能优化 | 京东云技术团队

京东科技开发者

Netty 高性能 netty内存管理 企业号 5 月 PK 榜

Python函数基础回顾

timerring

Python

OceanBase 4.0(小鱼)入选2023数字中国建设峰会“十大硬核科技”!

OceanBase 数据库

数据库 oceanbase

京东物流常态化压测实践 | 京东云技术团队

京东科技开发者

测试 压测 常态化压测 企业号 5 月 PK 榜

Python文件和操作系统基础

timerring

Python

硬核!阿里自爆虐心万字面试手册,Github上获赞89.7K

Java 程序员

使用TPC-H 进行GreatSQL并行查询测试

GreatSQL

MySQL 并行查询 greatsql greatsql社区

膜拜,国内算法大佬亲撰:数据结构与算法全解笔记

程序知音

Java 算法 数据结构与算法 后端技术

五月到了,再来看看ChatGPT给我们带来了什么吧!

加入高科技仿生人

AI AIGC ChatGPT

小红书如何应对万亿级社交网络关系挑战?图存储系统 REDtao 来了!

小红书技术REDtech

云原生 存储 图数据库 跨云多活

分布式编译系统的搭建

GreatSQL

MySQL greatsql社区 分布式编译

重塑数据活力 | 焱融科技与DaoCloud 道客完成云原生兼容性认证

焱融科技

#云原生 #高性能 #分布式文件存储 #文件存储 #分布式存储

涨薪60%,从小厂逆袭,坐上美团技术专家(面经+心得)

程序知音

Java 后端 java面试 java架构 Java进阶

面试被Spring Cloud拿捏?莫慌,阿里人用五个模块讲明白了SpringCloud微服务架构

Java 架构 微服务 Spring Cloud

八股MQ005——聊聊Broker

Codyida

后端

153个!PCB板上的字母符号都代表啥?一图带你搞懂!

华秋PCB

物理 电路 元器件 PCB PCB设计

演讲回顾 | 释放Atlassian工具的力量

龙智—DevSecOps解决方案

Atlassian Jira Atlassian 云版

openEuler之上的K3s ARM64集群管理

openEuler

Linux 云原生 k8s AWS Kubernetes Serverless

中国信通院召开政企信息技术应用创新(信创)促进中心启动会

信通院IOMM数字化转型团队

信创 信创产业 信创生态

多模态理解技术在短视频上的思考与应用|QCon 北京_AI&大模型_QCon全球软件开发大会_InfoQ精选文章