多模态理解技术在短视频上的思考与应用|QCon 北京

  • 2025-03-31
    北京
  • 本文字数:1198 字

    阅读完需:约 4 分钟

2025 年 4 月 10 - 12 日,QCon 北京站将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。

快手多模态模型高级算法专家高欢已确认出席并发表题为多模态理解技术在短视频上的思考与应用的主题分享。具体围绕社交短视频理解任务展开,首先介绍多模态理解技术的发展现状,讲述应用产品视角和学术定义视角的多模态理解能力,并介绍业界主流的技术方案。随后将围绕社交短视频的特点和痛点展开,介绍一套经过验证的解决方案流程。最后,将围绕两个近期的热门多模态方向进行讨论:视觉 R1 和 Benchmark 。

高欢目前是快手快意多模态基座模型负责人,主要负责 AI 生成场景背后的多模态理解研发工作,深度参与快手多个 AIGC 算法技术落地。主要研究兴趣包括:多模态大语言模型、视频理解编码器、大语言模型,曾在 NeurIPS、ACL、AAAI、ECCV、ICDE 等顶级学术会议上发表多篇论文。本次会议中,他的详细演讲内容如下:

演讲提纲

1. 多模态技术的发展

  • 多模态技术的应用产品

  • 多模态理解任务分类:感知、认知、定位、推理

  • 模型结构:多模态特征融合、动态分辨率处理

  • 长视频理解挑战和解决方案:帧采样和 Token 丢弃

2. 社交短视频理解的难点

  • 社交短视频的特殊性

  • 社交短视频理解任务

3. 社交短视频理解任务的解决方案

  • 数据飞轮:社交短视频并不是脏数据

  • 信息堆积方案:非端到端,有利有弊

  • 视频 Token 压缩方案:内容完整性非常重要

  • 效果对比

4. 未来与展望

  • 视觉 R1,真的想好要推理什么了吗?

  • Benchmark 比比皆是,足够衡量多模态理解能力吗?

您认为,这样的技术在实践过程中有哪些痛点?

  • 忠实于内容和联想推理,在视频理解上是一对跷跷板的存在。剪辑特效类视频与自然事件类视频是影响模型偏好的两个不同方向。基于自己的业务场景,如何找到最佳的平衡点,是最重要的痛点

演讲亮点

  • 多模态技术飞速发展,“刷榜秘籍”已经漫天都是,但本次演讲不教大家如何刷榜,而会与大家交流如何从实用的角度看待多模态理解问题

听众收益

  • 交流多模态理解上更有意思和有价值的工作方向

除此之外,本次大会还设置了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。

目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。

为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088