写点什么

上海交通大学 AI 学院副教授赵波将在 AICon 上海分享大模型在长视频理解中的前沿进展

  • 2025-04-21
    北京
  • 本文字数:1075 字

    阅读完需:约 4 分钟

大小:586.45K时长:03:20
上海交通大学AI学院副教授赵波将在AICon上海分享大模型在长视频理解中的前沿进展

5 月 23 日-24 日,AICon 全球人工智能开发与应用大会上海站即将拉开帷幕。本次大会将聚焦 AI 技术的前沿突破与产业落地,围绕 AI Agent、多模态应用、大模型架构创新、推理性能优化、大模型驱动数据创新、AI 产品创新与出海策略等核心议题,呈现技术与应用融合的最新趋势。


上海交通大学人工智能学院副教授赵波已确认出席 AICon 上海并将在多模态大模型创新实践专题发表题为《大模型在长视频理解中的前沿进展》的主题演讲。近年来,多模态大模型技术发展迅速,展现出强大的视觉理解能力。其中基于大模型的长视频理解任务受到了越来越多的关注,其在教育、影视、安防等领域具有广泛的应用前景。然后由于大语言模型的有效上下文长度有限,难以用有限的 GPU 计算资源实现长视频理解。


针对这一研究问题,课题组首先推出了面向长视频理解大模型的测评基准:MLVU,提供了丰富的评测任务,揭示了主流大模型在长视频理解任务上的能力缺陷。针对长视频数据 Token 数量过多的问题,课题组提出利用可学习 Token 来自适应地压缩视频 Token,从而实现单张卡处理 1 小时以上视频的能力。


在本次分享中,赵波教授将系统解析长视频理解大模型的技术挑战与创新突破,结合课题组提出的测评基准与压缩技术,探讨解决 GPU 资源受限下长视频处理难题的实践路径。


赵波是国家级青年人才,曾担任智源研究院数据智能研究中心负责人。博士毕业于英国爱丁堡大学。主要研究方向包括多模态大模型,具身智能,数据智能等。曾提出系列有影响力的数据蒸馏与合成算法。推出的多模态大模型 Bunny 已被下载数十万次。发表包括 ICLR Oral, NeurIPS Spotlight, CVPR Highlight 等数十篇顶会顶刊论文。曾获得 ICML 2022 杰出论文奖。担任 NeurIPS’24、BMVC’24 领域主席。他在本次会议的详细演讲内容如下:

演讲提纲:

  1. 基于大模型的长视频理解任务与挑战

  2. 主流的视频理解模型与能力测评

  3. 基于可学习 Token 的视频 Token 压缩技术

    可学习的压缩 Token

    自适应切片算法

    训练数据扩增方法

  4. 应用实例分析

  5. 总结与展望


听众收益:

  • 了解最新的长视频理解大模型性能和局限性

  • 了解最新的长视频理解大模型 Token 压缩技术



除此之外,本次大会还策划了AI Agent 构建及多元应用多模态大模型创新实践AI for Data,数据管理与价值挖掘实践大模型推理性能优化策略AI 产品设计的创新思维智能硬件与大模型的融合探索金融领域大模型应用实践大模型助力业务提效实践等专题,届时将有来自不同行业、不同领域、不同企业的 60+资深专家在 AICon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-04-21 17:006270

评论

发布
暂无评论

小白福利 | Window前言

GreatSQL

MySQL greatsql greatsql社区

一文掌握使用 Go 标准库 sort 对切片进行排序

陈明勇

Go golang 排序 三周年连更 sort

uniapp自定义富文本编辑器

格斗家不爱在外太空沉思

uni-app 三周年连更

美光遭遇审查,存储市场成了“香饽饽”?

脑极体

美光

使用 Amazon Step Functions 和 Amazon Athena 实现简易大数据编排

亚马逊云科技 (Amazon Web Services)

STM32F103RCT6驱动SG90舵机-完成正反转角度控制

DS小龙哥

三周年连更

【倒计时4天】金融服务用户体验专场沙龙开启预约

易观分析

金融 经济

Socket学习网络基础

芯动大师

android TCP通信 三周年连更

HTTP方法大全

阿泽🧸

HTTP 三周年连更

OpenHarmony/HarmonyOS应用上下文Context

坚果

OpenHarmony OpenHarmony3.2 三周年连更

《设计模式之禅》Strategy_Pattern--策略模式

浅辄

设计模式 Java、 三周年连更

Java面向对象编程高级

timerring

Java

编程技术为王的天下终究要散了吗| 社区征文

卢卡多多

三周年征文

华为云场景化解决方案 助力制造业企业数字化转型

YG科技

打包python程序 | python小知识

AIWeker

Python python小知识 三周年连更

《致“抄我”的朋友:你已经被我列入白名单!》

程序员晚枫

开源

简单高效的Shell数组操作技巧与技术

小毛驴的烂笔头

linux命令 linux数组

Linux命令之find的高级用法

小毛驴的烂笔头

Linux find

去年我是怎么解决团队问题的

光毅

团队管理 领导力

全栈开发实战|SSM框架整合开发

TiAmo

ssm mybits 全栈开发 三周年连更

为什么说Flutter无法成为移动应用开发的“顶流明星”?

FinFish

flutter 前端框架 跨端框架

一文读懂线程池的实现原理

老周聊架构

三周年连更

基于多场景化解决方案,华为云助力制造业企业走出数字化转型困境

YG科技

挑战 30 天学完 Python:Day8 数据类型 - 字典 dict

MegaQi

Python 挑战30天学完Python 三周年连更

Unity 报错之 接入YomboTGSDK后打包报错:mainTemplate.gradle needs to be updated(property ‘unityStreamingAssets‘)

陈言必行

Unity 三周年连更

跨平台应用开发进阶(四十九)由环境切换引发的页面通讯机制思考

No Silver Bullet

跨平台应用开发 三周年连更 页面通讯机制

Go语言并发编程的核心 —— GMP调度模型

Jack

NDP常用报文格式

穿过生命散发芬芳

NDP 三周年连更

AI日课@20230417:AI之于教育;ChatGPT Sidebar:一个浏览网页时的强力AI助手

无人之路

人工智能 ChatGPT

CSS文本平衡排版 text-wrap:balance

南城FE

CSS 前端 设计

上海交通大学AI学院副教授赵波将在AICon上海分享大模型在长视频理解中的前沿进展_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章