在 2025 收官前,看清 Data + AI 的真实走向,点击查看 BUILD 大会精华版 了解详情
写点什么

上海交通大学 AI 学院副教授赵波将在 AICon 上海分享大模型在长视频理解中的前沿进展

  • 2025-04-21
    北京
  • 本文字数:1075 字

    阅读完需:约 4 分钟

大小:586.45K时长:03:20
上海交通大学AI学院副教授赵波将在AICon上海分享大模型在长视频理解中的前沿进展

5 月 23 日-24 日,AICon 全球人工智能开发与应用大会上海站即将拉开帷幕。本次大会将聚焦 AI 技术的前沿突破与产业落地,围绕 AI Agent、多模态应用、大模型架构创新、推理性能优化、大模型驱动数据创新、AI 产品创新与出海策略等核心议题,呈现技术与应用融合的最新趋势。


上海交通大学人工智能学院副教授赵波已确认出席 AICon 上海并将在多模态大模型创新实践专题发表题为《大模型在长视频理解中的前沿进展》的主题演讲。近年来,多模态大模型技术发展迅速,展现出强大的视觉理解能力。其中基于大模型的长视频理解任务受到了越来越多的关注,其在教育、影视、安防等领域具有广泛的应用前景。然后由于大语言模型的有效上下文长度有限,难以用有限的 GPU 计算资源实现长视频理解。


针对这一研究问题,课题组首先推出了面向长视频理解大模型的测评基准:MLVU,提供了丰富的评测任务,揭示了主流大模型在长视频理解任务上的能力缺陷。针对长视频数据 Token 数量过多的问题,课题组提出利用可学习 Token 来自适应地压缩视频 Token,从而实现单张卡处理 1 小时以上视频的能力。


在本次分享中,赵波教授将系统解析长视频理解大模型的技术挑战与创新突破,结合课题组提出的测评基准与压缩技术,探讨解决 GPU 资源受限下长视频处理难题的实践路径。


赵波是国家级青年人才,曾担任智源研究院数据智能研究中心负责人。博士毕业于英国爱丁堡大学。主要研究方向包括多模态大模型,具身智能,数据智能等。曾提出系列有影响力的数据蒸馏与合成算法。推出的多模态大模型 Bunny 已被下载数十万次。发表包括 ICLR Oral, NeurIPS Spotlight, CVPR Highlight 等数十篇顶会顶刊论文。曾获得 ICML 2022 杰出论文奖。担任 NeurIPS’24、BMVC’24 领域主席。他在本次会议的详细演讲内容如下:

演讲提纲:

  1. 基于大模型的长视频理解任务与挑战

  2. 主流的视频理解模型与能力测评

  3. 基于可学习 Token 的视频 Token 压缩技术

    可学习的压缩 Token

    自适应切片算法

    训练数据扩增方法

  4. 应用实例分析

  5. 总结与展望


听众收益:

  • 了解最新的长视频理解大模型性能和局限性

  • 了解最新的长视频理解大模型 Token 压缩技术



除此之外,本次大会还策划了AI Agent 构建及多元应用多模态大模型创新实践AI for Data,数据管理与价值挖掘实践大模型推理性能优化策略AI 产品设计的创新思维智能硬件与大模型的融合探索金融领域大模型应用实践大模型助力业务提效实践等专题,届时将有来自不同行业、不同领域、不同企业的 60+资深专家在 AICon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-04-21 17:006360

评论

发布
暂无评论

数据湖(二十):Flink兼容Iceberg目前不足和Iceberg与Hudi对比

Lansonli

数据湖

华为运动健康服务Health Kit 6.9.0版本新增功能揭秘!

HarmonyOS SDK

HMS Core

ElasticSearch必知必会-进阶篇

京东科技开发者

ES 集群 索引技术 Elastic Search 企业号 1 月 PK 榜

3 📖 《JavaScript高级程序设计》__ 语言基础(上)

HoMeTown

JavaScript 前端 读书 js

eBPF SIG年度动态: eBPF和Wasm深度融合、参与7场活动及2023展望 | 龙蜥 SIG

OpenAnolis小助手

Linux 开源 ebpf 龙蜥社区 sig

《编程的原则》读书笔记(四):七个设计原则

Chares

软件工程 软件开发 编程原理 软件开发原则

在农业银行做开发是什么样的体验?

程序员大彬

Java 开发

“低代码+PaaS”的技术创新实践

元年技术洞察

方舟 低代码 数字化转型 低代码平台

1 📖 《JavaScript高级程序设计》__ 什么是JavaScript?

HoMeTown

JavaScript #读书 前端‘’

2023年1月中国数据库排行榜:OceanBase 持续两月登顶,前四甲青云直上开新局

墨天轮

数据库 opengauss tdsql 国产数据库 polarDB

dcm4che 解析 修改 保存 dicom文件

JefferLiu

工信部电子标准院授予阿里巴巴9个开源项目“优秀”评级

云布道师

阿里云

虚拟化技术浅析第二弹之初识Kubernetes

京东科技开发者

云计算 容器 微服务 #Kubernetes# 虚拟化技术

Pipy 实现 SOCKS 代理

Flomesh

HTTP Service Mesh 服务网格 Pipy 流量管理

企业的数据存储、处理与分析之道

云布道师

阿里云 云存储

荣誉+1,龙蜥荣获“2022年度杰出开源运营团队”奖项

OpenAnolis小助手

开源 InfoQ 运营 获奖 龙蜥团队

为什么数字化转型需要“低代码”?

元年技术洞察

DevOps 低代码 数字化转型 低代码平台

玩转机密计算从 secGear 开始

openEuler

开源 操作系统 openEuler 机密计算

mysql 中字段的 collate 和 charset 有什么区别

ModStart

LED显示屏都需要4个配套设施

Dylan

LED显示屏 户外LED显示屏 led显示屏厂家

2 📖 《JavaScript高级程序设计》__ HTML中的JavaScript

HoMeTown

JavaScript 前端 读书 js

研发团队绩效考核:Leader 如何做到赏罚分明?

石云升

极客时间 复盘 1月月更 技术领导力实战笔记

MatrixOne入选艾瑞数据库研究报告啦~

MatrixOrigin

分布式数据库 国产数据库 MatrixOrigin MatrixOne 艾瑞咨询

响应式流的核心机制——背压机制

老周聊架构

响应式编程

我的2022

劼哥stone

2022年终总结

BI 可视化工具不只有视图,还有报表

搞大屏的小北

数据可视化工具 DataEase

Disney 流媒体广告 Flink 的应用实践

Apache Flink

大数据 flink 实时计算

使用 NineData 实现备份集的实时查询

NineData

数据库 数据 NineData 备份集 实时备份

3 📖 《JavaScript高级程序设计》__ 语言基础(下)

HoMeTown

JavaScript 前端 读书 js 前端面试

如何使用极狐GitLab 机器人大幅提升研发效率

极狐GitLab

项目管理 DevOps 机器人流程自动化 极狐GitLab 研发效率

马蜂窝如何利用 APISIX 网关实现微服务架构升级

API7.ai 技术团队

api 网关 APISIX envoy ingress Kubernetes, 云原生, eBPF

上海交通大学AI学院副教授赵波将在AICon上海分享大模型在长视频理解中的前沿进展_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章