写点什么

清华大学博士生余天予确认出席 AICon 北京站,分享如何突破多模态大模型的效率瓶颈

  • 2025-11-07
    北京
  • 本文字数:1225 字

    阅读完需:约 4 分钟

大小:676.31K时长:03:50
清华大学博士生余天予确认出席AICon北京站,分享如何突破多模态大模型的效率瓶颈

12 月 19-20 日, AICon全球人工智能开发与应用大会收官之站将在北京举办,本次大会 将以 “探索 AI 应用边界” 为主题,聚焦企业级 Agent 落地、上下文工程、AI 产品创新等多个热门方向,围绕企业如何通过大模型提升研发与业务运营效率的实际应用案例,邀请来自阿里、字节、华为、京东、快手、美团等头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!


清华大学博士生余天予已确认出席并将在「多模态从技术突破到创新应用落地」专题发表题为突破多模态大模型的效率瓶颈:结构、数据与训练优化的主题分享。多模态大模型作为人工智能的最前沿领域之一正在快速发展。然而,多模态大模型的训练与推理效率已成为影响其普及性与可扩展性的核心瓶颈。为应对这一挑战,余天予及其团队推出 MiniCPM-V 4.5 训练方案,兼具训练推理的高效性和强大的性能。他们在模型结构、数据策略与训练方法三个方面进行了关键改进:使用了统一的 3D-Resampler 模型架构,实现对图像与视频的高压缩率紧凑编码;构建了统一的文档知识与文本识别学习范式,无需繁重的数据工程;并设计了混合强化学习策略,使模型在短推理与长推理两种模式下均具备卓越能力。


MiniCPM-V 4.5 在 OpenCompass 评测中超越了广泛使用的闭源模型(如 GPT-4o-latest)以及显著更大的开源模型(如 Qwen2.5-VL 72B)。MiniCPM-V 4.5 在保持强大性能的同时也展现出极高的效率。例如,在广泛采用的 VideoMME 基准测试中,MiniCPM-V 4.5 在 30B 规模以下的模型中取得了最优秀的性能,甚至仅用 46.7% 的 GPU 显存成本和 8.7% 的推理时间(相较于 Qwen2.5-VL 7B)。


余天予是清华大学自然语言处理实验室博士生,MiniCPM-V 系列多模态大模型核心作者,发表 CVPR 等人工智能顶会论文多篇,主要研究方向为多模态大模型。他在本次会议的详细演讲内容如下:

  1. 多模态大模型的效率瓶颈

  2. 结构:通过 3D-Resampler 提高压缩率

  3. 数据:通过统一文档 &OCR 学习简化数据工程

  4. 训练:混合强化学习提高训练效率


这样的技术在实践过程中有哪些痛点?

  1. 3D-Resampler 在高压缩率的同时对于空间特征的编码有所取舍;

  2. 统一训练的噪声参数有一定敏感性;

  3. 混合训练的比例参数具有一定敏感性。


演讲有哪些前沿亮点?

通过 3D-Resampler 提高压缩率、通过统一文档 &OCR 学习简化数据工程、混合强化学习提高训练效率。


听众收益

  1. 多模态大模型效率瓶颈分析;

  2. 多模态大模型的结构、数据、训练高效率构建方案。


除此之外,本次大会还策划了LLM 时代的软件研发新范式Context EngineeringData+AI / Agent 落地实践大模型系统工程企业级 Agent 的设计与落地大模型时代下的搜广推系统实践多模态从技术突破到创新应用落地等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。

现在报名即可以享受 8 折优惠,单张门票立省 1160 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-11-07 13:326552

评论

发布
暂无评论

一个程序员眼中的裁员潮

HoneyMoose

拿到大厂前端offer的前端开发是怎么回答面试题的

loveX001

JavaScript

22道js输出顺序问题,你能做出几道

loveX001

JavaScript

前端面试中小型公司都考些什么

loveX001

JavaScript

官宣|Apache Flink 1.16 发布公告

Apache Flink

更快更稳更易用: Flink 自适应批处理能力演进

Apache Flink

大数据 flink

kubernetes下的jenkins如何设置maven

程序员欣宸

maven jenkins 11月月更

前端代码规范常见错误 二

默默的成长

前端 Vue 3 11月月更

new Vue的时候到底做了什么

bb_xiaxia1998

Vue

当前API安全产品现状

阿泽🧸

API 11月月更

Docker Compose快速部署多容器服务实战

闫同学

Docker 容器 11月月更

JS in CSS:一键支持响应式布局

iofod jude

前端 后端 低代码 iofod

通宵整理的react面试题并附上自己的答案

beifeng1996

React

面试官:你是怎样进行react组件代码复用的

beifeng1996

React

IO原理(二):多路复用

苏格拉格拉

reactor nio epoll IO多路复用 IO模型

自制操作系统日记(6):静态桌面初步

操作系统

面试官:说说React-SSR的原理

beifeng1996

React

主成分分析PCA与奇异值分解SVD-降维的实现方法

烧灯续昼2002

Python 机器学习 算法 sklearn 11月月更

React源码分析3-render阶段(穿插scheduler和reconciler)

goClient1992

React

80%的前端开发都答不上来的js异步面试题

loveX001

JavaScript

前端代码规范常见错误 一

默默的成长

前端 Vue 3 11月月更

熬夜整理的vue面试题

bb_xiaxia1998

Vue

简单组合逻辑电路

芯动大师

Verilog LED数码管 11月月更

分布式系统设计之常见的负载均衡算法

闫同学

负载均衡 11月月更 分布式系统设计

裁员潮血洗硅谷是坏事还是好事

HoneyMoose

React源码分析4-深度理解diff算法

goClient1992

React

React源码分析2-深入理解fiber

goClient1992

React

前端二面react面试题(附答案)

beifeng1996

React

最近面试被问到的vue题

bb_xiaxia1998

Vue

Go易错集锦、优秀开源包、实战案例合集

Go学堂

Go 内容合集 签约计划第二季 技术专题合集

Vue的computed和watch的区别是什么?

bb_xiaxia1998

Vue

清华大学博士生余天予确认出席AICon北京站,分享如何突破多模态大模型的效率瓶颈_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章