
12 月 19-20 日, AICon全球人工智能开发与应用大会收官之站将在北京举办,本次大会 将以 “探索 AI 应用边界” 为主题,聚焦企业级 Agent 落地、上下文工程、AI 产品创新等多个热门方向,围绕企业如何通过大模型提升研发与业务运营效率的实际应用案例,邀请来自阿里、字节、华为、京东、快手、美团等头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!
清华大学博士生余天予已确认出席并将在「多模态从技术突破到创新应用落地」专题发表题为《突破多模态大模型的效率瓶颈:结构、数据与训练优化》的主题分享。多模态大模型作为人工智能的最前沿领域之一正在快速发展。然而,多模态大模型的训练与推理效率已成为影响其普及性与可扩展性的核心瓶颈。为应对这一挑战,余天予及其团队推出 MiniCPM-V 4.5 训练方案,兼具训练推理的高效性和强大的性能。他们在模型结构、数据策略与训练方法三个方面进行了关键改进:使用了统一的 3D-Resampler 模型架构,实现对图像与视频的高压缩率紧凑编码;构建了统一的文档知识与文本识别学习范式,无需繁重的数据工程;并设计了混合强化学习策略,使模型在短推理与长推理两种模式下均具备卓越能力。
MiniCPM-V 4.5 在 OpenCompass 评测中超越了广泛使用的闭源模型(如 GPT-4o-latest)以及显著更大的开源模型(如 Qwen2.5-VL 72B)。MiniCPM-V 4.5 在保持强大性能的同时也展现出极高的效率。例如,在广泛采用的 VideoMME 基准测试中,MiniCPM-V 4.5 在 30B 规模以下的模型中取得了最优秀的性能,甚至仅用 46.7% 的 GPU 显存成本和 8.7% 的推理时间(相较于 Qwen2.5-VL 7B)。
余天予是清华大学自然语言处理实验室博士生,MiniCPM-V 系列多模态大模型核心作者,发表 CVPR 等人工智能顶会论文多篇,主要研究方向为多模态大模型。他在本次会议的详细演讲内容如下:
多模态大模型的效率瓶颈
结构:通过 3D-Resampler 提高压缩率
数据:通过统一文档 &OCR 学习简化数据工程
训练:混合强化学习提高训练效率
这样的技术在实践过程中有哪些痛点?
3D-Resampler 在高压缩率的同时对于空间特征的编码有所取舍;
统一训练的噪声参数有一定敏感性;
混合训练的比例参数具有一定敏感性。
演讲有哪些前沿亮点?
通过 3D-Resampler 提高压缩率、通过统一文档 &OCR 学习简化数据工程、混合强化学习提高训练效率。
听众收益
多模态大模型效率瓶颈分析;
多模态大模型的结构、数据、训练高效率构建方案。
除此之外,本次大会还策划了LLM 时代的软件研发新范式、Context Engineering、Data+AI / Agent 落地实践、大模型系统工程、企业级 Agent 的设计与落地、大模型时代下的搜广推系统实践、多模态从技术突破到创新应用落地等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。
现在报名即可以享受 8 折优惠,单张门票立省 1160 元,详情可扫码或联系票务经理 13269078023 咨询。








评论