写点什么

面壁智能发布最强端侧多模态模型:超越 Gemini Pro 、GPT-4V,图像编码快 150 倍!

  • 2024-05-21
    北京
  • 本文字数:1652 字

    阅读完需:约 5 分钟

大小:833.99K时长:04:44
面壁智能发布最强端侧多模态模型:超越Gemini Pro 、GPT-4V,图像编码快150倍!

5 月 20 日,面壁智能小钢炮 MiniCPM 系列推出端侧多模态模型 MiniCPM-Llama3-V 2.5 并开源。据悉,该模型且支持 30+ 多种语言,并且具有以下特性:

 

  • 最强端侧多模态综合性能:超越多模态巨无霸 Gemini Pro 、GPT-4V;

  • OCR 能力 SOTA!9 倍像素更清晰,难图长图长文本精准识别;

  • 图像编码快 150 倍!首次端侧系统级多模态加速。

 

MiniCPM-Llama3-V 2.5 开源地址:

https://github.com/OpenBMB/MiniCPM-V

 

 MiniCPM 系列开源地址:

 https://github.com/OpenBMB/MiniCPM

 

Hugging Face 下载地址:

https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5

 

8 B 端侧模型,超越 GPT-4V、Gemini Pro

 

MiniCPM-Llama3-V 2.5 以 8B 端侧模型参数量级,贡献了惊艳的  OCR(光学字符识别)SOTA 成绩,以及端侧模型中的最佳多模态综合成绩与幻觉能力水平。



模型雷达图

 

在综合评测权威平台 OpenCompass 上,MiniCPM-Llama3-V 2.5 以小博大,综合性能超越多模态“巨无霸” GPT-4V 和 Gemini Pro。

 

OCR(光学字符识别)是多模态大模型最重要的能力之一,也是考察多模态识别与推理能力的硬核指标。新一代 MiniCPM-Llama3-V 2.5  在 OCR 综合能⼒权威榜单 OCRBench 上,越级超越了 GPT-4o、GPT-4V、Claude 3V Opus、Gemini Pro 等标杆模型,实现了性能 SOTA。

 

在评估多模态大模型性能可靠性的重要指标——幻觉能力上,MiniCPM-Llama3-V 2.5 在 Object HalBench 榜单上超越了 GPT-4V 等众多模型(注:目标幻觉率应为 0)。

 

在旨在评估多模态模型的基本现实世界空间理解能力的 RealWorldQA 榜单上,MiniCPM-Llama3-V 2.5 再次超越 GPT-4V 和 Gemini Pro,这对 8B 模型而言难能可贵。

 


榜单成绩:OpenCompass | OCRBench | Object HalBench | RealWorldQA

 

快 150 倍!首次端侧系统级多模态加速

 

面壁智能首次进行端侧系统加速,MiniCPM-Llama3-V 2.5 目前已可以高效部署在手机端。

 

在图像编码方面,面壁首次整合 NPU 和 CPU 加速框架,并结合显存管理、编译优化技术,在 MiniCPM-Llama3-V 2.5 图像编码方面实现了 150 倍加速提升。

 

在语言模型推理方面,目前开源社区的报告结果中,Llama 3 语言模型在手机端侧的解码速度在 0.5 token/s 上下,相比之下,多模态大模型的端侧运行面临着更大的效率挑战,经过 CPU、编译优化、显存管理等优化方式,将 MiniCPM-Llama3-V 2.5 在手机端的语言解码速度提升到 3-4 token/s。

 

有别于常见的中英双语模型,MiniCPM-Llama3-V2.5 可支持 30+ 多种语言,包括德语、法语、西班牙语、意大利语、俄语等主流语言,基本覆盖一带一路国家。

 

基于自研的跨语言泛化技术,仅通过少量翻译的多模态数据的指令微调,就可对多语言多模态对话性能高效泛化。

多语言版本 LLaVABench 评测结果

9 倍像素更清晰,难图长图长文本精准识别

 

OCR 技术进一步打磨,复杂推理与多模态识别能力再进化,MiniCPM-Llama3-V 2.5 对于难图、长图、长文本的精准识别,再度带来出众表现。

 

面壁自研了高清图像高效编码技术,可以高效编码及无损识别 180 万高清像素图片,并且支持任意长宽比,包括 1:9 极限比例,突破了传统技术仅能识别 20 万像素小图的瓶颈。

 

另外,MiniCPM-Llama3-V 2.5 在复杂推理能力上进一步突破:可更好地深入洞察图像,在更复杂、更接近人类的水平上进行思考和解决问题。该模型不仅能理解单一文本或图像等模态信息,还能跨越不同模态间的综合信息,做出更准确和深入的分析。

 

比如,给定一张充满繁密字迹的建筑风景图,人眼难以辨别,但 MiniCPM-Llama3-V 2.5 能够一眼看懂其中的《三体》主题,还能正确推理出这些建筑是为了纪念《三体》及其对中国科幻文学的贡献而设计:




把同样的问题抛给 GPT-4 V ,结果并不理想:



另外,识别包含复杂逻辑的流程图是多模态模型推理能力的直观体现,MiniCPM-Llama3-V 2.5 不仅能够看懂流程图中不同模块的文字、箭头之间的空间位置和复杂逻辑关系,还能给出清晰易懂的解释说明:

 



全文 OCR 能力方面,输入一张手机拍摄的火车票,MiniCPM-Llama3-V 2.5 也能准确提取信息,给出无误的"json"格式输出:

 


2024-05-21 14:218211

评论 1 条评论

发布
用户头像
看来是三体迷
2024-05-22 08:10 · 浙江
回复
没有更多了
发现更多内容

Go 泛型“黑话”:any 和 interface{} 完全一样吗?

十三Tech

NeurIPS 2022机器学习论文精选

qife122

机器学习 算法公平性

设备端语音处理技术解析

qife122

语音识别 模型压缩

2020年Q1/Q2机器学习研究奖项公布

qife122

机器学习

VMware ESXi 8.0U3g macOS Unlocker & OEM BIOS 2.7 集成网卡驱动和 NVMe 驱动 (集成驱动版)

sysin

esxi

[大厂实践] Netflix 分布式计数器抽象

俞凡

架构 大厂实践

e&公布2025年上半年合并净利润增长60.7%,达88亿迪拉姆

财见

基于增强与迁移学习的糖尿病视网膜病变分级方法

qife122

深度学习 迁移学习

Nexpose 8.16.0 for Linux & Windows - 漏洞扫描

sysin

Nexpose

VMware NSX 4.2.3 发布,新增功能概览

sysin

nsx

SonarQube Server 2025 Release 4 新增功能简介 - 代码质量、安全与静态分析工具

sysin

SonarQube

Animate.css - 轻松实现网页动画效果

qife122

CSS 前端

AI如何重塑芯片设计未来

qife122

芯片设计 半导体技术

多模态统一框架:基于下一帧预测的视频化方法

qife122

深度学习 多模态学习

ROS系统MoveIt玩转双臂机器人系列(二)--生成MoveIt配置包

芯动大师

movel

后量子密码学的真正价值:超越量子威胁的密码革新

qife122

网络安全 密码学

NSF与某机构公布AI公平性资助项目

qife122

人工智能 算法公平性

自研 DSL 神器:万字拆解 ANTLR 4 核心原理与高级应用

Java随想录

编译 #java

Metasploit Pro 4.22.8-2025071801 (Linux, Windows) - 专业渗透测试框架

sysin

Metasploit

VMware ESXi 8.0U3g macOS Unlocker & OEM BIOS 2.7 标准版和厂商定制版

sysin

esxi

某机构测试新型"氛围编程"工具Opal

qife122

AI编程 应用生成

IK 字段级别词典升级:IK reload API

极限实验室

ik easysearch

什么是列存储(Columnar Storage)?深度解析其原理与应用场景

镜舟科技

数据分析 StarRocks 湖仓一体 列存储 延迟物化

Metasploit Framework 6.4.76 (macOS, Linux, Windows) - 开源渗透测试框架

sysin

Metasploit

Studio 3T 2025.13 (macOS, Linux, Windows) - MongoDB 的终极 GUI、IDE 和 客户端

sysin

Studio 3T

Splunk Enterprise 10.0.0 发布,新增功能简介

sysin

Splunk Enterprise

JT-Math:大语言模型高级数学推理的多阶段框架

qife122

强化学习 大语言模型

华为云云服务高级顾问叶正晖:华为对多模态大模型的思考与实践

数新网络官方账号

基于Ollivier-Ricci曲率的流形结构恢复算法

qife122

机器学习 计算几何

跨行星共识(IPC)实现区块链突破性扩展

qife122

区块链 web3

Shotcut 25.07 (Linux, macOS, Windows) - 免费开源视频编辑器

sysin

Shotcut

面壁智能发布最强端侧多模态模型:超越Gemini Pro 、GPT-4V,图像编码快150倍!_AI&大模型_褚杏娟_InfoQ精选文章