写点什么

面壁智能发布最强端侧多模态模型:超越 Gemini Pro 、GPT-4V,图像编码快 150 倍!

  • 2024-05-21
    北京
  • 本文字数:1652 字

    阅读完需:约 5 分钟

大小:833.99K时长:04:44
面壁智能发布最强端侧多模态模型:超越Gemini Pro 、GPT-4V,图像编码快150倍!

5 月 20 日,面壁智能小钢炮 MiniCPM 系列推出端侧多模态模型 MiniCPM-Llama3-V 2.5 并开源。据悉,该模型且支持 30+ 多种语言,并且具有以下特性:

 

  • 最强端侧多模态综合性能:超越多模态巨无霸 Gemini Pro 、GPT-4V;

  • OCR 能力 SOTA!9 倍像素更清晰,难图长图长文本精准识别;

  • 图像编码快 150 倍!首次端侧系统级多模态加速。

 

MiniCPM-Llama3-V 2.5 开源地址:

https://github.com/OpenBMB/MiniCPM-V

 

 MiniCPM 系列开源地址:

 https://github.com/OpenBMB/MiniCPM

 

Hugging Face 下载地址:

https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5

 

8 B 端侧模型,超越 GPT-4V、Gemini Pro

 

MiniCPM-Llama3-V 2.5 以 8B 端侧模型参数量级,贡献了惊艳的  OCR(光学字符识别)SOTA 成绩,以及端侧模型中的最佳多模态综合成绩与幻觉能力水平。



模型雷达图

 

在综合评测权威平台 OpenCompass 上,MiniCPM-Llama3-V 2.5 以小博大,综合性能超越多模态“巨无霸” GPT-4V 和 Gemini Pro。

 

OCR(光学字符识别)是多模态大模型最重要的能力之一,也是考察多模态识别与推理能力的硬核指标。新一代 MiniCPM-Llama3-V 2.5  在 OCR 综合能⼒权威榜单 OCRBench 上,越级超越了 GPT-4o、GPT-4V、Claude 3V Opus、Gemini Pro 等标杆模型,实现了性能 SOTA。

 

在评估多模态大模型性能可靠性的重要指标——幻觉能力上,MiniCPM-Llama3-V 2.5 在 Object HalBench 榜单上超越了 GPT-4V 等众多模型(注:目标幻觉率应为 0)。

 

在旨在评估多模态模型的基本现实世界空间理解能力的 RealWorldQA 榜单上,MiniCPM-Llama3-V 2.5 再次超越 GPT-4V 和 Gemini Pro,这对 8B 模型而言难能可贵。

 


榜单成绩:OpenCompass | OCRBench | Object HalBench | RealWorldQA

 

快 150 倍!首次端侧系统级多模态加速

 

面壁智能首次进行端侧系统加速,MiniCPM-Llama3-V 2.5 目前已可以高效部署在手机端。

 

在图像编码方面,面壁首次整合 NPU 和 CPU 加速框架,并结合显存管理、编译优化技术,在 MiniCPM-Llama3-V 2.5 图像编码方面实现了 150 倍加速提升。

 

在语言模型推理方面,目前开源社区的报告结果中,Llama 3 语言模型在手机端侧的解码速度在 0.5 token/s 上下,相比之下,多模态大模型的端侧运行面临着更大的效率挑战,经过 CPU、编译优化、显存管理等优化方式,将 MiniCPM-Llama3-V 2.5 在手机端的语言解码速度提升到 3-4 token/s。

 

有别于常见的中英双语模型,MiniCPM-Llama3-V2.5 可支持 30+ 多种语言,包括德语、法语、西班牙语、意大利语、俄语等主流语言,基本覆盖一带一路国家。

 

基于自研的跨语言泛化技术,仅通过少量翻译的多模态数据的指令微调,就可对多语言多模态对话性能高效泛化。

多语言版本 LLaVABench 评测结果

9 倍像素更清晰,难图长图长文本精准识别

 

OCR 技术进一步打磨,复杂推理与多模态识别能力再进化,MiniCPM-Llama3-V 2.5 对于难图、长图、长文本的精准识别,再度带来出众表现。

 

面壁自研了高清图像高效编码技术,可以高效编码及无损识别 180 万高清像素图片,并且支持任意长宽比,包括 1:9 极限比例,突破了传统技术仅能识别 20 万像素小图的瓶颈。

 

另外,MiniCPM-Llama3-V 2.5 在复杂推理能力上进一步突破:可更好地深入洞察图像,在更复杂、更接近人类的水平上进行思考和解决问题。该模型不仅能理解单一文本或图像等模态信息,还能跨越不同模态间的综合信息,做出更准确和深入的分析。

 

比如,给定一张充满繁密字迹的建筑风景图,人眼难以辨别,但 MiniCPM-Llama3-V 2.5 能够一眼看懂其中的《三体》主题,还能正确推理出这些建筑是为了纪念《三体》及其对中国科幻文学的贡献而设计:




把同样的问题抛给 GPT-4 V ,结果并不理想:



另外,识别包含复杂逻辑的流程图是多模态模型推理能力的直观体现,MiniCPM-Llama3-V 2.5 不仅能够看懂流程图中不同模块的文字、箭头之间的空间位置和复杂逻辑关系,还能给出清晰易懂的解释说明:

 



全文 OCR 能力方面,输入一张手机拍摄的火车票,MiniCPM-Llama3-V 2.5 也能准确提取信息,给出无误的"json"格式输出:

 


2024-05-21 14:217653

评论 1 条评论

发布
用户头像
看来是三体迷
2024-05-22 08:10 · 浙江
回复
没有更多了
发现更多内容

Swap市值管理机器人系统软件开发资料

限时!字节Java程序性能优化宝典开源,原来这才叫性能优化

Java~~~

Java 架构 面试 JVM 性能调优

云上数据不安全主要原因是什么?保障云上数据安全用什么软件好?

行云管家

云计算 数据安全 企业上云 云数据

iOS 屏幕实时共享功能实践(内附详细代码)

融云 RongCloud

ios 音视频

测试用例编写方法

与风逐梦

进大厂为何要学Zookeeper?

冰河

zookeeper 分布式 一致性 服务注册与发现 协同系统

快速解决运维过程中碰到的难题,就用行云管家!

行云管家

运维 运维人生 IT运维 企业运维

GameFi/DeFi+NFT软件系统开发方案

面面俱到!阿里巴巴2021最新Java面试参考权威指南泰山版震撼来袭

Java 架构 面试 后端 计算机

限量!腾讯高工用4部分讲清楚了Spring全家桶+微服务

Java~~~

Java spring 架构 面试 微服务

完美!华为爆出Redis宝典,原来Redis性能可压榨到极致

Java~~~

Java redis 架构 面试 分布式

RVB2601应用开发实战系列四:FOTA镜像升级

Roy夹馍

物联网 risc-v 嵌入式开发

叹服!阿里自述SpringCloud微服务:入门+实战+案例

Java~~~

Java spring 架构 面试 Spring Cloud

细节爆炸!腾讯用13个案例实战讲明白MySQL,没想到这么全

Java~~~

Java MySQL 数据库 架构 面试

大厂的 SDK 写法,偷学到了!

程序员鱼皮

Java c++ Python 架构 大前端

顶级!13位专家力荐Spring5为企业级开发提供一站式方案

Java~~~

Java spring 架构 面试 Spring Boot

九阴真经MySQL版:一条查询语句如何执行的

MySQL 数据库 程序员 架构

美团架构师熬夜整理:Netty权威指南2.0版+英雄传说项目

Java~~~

Java 架构 面试 Netty 架构师

回款金额自动分配

明道云

game+defi系统软件开发内容

uniswap市值管理机器人系统开发

惊艳!阿里自爆用480页讲清楚了44种微服务架构设计模式

Java~~~

Java spring 架构 面试 微服务

牛掰!阿里人用7部分讲明白百亿级高并发系统(全彩版小册开源)

Java~~~

Java 架构 面试 多线程 高并发

🚄【Redis 干货领域】让你彻底会使用“Redis中最陌生且最强大的集合”(ZSET)【上部】

码界西柚

redis Zset 9月日更 Redis指令

高光时刻!美团推出Spring源码进阶宝典:脑图+视频+文档

Java~~~

Java spring 源码 架构 面试

云小课|VMware备份上云学习专列来了,快加入吧~

华为云开发者联盟

云备份 VMware备份 备份上云

这个夏天,这群大学生奔波在盐场里忙啥?

科技热闻

膜拜!首次公布Java10W字面经,Github访问量破百万

Java~~~

Java 架构 面试 微服务 多线程

PancakeSwap市值管理机器人APP系统开发价格

RVB2601应用开发实战系列五: 网络播放器设计(一)

Roy夹馍

物联网 risc-v 嵌入式开发

GameFi游戏金融系统软件开发介绍

面壁智能发布最强端侧多模态模型:超越Gemini Pro 、GPT-4V,图像编码快150倍!_AI&大模型_褚杏娟_InfoQ精选文章