写点什么

面壁智能发布最强端侧多模态模型:超越 Gemini Pro 、GPT-4V,图像编码快 150 倍!

  • 2024-05-21
    北京
  • 本文字数:1652 字

    阅读完需:约 5 分钟

大小:833.99K时长:04:44
面壁智能发布最强端侧多模态模型:超越Gemini Pro 、GPT-4V,图像编码快150倍!

5 月 20 日,面壁智能小钢炮 MiniCPM 系列推出端侧多模态模型 MiniCPM-Llama3-V 2.5 并开源。据悉,该模型且支持 30+ 多种语言,并且具有以下特性:

 

  • 最强端侧多模态综合性能:超越多模态巨无霸 Gemini Pro 、GPT-4V;

  • OCR 能力 SOTA!9 倍像素更清晰,难图长图长文本精准识别;

  • 图像编码快 150 倍!首次端侧系统级多模态加速。

 

MiniCPM-Llama3-V 2.5 开源地址:

https://github.com/OpenBMB/MiniCPM-V

 

 MiniCPM 系列开源地址:

 https://github.com/OpenBMB/MiniCPM

 

Hugging Face 下载地址:

https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5

 

8 B 端侧模型,超越 GPT-4V、Gemini Pro

 

MiniCPM-Llama3-V 2.5 以 8B 端侧模型参数量级,贡献了惊艳的  OCR(光学字符识别)SOTA 成绩,以及端侧模型中的最佳多模态综合成绩与幻觉能力水平。



模型雷达图

 

在综合评测权威平台 OpenCompass 上,MiniCPM-Llama3-V 2.5 以小博大,综合性能超越多模态“巨无霸” GPT-4V 和 Gemini Pro。

 

OCR(光学字符识别)是多模态大模型最重要的能力之一,也是考察多模态识别与推理能力的硬核指标。新一代 MiniCPM-Llama3-V 2.5  在 OCR 综合能⼒权威榜单 OCRBench 上,越级超越了 GPT-4o、GPT-4V、Claude 3V Opus、Gemini Pro 等标杆模型,实现了性能 SOTA。

 

在评估多模态大模型性能可靠性的重要指标——幻觉能力上,MiniCPM-Llama3-V 2.5 在 Object HalBench 榜单上超越了 GPT-4V 等众多模型(注:目标幻觉率应为 0)。

 

在旨在评估多模态模型的基本现实世界空间理解能力的 RealWorldQA 榜单上,MiniCPM-Llama3-V 2.5 再次超越 GPT-4V 和 Gemini Pro,这对 8B 模型而言难能可贵。

 


榜单成绩:OpenCompass | OCRBench | Object HalBench | RealWorldQA

 

快 150 倍!首次端侧系统级多模态加速

 

面壁智能首次进行端侧系统加速,MiniCPM-Llama3-V 2.5 目前已可以高效部署在手机端。

 

在图像编码方面,面壁首次整合 NPU 和 CPU 加速框架,并结合显存管理、编译优化技术,在 MiniCPM-Llama3-V 2.5 图像编码方面实现了 150 倍加速提升。

 

在语言模型推理方面,目前开源社区的报告结果中,Llama 3 语言模型在手机端侧的解码速度在 0.5 token/s 上下,相比之下,多模态大模型的端侧运行面临着更大的效率挑战,经过 CPU、编译优化、显存管理等优化方式,将 MiniCPM-Llama3-V 2.5 在手机端的语言解码速度提升到 3-4 token/s。

 

有别于常见的中英双语模型,MiniCPM-Llama3-V2.5 可支持 30+ 多种语言,包括德语、法语、西班牙语、意大利语、俄语等主流语言,基本覆盖一带一路国家。

 

基于自研的跨语言泛化技术,仅通过少量翻译的多模态数据的指令微调,就可对多语言多模态对话性能高效泛化。

多语言版本 LLaVABench 评测结果

9 倍像素更清晰,难图长图长文本精准识别

 

OCR 技术进一步打磨,复杂推理与多模态识别能力再进化,MiniCPM-Llama3-V 2.5 对于难图、长图、长文本的精准识别,再度带来出众表现。

 

面壁自研了高清图像高效编码技术,可以高效编码及无损识别 180 万高清像素图片,并且支持任意长宽比,包括 1:9 极限比例,突破了传统技术仅能识别 20 万像素小图的瓶颈。

 

另外,MiniCPM-Llama3-V 2.5 在复杂推理能力上进一步突破:可更好地深入洞察图像,在更复杂、更接近人类的水平上进行思考和解决问题。该模型不仅能理解单一文本或图像等模态信息,还能跨越不同模态间的综合信息,做出更准确和深入的分析。

 

比如,给定一张充满繁密字迹的建筑风景图,人眼难以辨别,但 MiniCPM-Llama3-V 2.5 能够一眼看懂其中的《三体》主题,还能正确推理出这些建筑是为了纪念《三体》及其对中国科幻文学的贡献而设计:




把同样的问题抛给 GPT-4 V ,结果并不理想:



另外,识别包含复杂逻辑的流程图是多模态模型推理能力的直观体现,MiniCPM-Llama3-V 2.5 不仅能够看懂流程图中不同模块的文字、箭头之间的空间位置和复杂逻辑关系,还能给出清晰易懂的解释说明:

 



全文 OCR 能力方面,输入一张手机拍摄的火车票,MiniCPM-Llama3-V 2.5 也能准确提取信息,给出无误的"json"格式输出:

 


2024-05-21 14:217735

评论 1 条评论

发布
用户头像
看来是三体迷
2024-05-22 08:10 · 浙江
回复
没有更多了
发现更多内容

2022北京-AI人工智能-主题展

InfoQ_caf7dbb9aa8a

练手练到阅文集团作家中心了,python crawlspider 二维抓取学习

梦想橡皮擦

12月日更

接口测试 再也不必来回切换,发现一个接口测试软件,可以替代 Swagger+Mock+Jmeter+Postman

LynnYang

接口测试 测试工具 接口自动化自动化测试平台 Mock Mock测试框架

openLooKeng ODBC用户手册

LooK

【炸雷】Elasticsearch 的 Log4j 漏洞处置策略

极限实验室

elasticsearch log4j 安全漏洞 极限网关 infini gateway

缓存和数据库一致性问题说烂了,但这篇让我跪下唱征服!

百度开发者中心

数据库 缓存

CODING 与悬镜安全达成战略合作,引领 DevOps 向 DevSecOps 创新模式升级

CODING DevOps

DevOps 数字化转型 DevSecOps

2022第十五届北京国际物联网展览会

InfoQ_caf7dbb9aa8a

北京行动计划

左右互搏:GAN在爱奇艺短视频推荐冷启动中的实践

爱奇艺技术产品团队

接口自动化的关键思路和解决方案,本文都讲清楚了

LynnYang

Postman 接口测试 接口自动化自动化测试平台

课程预告丨12月15日晚官方直播带你领略ArkUI的声明式开发范式之美

HarmonyOS开发者

HarmonyOS ArKUI 3.0

2022世界物联网AIOTE博览会-北京开幕

InfoQ_caf7dbb9aa8a

初学者只懂操作步骤可不行,本文把接口测试的理论原理和工具功能逻辑都说清楚了

LynnYang

软件测试 Jmeter Postman 自动化测试 接口测试

固生堂中医与民生银行广州分行开启战略合作!构建便利、健康生活

E科讯

5G基站智能化开通

鲸品堂

5G 网站安全基础

Zilliz 上榜甲子光年「2021 中国最具商业潜力的20 家数据智能 Cool Vendor」

Zilliz

网络安全:记一次安全审计

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 代码审计

鸿蒙应用开发:实现简单的媒体播放器

ZEGO即构

音视频 HarmonyOS 媒体播放器

Spark和Hadoop以及区别

编程江湖

大数据

前端必备!5大mock省时提效小tips,用了提前下班一小时

LynnYang

Mock Mock测试框架

2022北京展会专题

InfoQ_caf7dbb9aa8a

智慧园区系统建设助力智慧城市信息化建设

a13823115807

智慧城市 智慧园区 智慧园区系统平台建设

《风起洛阳》原来还能这么玩?“奇观”玩法集锦大揭秘

爱奇艺技术产品团队

测试小白入门必知必会的8个测试工具

LynnYang

软件测试 接口测试 测试工具

模块六作业

panxiaochun

架构实战营

CSS之选择器(二)

Augus

CSS 12月日更

2022北京-大数据-博览会

InfoQ_caf7dbb9aa8a

Spring Cloud 整合 Nacos 实现服务配置中心

程序员泥瓦匠

Spring Cloud nacos spring cloud alibaba

性能监控之常见 Java Heap Dump 方法

zuozewei

Java JVM 性能测试 性能监控 签约计划第二季

万物可检索可回放

mtfelix

28天写作

图数据库平台建设及业务落地

安第斯智能云

数据库 算法 小布助手

面壁智能发布最强端侧多模态模型:超越Gemini Pro 、GPT-4V,图像编码快150倍!_AI&大模型_褚杏娟_InfoQ精选文章