梗图理解“天花板”！港中文终身教授贾佳亚团队推出多模态模型：GPT-4+DALL-E 3，王炸组合刷爆榜单_AI&大模型_傅宇琪_InfoQ精选文章



 写点什么

登录/注册



大小：803.19K时长：04:34

梗图理解“天花板”！港中文终身教授贾佳亚团队推出多模态模型：GPT-4+DALL-E 3，王炸组合刷爆榜单

近日，港中文终身教授贾佳亚团队推出了一款名为 Mini-Gemini 的多模态模型，包括 2B 小杯到 34B 的超大杯，一经发布便登上了 PaperWithCode 热榜。凭借超强的图文理解力，Mini-Gemini 的最强模型版本在多个指标上，直接媲美 Gemini Pro，GPT-4V，网友称其效果堪称是开源社区的 GPT4+DALL-E 3 的王炸组合！

目前，研究团队将 Mini-Gemini 的代码、模型、数据全部开源。更有意思的是，超会玩梗的 Mini-Gemini 线上 Demo 已经发布，人人皆可上手试玩。“浅尝”之后，有人认为：Mini-Gemini 跟商业模型差不了多少！

最“懂”图的大模型？

图像理解及推理

当下，绝大多数多模态模型仅支持低分辨率图像输入和文字输出。而在实际场景中，许多任务都需要对高清图像进行解析，并用图像的形式进行展现。Mini-Gemini 在这一点上有着不错的表现：

给它一张做面包的九宫格漫画教程，Mini-Gemini 能看懂并进行手把手教学。

拍一张苹果店 Mac 电脑信息图，Mini-Gemini 能够将两种 Mac 的参数列表横向对比。

Mini-Gemini 还能理解输入曲线图的数学意义，并使用代码复现这张图。

高清复杂的多图表理解和归纳也是小菜一碟，Mini-Gemini 直接秒变打工人效率提升的超级外挂。

有网友对此表示：妈妈再也不用担心我的生活了。

图片生成

更重要的是，除了图像理解和推理能力，Mini-Gemini 还解锁了图像的生成能力。通过一些抽象的多模态指令，Mini-Gemini 就可以给出推理，并生成合适的图片，这个操作像不像是 ChatGPT 和 DALL-E 3 的联动？！让我们看一些例子：

输入一张画着冰川中的仙人掌的图片，让 Mini-Gemini 解释图中的矛盾点并举一反三。它会说：“在沙漠环境中自然不会出现冰。这种矛盾的类似例子可能是一只北极熊出现在热带雨林中，因为北极熊适应于寒冷、覆盖着冰的环境，在炎热潮湿的气候中无法生存。”并生成一张热带雨林中北极熊的图片：

Mini-Gemini 还可以在多轮对话中通过简单指令生成连环小故事。比方说，让它根据用户输入讲一个贵族小老鼠的故事。Mini-Gemini 会根据前文的文字生成结果和用户输入进行推理，在保持一致性的情况下对图片进行修改，使其更符合用户的要求。

梗图理解

目前市面上的大模型们在对于 meme 图的理解方面总是不尽人意，不过 Mini-Gemini 不一样，通过其强大的 OCR 和推理能力，它能做到准确指出笑点。

输入一张周一上班心神俱疲“社畜”狗的梗图，Mini-Gemini 还能用它的生图功能还你一只周末下班的快乐小鸡毛！

技术细节

大道至简，Mini-Gemini 的整体思路并不复杂。其中的 Gemini（双子座）表达的是使用视觉双分支的信息挖掘（Mining-Info in Gemini）解决高清图像理解问题。

核心在于三点：

（1）用于高清图像的双编码器机制

（2）更高质量的数据

（3）训练阶段结合生成模型数据拓展

详细来说，Mini-Gemini 将传统所使用的 ViT 当做低分辨率的 Query，而使用卷积网络（ConvNet）将高分辨率的图像编码成 Key 和 Value。使用 Transformer 中常用的 Attention 机制，来挖掘每个低分辨率 Query 所对应的高分辨率区域。从而在保持最终视觉 Token 数目不变的情况下去提升对高清图像的响应，保证了在大语言（LLM）模型中对于高清图像的高效编码。值得一提的是，由于高分辨率分支卷积网络的使用，可以根据需要对图像所需的分辨率自适应调整，能够遇强则强。对于图像的生成部分，Mini-Gemini 借助了 SDXL，使用 LLM 推理后所生成的文本链接两个模型，类似于 DALLE3 的流程。

Mini-Gemini 进一步收集并优化了训练数据的质量，并加入了跟生成模型结合的文本数据进行训练。在仅使用 2-3M 数据的情况下，实现了对图像理解、推理、和生成的统一流程。可以说，Mini-Gemini 在各种 Zero-shot 的榜单上毫不逊色于各种大厂用大量数据训练出来的模型：

量化数据指标对比

最后提一嘴，Mini-Gemini 的 Demo 操作极其简单，直接输入图像或文字进行对话即可，读者朋友们可以试一试（网址附在文末咯）！

参考链接：

Github 地址：https://github.com/dvlab-research/MiniGemini

Demo 地址: http://103.170.5.190:7860/

论文地址：https://arxiv.org/pdf/2403.18814.pdf

模型地址：https://huggingface.co/collections/YanweiLi/mini-gemini-6603c50b9b43d044171d0854

数据地址：https://huggingface.co/collections/YanweiLi/mini-gemini-data-660463ea895a01d8f367624e

评论

发布

暂无评论

IBM SPSS Statistics 27 for Mac(spss数据统计分析软件)

Mac相关知识分享

万界星空科技电线电缆行业MES系统核心功能

万界星空科技

mes 万界星空科技电线电缆行业电线电缆mes

计算机视觉的基础概念与入门

我再BUG界嘎嘎乱杀

Python 编程后端计算机视觉开发语言

Dynamic Wallpaper for Mac(视频动态壁纸) 17.1免激活版

Mac相关知识分享

「邀您参会」首个中国可观测日即将盛大开幕

可观测性 AWS

国内低代码平台推荐--万界星空科技低代码平台

万界星空科技

低代码低代码开发低代码平台 mes

项目提效神器：10款顶级项目工单管理系统

易成管理学

项目管理项目管理系统工单管理项目工单管理项目工单管理系统

万界星空科技SMT行业MES系统功能

万界星空科技

SMT mes 万界星空科技 SMT行业

大模型再加速，保障京东618又便宜又好

京东科技开发者

被种草新版 FinClip Cloud，主打一个好用！

finclip 小程序容器

无需业务改造，一套数据库满足 OLTP 和 OLAP，GaiaDB 发布并行查询能力

OLAP 云原生数据库 HTAP

麻省理工IOT教授撰写的1058页Python程序设计人工智能实践手册！

我再BUG界嘎嘎乱杀

Python 人工智能程序设计后端开发语言

嘿！通义灵码周边「超大鼠标垫」上线啦，更多玩法等待解锁

阿里云云效

阿里云云原生通义灵码

网络爬虫开发：JavaScript与Python特性的小差异

我再BUG界嘎嘎乱杀

Python JavaScript 爬虫开发语言

哈银消费金融：中期业绩稳健增长，普惠金融助力消费经济新活力

京东云智能编程助手与安全大模型双双获奖！

京东科技开发者

客户在哪儿AI助ToB企业决策层开启营销的上帝视角

客户在哪儿AI

ToB营销 ToB增长 ToB销售

AI心理助手：随时待命，伴你左右

心大陆多智能体

智能体 AI大模型心理健康数字心理 CBT

TimechoDB v1.3.3 发布 | 新增多种数据类型，增加数据订阅、配置项设置等功能

嘿！通义灵码周边「超大鼠标垫」上线啦，更多玩法等待解锁

阿里巴巴云原生

阿里云云原生通义灵码

说说XXLJob分片任务实现原理？

茶思屋直播|向下扎根，向上生长，TinyEngine 灵活构建个性化低代码平台

开源前端低代码 OpenTiny TinyEngine

Netflix Mac(奈飞客户端) v2.13.0激活版

Mac相关知识分享

RAW Power for Mac(强大的raw图像处理软件) v3.4.24中文激活版

Mac相关知识分享

Sensei for Mac(实用的系统优化清理工具) v1.5.9中文激活版

Mac相关知识分享

Altair HyperWorks 新版本｜AI 赋能设计与仿真，驱动全球领先创新技术

Altair RapidMiner

人工智能设计仿真工程 altair

蚂蚁金服oceanbase的性价比是传统数据库的十倍

京东上万程序员都AI用它！

京东科技开发者

【YashanDB知识库】oracle dblink varchar类型查询报错记录

yashandb 崖山数据库崖山DB

Apache Paimon 在蚂蚁的应用

大数据 flink 流计算 paimon

【程序大侠传】服务发布引发mq消息重复消费

促进软件开发及相关领域知识与创新的传播
关于我们
我要投稿
合作伙伴
加入我们
关注我们
联系我们
内容投稿：editors@geekbang.com
业务合作：hezuo@geekbang.com
反馈投诉：feedback@geekbang.com
加入我们：zhaopin@geekbang.com
联系电话：010-64738142
地址：北京市朝阳区望京北路9号2幢7层A701
InfoQ 近期会议
上海 · QCon 全球软件开发大会 2024.10.18-19
北京 · AICon 全球人工智能开发与应用大会 2024.12.20-21
全球 InfoQ
InfoQ En
InfoQ Jp
InfoQ Fr
InfoQ Br

Copyright © 2024, Geekbang Technology Ltd. All rights reserved. 极客邦控股（北京）有限公司 | 京 ICP 备 16027448 号 - 5

京公网安备

京公网安备 11010502039052号 | 产品资质