写点什么

2G 内存跑 Gemma 3n 完整版!全球首个 10B 内模型杀疯 LMArena:1300 分碾压记录

  • 2025-06-27
    北京
  • 本文字数:3183 字

    阅读完需:约 10 分钟

大小:1.53M时长:08:56
2G内存跑Gemma 3n完整版!全球首个10B内模型杀疯LMArena:1300分碾压记录

当地时间 6 月 26 日,在上个月的 Google I/O 上首次亮相预览后,谷歌如今正式发布了 Gemma 3n 完整版,可以直接在本地硬件上运行。

 

“迫不及待地想看看这些 Android 的性能!”正式发布后有开发者说道。

 

Gemma 系列是谷歌推出的一组开源大模型。与 Gemini 不同:Gemma 面向开发者,可供下载和修改,而 Gemini 是谷歌的封闭专有模型,更注重性能与商业化。

 

据悉,此次正是发布的 Gemma 3n 现已具备输入图像、音频和视频的能力,支持文本输出,还能在最低 2GB 内存的设备上运行,在编程与推理等任务上据称表现更佳。具体看,主要更新亮点包括:

 

  • 天生多模态设计:原生支持图像、音频、视频和文本的输入,以及文本输出。

  • 端侧优化设计:Gemma 3n 着眼于运行效率,提供两种基于“有效参数”的尺寸:E2B 和 E4B。虽然其原始参数量分别为 5B 和 8B,但通过架构创新,它们运行时的内存占用量仅相当于传统的 2B 和 4B 参数模型,并且最低仅需 2GB(E2B)和 3GB(E4B)内存即可运行。

 

至于基准测试,Gemma 3n 的 E4B 模型成为首个在参数规模低于 10 B 的前提下,LMArena 测评得分突破 1300 的模型,表现优于 Llama 4 Maverick 17 B、GPT 4.1-nano、Phi-4。



效果好不好?

 

“Gemma 3n 也是我见过的任何模型中首发最全面的:谷歌与“AMD、Axolotl、Docker、Hugging Face、llama.cpp、LMStudio、MLX、NVIDIA、Ollama、RedHat、SGLang、Unsloth 和 vLLM”合作,因此现在有几十种方法可以尝试。”Django Web 联合创建者 Simon Willison 说道。

 

Willison 在 Mac 笔记本电脑上分别运行了两个版本。在 Ollama 上,4B 型号的7.5GB 版本模型画了这样一幅画:

 


然后,他使用 15.74 GB 的 bfloat16 版本模型得到了下面的一幅图:



“7.5GB 和 15GB 模型量化之间存在如此显著的视觉差异。”Willison 说道。他还指出,Ollama 版本似乎尚不支持图像或音频输入,但是mlx-vlm版本可以。

 

但当让模型描述上述图片时,模型误认成了一张化学图:“该图为卡通风格的插图,描绘了浅蓝色背景下的分子结构。该结构由多个不同颜色和形状的元素组成,并通过弯曲的黑线连接起来。”

 

此外,网友 pilooch 称赞道,该模型完全兼容此前基于 Gemma3 的所有操作。“我将其接入视觉语言模型微调脚本后,程序顺利启动(使用 HF Transformer 代码)。在单 GPU 运行 LoRa 微调时,E4B 模型在批量大小为 1 的情况下仅占用 18GB VRAM,而 Gemma-4B 需要 21GB。DeepMind 推出的 Gemma3 系列真不错,稳居开源视觉语言模型榜首。”

 

也有开发者表示,“我一直在 AI Studio 里试用 E4B,效果非常好,比 8B 型号的预期要好得多。我正在考虑把它安装在 VPS 上,这样就有了其他选择,不用再使用那些昂贵的 API 了。”

 

在开发者 RedditPolluter 的测试中,E2B-it 能够使用 Hugging Face MCP,但其不得不将上下文长度限制从默认的“~4000”增加到“超过”,防止模型陷入无限的搜索循环。它能够使用搜索功能获取一些较新型号的信息。

 

当然,还是比较怀疑小模型的实际用处。“我做过很多实验,任何小于 27B 的模型基本上都用不了,除非当玩具用。对于小模型,我只能说它们有时能给出不错的答案,但这还不够。”

 

对此,有网友表示,“我发现微型模型(< 5B 参数)的最佳用例是作为没有 WiFi 时的参考工具。我在飞机上写代码时,一直在 MacBook Air 上使用 Qwen 来代替谷歌搜索,它在询问有关语法和文档的基本问题时非常有效。”‘

 

核心技术能力有哪些?

 

MatFormer 架构是核心

 

谷歌特别指出,其高效能的核心就在于全新的 MatFormer (Matryoshka Transformer)架构,这是一种为弹性推理而设计的嵌套式 Transformer。它类似“俄罗斯套娃”:一个较大的模型内部嵌套着一个较小但完整的子模型。这种设计允许一个模型在不同任务中以不同“尺寸”运行,实现性能与资源使用的动态平衡。

 

这种设计将“套娃式表示学习”(Matryoshka Representation Learning)的理念,从嵌入层扩展到了整个 Transformer 架构的各个组件,大幅提升了模型在不同资源环境下的灵活性与适应性。



在对 4B 有效参数(E4B)模型进行 MatFormer 架构训练的过程中,系统会同时在其中优化一个 2B 有效参数(E2B)子模型,如上图所示。

 

这项架构设计同时为开发者带来了两大关键能力:

 

  • 预提取模型,开箱即用开发者可根据应用场景自由选择完整的 E4B 主模型获得更强性能,也可以直接使用已经预提取好的 E2B 子模型。在保证准确率的前提下,E2B 实现了高达 2 倍的推理速度,尤其适合边缘设备或算力受限场景。

  • Mix-n-Match 定制模型。针对不同硬件资源的限制,开发者可以通过 Mix-n-Match 方法,在 E2B 与 E4B 之间自由定制模型大小。该方法通过灵活调整每层前馈网络的隐藏维度(如从 8192 调整到 16384),并选择性跳过部分层,从而构建出多种不同规模的模型。

 

与此同时,谷歌还推出了辅助工具 MatFormer Lab,方便开发者基于多个基准测试结果(如 MMLU)快速挑选并提取出性能最优的模型配置。

 


谷歌表示,MatFormer 架构还为“弹性推理”奠定了基础。尽管这一能力尚未在本次发布的实现中正式上线,但它的设计理念已初步成型:单个部署的 E4B 模型,未来将能在运行时动态切换 E4B 与 E2B 的推理路径,根据当前任务类型和设备负载,实时优化性能表现与内存占用。

大幅提升内存效率的关键

 

在最新的 Gemma 3n 模型中,谷歌引入了名为 Per-Layer Embeddings(逐层嵌入,简称 PLE) 的创新机制。该机制专为端侧部署而设计优化,可显著提高模型质量,同时不会增加设备加速器(如 GPU/TPU)所需的高速内存占用。

 

这样一来,尽管 E2B 和 E4B 模型的总参数数量分别为 5B 和 8B,但 PLE 允许很大一部分参数(即分布在各层的嵌入参数)在 CPU 上高效加载和计算。这意味着只有核心 Transformer 权重(E2B 约为 2B,E4B 约为 4B)需要存储在通常较为受限的加速器内存 (VRAM) 中。



大幅提升长上下文处理速度

 

在许多先进的端侧多模态应用中,处理长序列输入(如音频、视频流所生成的内容)已成为核心需求。为此,Gemma 3n 引入了 KV Cache Sharing(键值缓存共享)机制,加快了长文本推理中“首个 Token”的生成速度,尤其适用于流式响应场景。

 

具体而言,KV Cache Sharing 对模型的 Prefill 阶段进行了优化:中间层中,来自局部与全局注意力机制的中间层 Key 与 Value 会直接共享给所有上层结构。与 Gemma 3 4B 相比,这使 Prefill 性能获得高达 2 倍的提升。

 

全新视觉编码器,提升多模态任务表现

 

Gemma 3n 推出了全新高效的视觉编码器:MobileNet-V5-300M,来提升边缘设备上的多模态任务表现。

 

MobileNet-V5 支持多种分辨率(256×256、512×512、768×768),方便开发者根据需求平衡性能与画质。它在大规模多模态数据上进行训练,擅长处理多种图像和视频理解任务。吞吐率方面,其在 Google Pixel 设备上可实现每秒最高 60 帧的实时处理速度。

 

这一性能突破得益于多项架构创新,包括基于 MobileNet-V4 的先进模块、能高大 10 倍扩的深度金字塔架构,以及多尺度融合视觉语言模型适配器等。相较于 Gemma 3 中未蒸馏的 SoViT,MobileNet-V5-300M 在 Google Pixel Edge TPU 上实现了最高 13 倍速度提升(量化后),参数减少 46%,内存占用缩小 4 倍,同时准确率大幅提升。

 

支持语音识别与语音翻译

 

音频处理方面,Gemma 3n 搭载了基于 Universal Speech Model(USM) 的先进音频编码器,可对每 160 毫秒的语音生成一个 token(约每秒 6 个 token),并将其作为输入集成至语言模型中,从而提供更加细致的语音上下文表示,这为端侧应用解锁了语音识别和语音翻译功能。

 

据悉,Gemma 3n 在英语与西班牙语、法语、意大利语、葡萄牙语之间的转换效果尤为出色。同时,在进行语音翻译任务时,结合“思维链式提示”策略,可进一步提升翻译质量与稳定性。

 

参考链接:

https://developers.googleblog.com/en/introducing-gemma-3n-developer-guide/

https://simonwillison.net/2025/Jun/26/gemma-3n/

2025-06-27 19:008661

评论

发布
暂无评论

MySql基础-笔记9 -ALTER命令

MySQL 数据库

MySql基础-笔记10-索引

MySQL 数据库

飞桨全量支持业内AI科学计算工具——DeepXDE!

飞桨PaddlePaddle

人工智能 深度学习 开源

MySql基础-笔记11-临时表、复制表、元数据、序列使用

MySQL 数据库

AI for Science系列(三):赛桨PaddleScience底层核心框架技术创新详解

飞桨PaddlePaddle

人工智能 paddle 飞桨 框架技术

搜索EE场景排序链路升级

京东科技开发者

模型 搜索 EE 企业号 2 月 PK 榜 Explore & Exploit

AI for Science系列(一) :飞桨加速CFD(计算流体力学)原理与实践

飞桨PaddlePaddle

paddle 算法 飞桨 框架技术

中科协发布2022“科创中国”开源创新榜 OceanBase开源社区入选

OceanBase 数据库

数据库 oceanbase

乌卡时代的云成本管理:从0到1了解FinOps

SEAL安全

云服务 FinOps 企业号 2 月 PK 榜

10分钟学会使用 Loki 日志聚合系统

北京好雨科技有限公司

Kubernetes 云原生 rainbond 企业号 2 月 PK 榜

案例介绍:使用A-Ops性能热点火焰图进行性能诊断

openEuler

Linux 操作系统 openEuler 性能测评 A-Ops

直播预告 | 企业如何轻松完成数据治理?火山引擎DataLeap给你一份实战攻略!

字节跳动数据平台

数据库 大数据 数据治理 数据实践

推荐系统[二]:召回算法超详细讲解[召回模型演化过程、召回模型主流常见算法(DeepMF_TDM_Airbnb Embedding_Item2vec等)、召回路径简介、多路召回融合]

汀丶人工智能

自然语言处理 深度学习 推荐系统 搜索算法 召回算法

软件测试 | 霍格沃兹线下班开课啦!

测吧(北京)科技有限公司

测试

MySQL审计插件-MariaDB Audit Plugin

GreatSQL

:MySQL 数据库 maria greatsql greatsql社区

Gluten 首次开源技术沙龙成功举办,更多新能力值得期待

Kyligence

开源技术 Gluten

MySql基础-笔记6 -排序、分组、连接的使用、NULL值处理

MySQL 数据库

MASA MAUI Plugin (八)Android相册多选照片(Intent 方式)

MASA技术团队

.net blazor MAUI MASA Blazor

风险洞察之事件总线的探索与演进

京东科技开发者

京东云 事件总线 京东技术 数据管道 风险洞察

本周 2 场直播预告!Intel 高级工程师带你探索开源机密计算社区 CCZoo | 第 65 期

OpenAnolis小助手

云计算 运维 直播 intel 龙蜥大讲堂

活动预告 | GAIDC 全球人工智能开发者先锋大会

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

单元测试利器——手把手教你使用Mockito

京东科技开发者

单元测试 Mockito 京东云 安全测试 京东技术

软件测试/测试开发 | App测试时常用的adb命令你都掌握了哪些呢?

测试人

android 软件测试 自动化测试 测试开发 adb

GhatGPT在信息安全方面的应用

HummerCloud

ChatGPT

AI for Science系列(二):基于AI框架的CFD工具组件!赛桨v1.0 Beta API介绍以及典型案例分享!

飞桨PaddlePaddle

深度学习 paddle API 飞桨

长安链入选“2022科创中国”开源创新榜

科技热闻

微服务拆分治理最佳实践

京东科技开发者

数据库 微服务 京东云 京东技术 安全接口

项目终于用上了低代码,才知道为什么真香了!

引迈信息

项目管理 低代码

使用 NGINX 在 Kubernetes 中对 TCP 和 UDP 流量进行负载均衡

NGINX开源社区

nginx Kuber udp tpc 企业号 2 月 PK 榜

活动回顾丨研发效能度量线下沙龙圆满举办

Kyligence

数据分析 Kyligence Zen

2G内存跑Gemma 3n完整版!全球首个10B内模型杀疯LMArena:1300分碾压记录_AI&大模型_褚杏娟_InfoQ精选文章