写点什么

2G 内存跑 Gemma 3n 完整版!全球首个 10B 内模型杀疯 LMArena:1300 分碾压记录

  • 2025-06-27
    北京
  • 本文字数:3183 字

    阅读完需:约 10 分钟

大小:1.53M时长:08:56
2G内存跑Gemma 3n完整版!全球首个10B内模型杀疯LMArena:1300分碾压记录

当地时间 6 月 26 日,在上个月的 Google I/O 上首次亮相预览后,谷歌如今正式发布了 Gemma 3n 完整版,可以直接在本地硬件上运行。

 

“迫不及待地想看看这些 Android 的性能!”正式发布后有开发者说道。

 

Gemma 系列是谷歌推出的一组开源大模型。与 Gemini 不同:Gemma 面向开发者,可供下载和修改,而 Gemini 是谷歌的封闭专有模型,更注重性能与商业化。

 

据悉,此次正是发布的 Gemma 3n 现已具备输入图像、音频和视频的能力,支持文本输出,还能在最低 2GB 内存的设备上运行,在编程与推理等任务上据称表现更佳。具体看,主要更新亮点包括:

 

  • 天生多模态设计:原生支持图像、音频、视频和文本的输入,以及文本输出。

  • 端侧优化设计:Gemma 3n 着眼于运行效率,提供两种基于“有效参数”的尺寸:E2B 和 E4B。虽然其原始参数量分别为 5B 和 8B,但通过架构创新,它们运行时的内存占用量仅相当于传统的 2B 和 4B 参数模型,并且最低仅需 2GB(E2B)和 3GB(E4B)内存即可运行。

 

至于基准测试,Gemma 3n 的 E4B 模型成为首个在参数规模低于 10 B 的前提下,LMArena 测评得分突破 1300 的模型,表现优于 Llama 4 Maverick 17 B、GPT 4.1-nano、Phi-4。



效果好不好?

 

“Gemma 3n 也是我见过的任何模型中首发最全面的:谷歌与“AMD、Axolotl、Docker、Hugging Face、llama.cpp、LMStudio、MLX、NVIDIA、Ollama、RedHat、SGLang、Unsloth 和 vLLM”合作,因此现在有几十种方法可以尝试。”Django Web 联合创建者 Simon Willison 说道。

 

Willison 在 Mac 笔记本电脑上分别运行了两个版本。在 Ollama 上,4B 型号的7.5GB 版本模型画了这样一幅画:

 


然后,他使用 15.74 GB 的 bfloat16 版本模型得到了下面的一幅图:



“7.5GB 和 15GB 模型量化之间存在如此显著的视觉差异。”Willison 说道。他还指出,Ollama 版本似乎尚不支持图像或音频输入,但是mlx-vlm版本可以。

 

但当让模型描述上述图片时,模型误认成了一张化学图:“该图为卡通风格的插图,描绘了浅蓝色背景下的分子结构。该结构由多个不同颜色和形状的元素组成,并通过弯曲的黑线连接起来。”

 

此外,网友 pilooch 称赞道,该模型完全兼容此前基于 Gemma3 的所有操作。“我将其接入视觉语言模型微调脚本后,程序顺利启动(使用 HF Transformer 代码)。在单 GPU 运行 LoRa 微调时,E4B 模型在批量大小为 1 的情况下仅占用 18GB VRAM,而 Gemma-4B 需要 21GB。DeepMind 推出的 Gemma3 系列真不错,稳居开源视觉语言模型榜首。”

 

也有开发者表示,“我一直在 AI Studio 里试用 E4B,效果非常好,比 8B 型号的预期要好得多。我正在考虑把它安装在 VPS 上,这样就有了其他选择,不用再使用那些昂贵的 API 了。”

 

在开发者 RedditPolluter 的测试中,E2B-it 能够使用 Hugging Face MCP,但其不得不将上下文长度限制从默认的“~4000”增加到“超过”,防止模型陷入无限的搜索循环。它能够使用搜索功能获取一些较新型号的信息。

 

当然,还是比较怀疑小模型的实际用处。“我做过很多实验,任何小于 27B 的模型基本上都用不了,除非当玩具用。对于小模型,我只能说它们有时能给出不错的答案,但这还不够。”

 

对此,有网友表示,“我发现微型模型(< 5B 参数)的最佳用例是作为没有 WiFi 时的参考工具。我在飞机上写代码时,一直在 MacBook Air 上使用 Qwen 来代替谷歌搜索,它在询问有关语法和文档的基本问题时非常有效。”‘

 

核心技术能力有哪些?

 

MatFormer 架构是核心

 

谷歌特别指出,其高效能的核心就在于全新的 MatFormer (Matryoshka Transformer)架构,这是一种为弹性推理而设计的嵌套式 Transformer。它类似“俄罗斯套娃”:一个较大的模型内部嵌套着一个较小但完整的子模型。这种设计允许一个模型在不同任务中以不同“尺寸”运行,实现性能与资源使用的动态平衡。

 

这种设计将“套娃式表示学习”(Matryoshka Representation Learning)的理念,从嵌入层扩展到了整个 Transformer 架构的各个组件,大幅提升了模型在不同资源环境下的灵活性与适应性。



在对 4B 有效参数(E4B)模型进行 MatFormer 架构训练的过程中,系统会同时在其中优化一个 2B 有效参数(E2B)子模型,如上图所示。

 

这项架构设计同时为开发者带来了两大关键能力:

 

  • 预提取模型,开箱即用开发者可根据应用场景自由选择完整的 E4B 主模型获得更强性能,也可以直接使用已经预提取好的 E2B 子模型。在保证准确率的前提下,E2B 实现了高达 2 倍的推理速度,尤其适合边缘设备或算力受限场景。

  • Mix-n-Match 定制模型。针对不同硬件资源的限制,开发者可以通过 Mix-n-Match 方法,在 E2B 与 E4B 之间自由定制模型大小。该方法通过灵活调整每层前馈网络的隐藏维度(如从 8192 调整到 16384),并选择性跳过部分层,从而构建出多种不同规模的模型。

 

与此同时,谷歌还推出了辅助工具 MatFormer Lab,方便开发者基于多个基准测试结果(如 MMLU)快速挑选并提取出性能最优的模型配置。

 


谷歌表示,MatFormer 架构还为“弹性推理”奠定了基础。尽管这一能力尚未在本次发布的实现中正式上线,但它的设计理念已初步成型:单个部署的 E4B 模型,未来将能在运行时动态切换 E4B 与 E2B 的推理路径,根据当前任务类型和设备负载,实时优化性能表现与内存占用。

大幅提升内存效率的关键

 

在最新的 Gemma 3n 模型中,谷歌引入了名为 Per-Layer Embeddings(逐层嵌入,简称 PLE) 的创新机制。该机制专为端侧部署而设计优化,可显著提高模型质量,同时不会增加设备加速器(如 GPU/TPU)所需的高速内存占用。

 

这样一来,尽管 E2B 和 E4B 模型的总参数数量分别为 5B 和 8B,但 PLE 允许很大一部分参数(即分布在各层的嵌入参数)在 CPU 上高效加载和计算。这意味着只有核心 Transformer 权重(E2B 约为 2B,E4B 约为 4B)需要存储在通常较为受限的加速器内存 (VRAM) 中。



大幅提升长上下文处理速度

 

在许多先进的端侧多模态应用中,处理长序列输入(如音频、视频流所生成的内容)已成为核心需求。为此,Gemma 3n 引入了 KV Cache Sharing(键值缓存共享)机制,加快了长文本推理中“首个 Token”的生成速度,尤其适用于流式响应场景。

 

具体而言,KV Cache Sharing 对模型的 Prefill 阶段进行了优化:中间层中,来自局部与全局注意力机制的中间层 Key 与 Value 会直接共享给所有上层结构。与 Gemma 3 4B 相比,这使 Prefill 性能获得高达 2 倍的提升。

 

全新视觉编码器,提升多模态任务表现

 

Gemma 3n 推出了全新高效的视觉编码器:MobileNet-V5-300M,来提升边缘设备上的多模态任务表现。

 

MobileNet-V5 支持多种分辨率(256×256、512×512、768×768),方便开发者根据需求平衡性能与画质。它在大规模多模态数据上进行训练,擅长处理多种图像和视频理解任务。吞吐率方面,其在 Google Pixel 设备上可实现每秒最高 60 帧的实时处理速度。

 

这一性能突破得益于多项架构创新,包括基于 MobileNet-V4 的先进模块、能高大 10 倍扩的深度金字塔架构,以及多尺度融合视觉语言模型适配器等。相较于 Gemma 3 中未蒸馏的 SoViT,MobileNet-V5-300M 在 Google Pixel Edge TPU 上实现了最高 13 倍速度提升(量化后),参数减少 46%,内存占用缩小 4 倍,同时准确率大幅提升。

 

支持语音识别与语音翻译

 

音频处理方面,Gemma 3n 搭载了基于 Universal Speech Model(USM) 的先进音频编码器,可对每 160 毫秒的语音生成一个 token(约每秒 6 个 token),并将其作为输入集成至语言模型中,从而提供更加细致的语音上下文表示,这为端侧应用解锁了语音识别和语音翻译功能。

 

据悉,Gemma 3n 在英语与西班牙语、法语、意大利语、葡萄牙语之间的转换效果尤为出色。同时,在进行语音翻译任务时,结合“思维链式提示”策略,可进一步提升翻译质量与稳定性。

 

参考链接:

https://developers.googleblog.com/en/introducing-gemma-3n-developer-guide/

https://simonwillison.net/2025/Jun/26/gemma-3n/

2025-06-27 19:001

评论

发布
暂无评论

太赞了,京东研发一哥力荐的高可用网站构建技术

Java 架构 京东

内核调试环境搭建

郑州埃文科技

网络安全 网络环境

如何避免写重复代码:善用抽象和组合

阿里技术

Java 代码实战

全国流体力学盛会召开,飞桨AI4S携最新科研进展亮相西湖大学

飞桨PaddlePaddle

人工智能 百度飞桨 科学计算

软件测试/测试开发丨学习笔记之Web自动化测试

测试人

程序员 软件测试 自动化测试 测试开发

莉莉丝游戏与火山引擎ByteHouse达成合作,为实时数仓建设提速

字节跳动数据平台

数据仓库 云原生 实时

如何将千亿文件放进一个文件系统,EuroSys'23 CFS 论文背后的故事

百度Geek说

数据库 云计算 百度 企业号 5 月 PK 榜

Git入门指南:从新手到高手的完全指南

小万哥

git Linux 程序员 后端 C/C++

小程序容器与PWA的完美结合:提升应用性能与用户体验

FinFish

私有小程序技术 小程序容器 PWA 小程序化 小程序技术

Solaris Network:BSC上首个链上合成资产解决方案

鳄鱼视界

大语言模型技术原理

NineData

AIGC ChatGPT AI大语言模型 大语言模型 技术原理

辅助测试和研发人员的一款小插件【数据安全】 | 京东云技术团队

京东科技开发者

浏览器 数据安全 插件开发 企业号 5 月 PK 榜

医疗领域实体抽取:UIE Slim最新升级版含数据标注、serving部署、模型蒸馏等教学,助力工业应用场景快速落地

汀丶人工智能

人工智能 自然语言处理 知识图谱 关系抽取 命名实体识别

房地产行业IT运维安全就用行云管家堡垒机!

行云管家

运维 房地产 IT运维

双非渣硕,开发两年,苦刷算法47天,四面字节斩获offer

Java 数据结构 算法 LeetCode

5月书讯 | 《这就是ChatGPT》来了!

图灵社区

数学 书单 书单推荐 GPT

kafka集群是如何选择leader,你知道吗?

JAVA旭阳

kafka

阿里大神级Elasticsearch学习笔记,还学不会就埋了

Java elasticsearch 分布式搜索引擎 ES

Mysql DDL执行方式-pt-osc介绍 | 京东云技术团队

京东科技开发者

MySQL 数据库 企业号 5 月 PK 榜 DDL执行方式 pt-soc

ByConity与主流开源OLAP引擎(Clickhouse、Doris、Presto)性能对比分析

墨天轮

数据库 字节跳动 OLAP Clickhouse Doris

国内好用的堡垒机推荐-行云管家堡垒机

行云管家

网络安全 堡垒机

500行代码手写docker-实现硬件资源限制cgroups

蓝胖子的编程梦

容器 k8s ,docker Cgroups #k8s

Flutter三棵树系列之BuildOwner | 京东云技术团队

京东科技开发者

flutter 移动开发 源码解读 企业号 5 月 PK 榜 BuildOwner

电商行业实践专栏上线|阿里巴巴风控实战如何解决大规模风控的技术难点?

Apache Flink

大数据 flink 实时计算

MatrixOne 助力开启分布式计算格局新征程

MatrixOrigin

分布式数据库 HTAP MatrixOrigin MatrixOne 矩阵起源

从7天到1天,Kyligence 和亚马逊云科技助力欣和提高数据应用价值

Kyligence

数字化转型 指标平台

Kafka集群是如何选择leader,你知道吗?

Java kafka 集群

Spring Boot实现第一次启动时自动初始化数据库

Java spring Spring Boot

2G内存跑Gemma 3n完整版!全球首个10B内模型杀疯LMArena:1300分碾压记录_AI&大模型_褚杏娟_InfoQ精选文章