10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

Gemma 3n 推出增强移动 AI 推理的新技术

  • 2025-07-08
    北京
  • 本文字数:945 字

    阅读完需:约 3 分钟

大小:478.03K时长:02:43
Gemma 3n推出增强移动AI推理的新技术

去年 5 月,Gemma 3n 发布早期预览版,现在正式发布 。它针对的是移动优先、设备上的 AI 应用,使用新的设计技术来提高效率和性能,例如逐层嵌入和 transformer 嵌套。

 

Gemma 3n 使用逐层嵌入(PLE)技术来减少运行模型所需的RAM,同时保持相同的总参数数量。该技术只将核心逐层权重加载到加速内存中,通常是 VRAM,而其余参数则保留在 CPU 上。具体来说,模型的 50 亿参数变体只需要加载 20 亿参数到加速器中;对于 80 亿参数变体,则是 40 亿。

 

另一种新技术是 MatFormer(Matryoshka Transformer的简称),它允许逐层嵌套,使得一个更大的模型(例如,具有 4B 参数)包含一个更小的版本(例如,只有 2B 参数)。这种方法支持了谷歌所说的弹性推理,允许开发者选择完整的模型或其更快但功能齐全的子模型。MatFormer 还支持Mix-n-Match方法,让开发者创建中等大小的版本:

 

这种技术允许你精确地切割 E4B 模型的参数,主要是通过调整每层的前馈网络隐藏维度(从 8192 到 16384)并有选择地跳过一些层。

 

在未来,Gemma 3n 将完全支持弹性推理,可以根据当前任务和设备负载在完整模型和子模型之间动态切换。

 

Gemma 3n 中另一个旨在加速推理的新特性是 KV 缓存共享,它旨在加速首个 token 时间,这是流式响应应用的关键指标。根据谷歌的说法,使用这种技术对长上下文特别有效:

 

中间层的局部和全局注意力的键和值直接与所有顶层共享,与 Gemma 3 4B 相比,预填充性能显著提高了 2 倍。

 

Gemma 3n 还带来了原生的多模态能力,得益于其音频和视频编码器。在音频方面,它实现了设备上的自动语音识别和语音翻译。

 

编码器每 160 毫秒的音频生成一个 token(大约每秒 6 个 token),然后将这些 token 作为输入集成到语言模型中,提供声音上下文的细粒度表示。

 

谷歌表示,他们观察到英语和西班牙语、法语、意大利语和葡萄牙语之间的翻译效果很好。得益于其流式架构,Gemma 3n 音频编码器可以处理任意长度的音频,但在发布时,剪辑最初将限制在 30 秒以内。

 

关于 Gemma 3n 最后一点说明是,值得强调的是,它支持 256x256、512x512 和 768x768 像素的分辨率,并且可以在谷歌 Pixel 设备上每秒处理多达 60 帧。与 Gemma 3 相比,它在量化的情况下提供了 13 倍的速度提升(没有量化的情况下是 6.5 倍),并且内存占用是原来的四分之一。

 

原文链接:

https://www.infoq.com/news/2025/07/gemma-3n-architecture/

2025-07-08 10:168912

评论

发布
暂无评论
发现更多内容

第九周总结

晨光

架构师训练营第九周作业

qihuajun

ARTS打卡 第10周

引花眠

ARTS 打卡计划

你该知道的Docker-compose

北漂码农有话说

ARTS Week10

时之虫

ARTS 打卡计划

速览国内主要银行区块链技术应用现状

CECBC

应用落地 区块链+金融 信任 部署与维护

区块链行业发展月度新动态

CECBC

产业落地 政策扶持 差混高新技术 应用场景广泛

第九章作业

武鹏

JVM 垃圾回收原理

飞雪

谈一谈webpack打包

林浩

Java 大前端 webpack

编程经典案例之函数

顿晓

函数式编程

程序的机器级表示-算术与逻辑运算

引花眠

计算机基础

稳定匹配:幸福不靠等,脱单要主动

KAMI

生活 算法 方法论

JVM垃圾回收

羽球

第九周学习总结

赵龙

创业公司技术体系建设-APM

星际行者

APM

这是我迄今为止读过的最有价值的技术书,却一行代码都没有

废材姑娘

复杂事件处理简介

星际行者

分布式 流计算 CEP 复杂事件处理

入门WebGL,看这一篇就够了

Geek_6y2vrc

大前端 WebGL

第九周作业

赵龙

用Queue实现Stack,Moya网络框架,Sublime列操作,网络通信协议 非阻塞网络I/O NIO 数据库架构原理 John 易筋 ARTS 打卡 Week 11

John(易筋)

ARTS 打卡计划 数据库架构原理 网络通信协议 Moya 非阻塞网络I/O

基于 opentracing + Jaeger 实现全链路追踪 ----理论部分

是老郭啊

全链路监控 OpenTracing Jaeger Go 语言

N皇后问题的回溯法实现(C++)

老王同学

Android |《看完不忘系列》之okhttp

哈利迪

android

这一周,我肝了公司的聚合代扣支付网关!

诸葛小猿

微信 支付宝 周期扣款 委托代扣 协议扣款

第九周作业

晨光

架构师训练营第九周学习总结

qihuajun

Python 多进程之间共享变量

AlwaysBeta

Python 进程

极客时间 - 架构师培训 - 9 期作业

Damon

LeetCode题解:70. 爬楼梯,DP遍历数组,JavaScript,详细注释

Lee Chen

大前端 LeetCode

图解+代码|常见限流算法以及限流在单机分布式场景下的思考

yes

分布式限流 单体限流 限流算法

Gemma 3n推出增强移动AI推理的新技术_Google_Sergio De Simone_InfoQ精选文章