AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

Gemma 3n 推出增强移动 AI 推理的新技术

  • 2025-07-08
    北京
  • 本文字数:945 字

    阅读完需:约 3 分钟

大小:478.03K时长:02:43
Gemma 3n推出增强移动AI推理的新技术

去年 5 月,Gemma 3n 发布早期预览版,现在正式发布 。它针对的是移动优先、设备上的 AI 应用,使用新的设计技术来提高效率和性能,例如逐层嵌入和 transformer 嵌套。

 

Gemma 3n 使用逐层嵌入(PLE)技术来减少运行模型所需的RAM,同时保持相同的总参数数量。该技术只将核心逐层权重加载到加速内存中,通常是 VRAM,而其余参数则保留在 CPU 上。具体来说,模型的 50 亿参数变体只需要加载 20 亿参数到加速器中;对于 80 亿参数变体,则是 40 亿。

 

另一种新技术是 MatFormer(Matryoshka Transformer的简称),它允许逐层嵌套,使得一个更大的模型(例如,具有 4B 参数)包含一个更小的版本(例如,只有 2B 参数)。这种方法支持了谷歌所说的弹性推理,允许开发者选择完整的模型或其更快但功能齐全的子模型。MatFormer 还支持Mix-n-Match方法,让开发者创建中等大小的版本:

 

这种技术允许你精确地切割 E4B 模型的参数,主要是通过调整每层的前馈网络隐藏维度(从 8192 到 16384)并有选择地跳过一些层。

 

在未来,Gemma 3n 将完全支持弹性推理,可以根据当前任务和设备负载在完整模型和子模型之间动态切换。

 

Gemma 3n 中另一个旨在加速推理的新特性是 KV 缓存共享,它旨在加速首个 token 时间,这是流式响应应用的关键指标。根据谷歌的说法,使用这种技术对长上下文特别有效:

 

中间层的局部和全局注意力的键和值直接与所有顶层共享,与 Gemma 3 4B 相比,预填充性能显著提高了 2 倍。

 

Gemma 3n 还带来了原生的多模态能力,得益于其音频和视频编码器。在音频方面,它实现了设备上的自动语音识别和语音翻译。

 

编码器每 160 毫秒的音频生成一个 token(大约每秒 6 个 token),然后将这些 token 作为输入集成到语言模型中,提供声音上下文的细粒度表示。

 

谷歌表示,他们观察到英语和西班牙语、法语、意大利语和葡萄牙语之间的翻译效果很好。得益于其流式架构,Gemma 3n 音频编码器可以处理任意长度的音频,但在发布时,剪辑最初将限制在 30 秒以内。

 

关于 Gemma 3n 最后一点说明是,值得强调的是,它支持 256x256、512x512 和 768x768 像素的分辨率,并且可以在谷歌 Pixel 设备上每秒处理多达 60 帧。与 Gemma 3 相比,它在量化的情况下提供了 13 倍的速度提升(没有量化的情况下是 6.5 倍),并且内存占用是原来的四分之一。

 

原文链接:

https://www.infoq.com/news/2025/07/gemma-3n-architecture/

2025-07-08 10:161

评论

发布
暂无评论

SDS——Redis源码剖析,java工程师进阶书籍

Java 程序员 后端

set集合框架,java消息中间件面试

Java 程序员 后端

Spring MVC+Spring+Mybatis实现支付宝支付功能

Java 程序员 后端

Spring MVC—XML配置与注解配置+使用注解完成请求参数绑定

Java 程序员 后端

Spring-Boot-+-Redis-实现接口幂等性,看这篇就太好了

Java 程序员 后端

SpringBoot---入门和配置,深入java虚拟机百度云

Java 程序员 后端

RocketMQ 5(1),kafka面试题零拷贝

Java 程序员 后端

Spring Boot 项目的这些文件都是干啥用的?,java电子书免费

Java 程序员 后端

springboot 整合 thymeleaf,java技术核心卷二

Java 程序员 后端

Redis精通系列——info 指令用法,阿里+头条+抖音+百度+蚂蚁+京东面经

Java 程序员 后端

Spring Cloud入门-Zuul服务网关(Hoxton版本)

Java 程序员 后端

Spring Cloud原理详解,java程序员进阶

Java 程序员 后端

SpringBoot---错误处理机制,kafka实现负载均衡的原理

Java 程序员 后端

springboo 使用自定义的 Tomcat,java常用的设计模式面试

Java 程序员 后端

Redis实战(五)-字符串,kafka基本原理

Java 程序员 后端

Socket和ServerSocket的简单介绍及例子,mybatis源码面试题

Java 程序员 后端

Spring Boot 快速入门(二),华为工程师面试经历

Java 程序员 后端

Spring Boot 精讲,看完你还敢说你不会 Spring Boot ?

Java 程序员 后端

Spring Cloud Gateway自定义过滤器实战(观测断路器状态变化)

Java 程序员 后端

Spring 数据库配置文件进行解密操作,和网易大佬的技术面谈

Java 程序员 后端

redis实现分布式限流 结合Lua脚本,Java开发还不会这些

Java 程序员 后端

Spring MVC面试题(2020最新版),java书籍入门下载

Java 程序员 后端

Spring--快速入门,rabbitmq面试题总结

Java 程序员 后端

RocketMQ 5,linux端口转发技术

Java 程序员 后端

Spring Cloud Gateway修改请求和响应body的内容

Java 程序员 后端

SpringBoot2---指标监控,kalilinux教程下载

Java 程序员 后端

Redis常用命令总结,kalilinux教程推荐

Java 程序员 后端

Spring boot记录sql探索,java堆和栈面试题

Java 程序员 后端

SpringBoot中的yaml语法及静态资源访问问题,mysql面试笔试题

Java 程序员 后端

SpringBoot中好用的数据连接池,入职3个月的Java程序员面临转正

Java 程序员 后端

springboot入门教程,4000多页合集的计算机、网络、算法知识总结

Java 程序员 后端

Gemma 3n推出增强移动AI推理的新技术_Google_Sergio De Simone_InfoQ精选文章