写点什么

Gemma 3 支持视觉 - 语言理解、长上下文处理和改进的多语言性

  • 2025-05-23
    北京
  • 本文字数:1152 字

    阅读完需:约 4 分钟

大小:592.15K时长:03:22
Gemma 3支持视觉-语言理解、长上下文处理和改进的多语言性

谷歌的开源生成式人工智能(AI)模型Gemma 3支持视觉-语言理解、长文本处理和改进的多语言能力。在最近的一篇博客文章中,谷歌DeepMind和 AI Studio 团队讨论了 Gemma 3 的新特性。该模型还强调了 KV 缓存内存的减少,引入了一种新的分词器,并提供了更好的性能和更高分辨率的视觉编码器。

 

Gemma 3技术报告总结了这些新特性和能力。新的视觉-语言理解能力包括使用自定义的 Sigmoid 损失进行语言-图像预训练(SigLIP)视觉编码器的模型(4B、12B 和 27B 参数),这使得模型能够解释视觉输入。编码器工作在固定的 896x896 方形图像上,为了处理不同长宽比或高分辨率的图像,采用了“平移 &扫描(Pan & Scan)”算法。这包括自适应裁剪图像,将每次裁剪的大小调整为 896x896,然后对其进行编码。平移 &扫描方法进一步提高了涉及非正方形长宽比、高分辨率图像和图像中文本读取任务的性能。新模型还将图像视为由 MultiModalProjector 产生的一系列紧凑的“软令牌”。这种技术通过用固定数量的 256 个向量表示视觉数据,减少了图像处理所需的推理资源。

 

Gemma 3 中的视觉编码器处理使用双向注意力与图像输入。双向注意力是一种能很好地理解任务(与预测任务相反)的方法,因为我们有了整个文本,就需要深入理解它(如BERT等模型)。

 

为了提高内存效率,架构的更改包括修改以减少 KV 缓存的内存使用,这往往会随着长上下文的增加而增加。与 Gemma 1 中使用的全局注意力机制和 Gemma 2 中使用的 1:1 本地/全局比例相比,这些更改减少了在长文本推理期间的内存开销。这允许在不丢失上下文的情况下分析较长的文档和对话。具体来说,它可以为 1B 模型处理 32k 令牌,或为更大的模型处理 128k 令牌。

 

Gemma 3 还引入了一个改进的分词器。词汇表大小已更改为 262k,但使用的是相同的SentencePiece分词器。为了避免错误,他们建议在 Gemma 3 中使用新的分词器。这与Gemini的分词器相同,后者对非英语语言更为平衡。由于重新审视了数据混合并增加了多语言数据(包括单语和平行数据)的数量,Gemma 3 的多语言能力得到了改进。该团队还修订了预训练数据混合和后训练流程,以增强其多语言能力。

 

在各种基准测试中,Gemma 3 模型在预训练的指令调优版本上的表现优于Gemma 2。它是一个更好的模型,适合安装在单个消费者 GPU 或 TPU 主机上。截至 2025 年 4 月 12 日,Gemma 27B IT 模型在LM Arena中排名前 10 位,超越了许多更大的开放模型,并显示出比 Gemma 2 更高的Elo分数。

 

Gemma 3 模型的长文本处理能力可以在预训练期间通过旋转位置嵌入(RoPE)重新缩放扩展到 128k 的上下文长度。他们将全局自注意层的 RoPE 基础频率从 10k 增加到 1M,而局部层的频率保持在 10k。

 

有关 Gemma 3 模型的更多信息,请查阅开发人员指南模型卡模因生成器Gemmaverse,以探索社区开发的 Gemma 模型。

 

原文链接:

https://www.infoq.com/news/2025/05/gemma3-new-features/

2025-05-23 16:008643

评论

发布
暂无评论

模块五作业

河马先生

架构实战营

HBase 原理、Shell、API读写操作

Mike

架构训练营模块五作业

喻高咏        

模块五作业 - 微博评论的高性能高可用计算架构

君子意如何

「架构师训练营第 1 期」

模块5作业

Geek_ywh40v

JavaScript 数组元素的一些操作

HoneyMoose

手撸二叉树之第二小的节点

HelloWorld杰少

数据结构与算法 8月日更

【Flutter 专题】63 图解 Flutter 集成极光 JPush 小结

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 8月日更

Swift 实现聚光灯动效

fuyoufang

swift 8月日更

netty系列之:内置的Frame detection

程序那些事

Java Netty 程序那些事

架构实战营 模块五 作业

三叔叔_拖延症晚期

模块五-微博评论“的高性能高可用计算架构

柱林

iOS开发:Xcode报错“Could not insert new outlet connection:Could not find any...”问题的解决方法

三掌柜

8月日更 8月

微博评论高性能高可用方案设计

gawaine

架构实战营

模块5 作业

SAKIN

模块五作业

VE

架构实战营

模块五作业

Testcase

架构实战营

百度助力人工智能教育创新:教育部产学合作协同育人项目申报进行中!

百度大脑

人工智能

vue入门:定制自定义指令和过滤器

小鲍侃java

8月日更

架构实战营模块5作业

宁静志远

架构实战营

设计微博系统中”微博评论“的高性能高可用计算架构

木云先森

架构训练营

老和云起小游

箭上有毒

8月日更

20张图带你了解JVM运行时数据区(上)

阿Q说代码

JVM 8月日更 pc寄存器 虚拟机栈 本地方法栈

你真的了解二叉树吗?(树形结构基础篇)

有道技术团队

技术 二叉树 网易

开发一个分布式IM(即时通信)系统!

小傅哥

Netty DDD 小傅哥 即时通信

架构实战营 模块五 作业

脉醉

#架构实战营

[架构实战营] 模块五作业

xyu

#架构实战营

架构实战营模块五作业

老猎人

架构实战营

架构实战营 - 模块 5 - 微博评论的高性能高可用计算架构

雪中亮

架构实战营 #架构实战营

四种引用类型在Springboot中的使用

4ye

Java spring 后端 springboot 8月日更

【LeetCode】反转字符串中的元音字母Java题解

Albert

算法 LeetCode 8月日更

Gemma 3支持视觉-语言理解、长上下文处理和改进的多语言性_AI&大模型_Srini Penchikala_InfoQ精选文章