Gemma 3支持视觉-语言理解、长上下文处理和改进的多语言性_AI&大模型_Srini Penchikala



 写点什么



大小：592.15K时长：03:22

谷歌的开源生成式人工智能（AI）模型Gemma 3支持视觉-语言理解、长文本处理和改进的多语言能力。在最近的一篇博客文章中，谷歌DeepMind和 AI Studio 团队讨论了 Gemma 3 的新特性。该模型还强调了 KV 缓存内存的减少，引入了一种新的分词器，并提供了更好的性能和更高分辨率的视觉编码器。

Gemma 3技术报告总结了这些新特性和能力。新的视觉-语言理解能力包括使用自定义的 Sigmoid 损失进行语言-图像预训练（SigLIP）视觉编码器的模型（4B、12B 和 27B 参数），这使得模型能够解释视觉输入。编码器工作在固定的 896x896 方形图像上，为了处理不同长宽比或高分辨率的图像，采用了“平移 &扫描（Pan & Scan）”算法。这包括自适应裁剪图像，将每次裁剪的大小调整为 896x896，然后对其进行编码。平移 &扫描方法进一步提高了涉及非正方形长宽比、高分辨率图像和图像中文本读取任务的性能。新模型还将图像视为由 MultiModalProjector 产生的一系列紧凑的“软令牌”。这种技术通过用固定数量的 256 个向量表示视觉数据，减少了图像处理所需的推理资源。

Gemma 3 中的视觉编码器处理使用双向注意力与图像输入。双向注意力是一种能很好地理解任务（与预测任务相反）的方法，因为我们有了整个文本，就需要深入理解它（如BERT等模型）。

为了提高内存效率，架构的更改包括修改以减少 KV 缓存的内存使用，这往往会随着长上下文的增加而增加。与 Gemma 1 中使用的全局注意力机制和 Gemma 2 中使用的 1:1 本地/全局比例相比，这些更改减少了在长文本推理期间的内存开销。这允许在不丢失上下文的情况下分析较长的文档和对话。具体来说，它可以为 1B 模型处理 32k 令牌，或为更大的模型处理 128k 令牌。

Gemma 3 还引入了一个改进的分词器。词汇表大小已更改为 262k，但使用的是相同的SentencePiece分词器。为了避免错误，他们建议在 Gemma 3 中使用新的分词器。这与Gemini的分词器相同，后者对非英语语言更为平衡。由于重新审视了数据混合并增加了多语言数据（包括单语和平行数据）的数量，Gemma 3 的多语言能力得到了改进。该团队还修订了预训练数据混合和后训练流程，以增强其多语言能力。

在各种基准测试中，Gemma 3 模型在预训练的指令调优版本上的表现优于Gemma 2。它是一个更好的模型，适合安装在单个消费者 GPU 或 TPU 主机上。截至 2025 年 4 月 12 日，Gemma 27B IT 模型在LM Arena中排名前 10 位，超越了许多更大的开放模型，并显示出比 Gemma 2 更高的Elo分数。

Gemma 3 模型的长文本处理能力可以在预训练期间通过旋转位置嵌入（RoPE）重新缩放扩展到 128k 的上下文长度。他们将全局自注意层的 RoPE 基础频率从 10k 增加到 1M，而局部层的频率保持在 10k。

有关 Gemma 3 模型的更多信息，请查阅开发人员指南、模型卡、模因生成器和Gemmaverse，以探索社区开发的 Gemma 模型。

原文链接：

https://www.infoq.com/news/2025/05/gemma3-new-features/

发布

暂无评论

创作场景

Gemma 3 支持视觉 - 语言理解、长上下文处理和改进的多语言性

评论

模块五作业

HBase 原理、Shell、API读写操作

架构训练营模块五作业

模块五作业 - 微博评论的高性能高可用计算架构

模块5作业

JavaScript 数组元素的一些操作

手撸二叉树之第二小的节点

【Flutter 专题】63 图解 Flutter 集成极光 JPush 小结

Swift 实现聚光灯动效

netty系列之:内置的Frame detection

架构实战营模块五作业

模块五-微博评论“的高性能高可用计算架构

iOS开发：Xcode报错“Could not insert new outlet connection:Could not find any...”问题的解决方法

微博评论高性能高可用方案设计

模块5 作业

模块五作业

模块五作业

百度助力人工智能教育创新：教育部产学合作协同育人项目申报进行中！

vue入门：定制自定义指令和过滤器

架构实战营模块5作业

设计微博系统中”微博评论“的高性能高可用计算架构

老和云起小游

20张图带你了解JVM运行时数据区（上）

你真的了解二叉树吗？（树形结构基础篇）

开发一个分布式IM(即时通信)系统！

架构实战营模块五作业

[架构实战营] 模块五作业

架构实战营模块五作业

架构实战营 - 模块 5 - 微博评论的高性能高可用计算架构

四种引用类型在Springboot中的使用

【LeetCode】反转字符串中的元音字母Java题解

创作场景

Gemma 3 支持视觉 - 语言理解、长上下文处理和改进的多语言性

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载