#阿里云 #飞天发布时刻 正在直播!中企出海的「技术引擎」来了! 了解详情
写点什么

Gemma 3 支持视觉 - 语言理解、长上下文处理和改进的多语言性

  • 2025-05-23
    北京
  • 本文字数:1152 字

    阅读完需:约 4 分钟

大小:592.15K时长:03:22
Gemma 3支持视觉-语言理解、长上下文处理和改进的多语言性

谷歌的开源生成式人工智能(AI)模型Gemma 3支持视觉-语言理解、长文本处理和改进的多语言能力。在最近的一篇博客文章中,谷歌DeepMind和 AI Studio 团队讨论了 Gemma 3 的新特性。该模型还强调了 KV 缓存内存的减少,引入了一种新的分词器,并提供了更好的性能和更高分辨率的视觉编码器。

 

Gemma 3技术报告总结了这些新特性和能力。新的视觉-语言理解能力包括使用自定义的 Sigmoid 损失进行语言-图像预训练(SigLIP)视觉编码器的模型(4B、12B 和 27B 参数),这使得模型能够解释视觉输入。编码器工作在固定的 896x896 方形图像上,为了处理不同长宽比或高分辨率的图像,采用了“平移 &扫描(Pan & Scan)”算法。这包括自适应裁剪图像,将每次裁剪的大小调整为 896x896,然后对其进行编码。平移 &扫描方法进一步提高了涉及非正方形长宽比、高分辨率图像和图像中文本读取任务的性能。新模型还将图像视为由 MultiModalProjector 产生的一系列紧凑的“软令牌”。这种技术通过用固定数量的 256 个向量表示视觉数据,减少了图像处理所需的推理资源。

 

Gemma 3 中的视觉编码器处理使用双向注意力与图像输入。双向注意力是一种能很好地理解任务(与预测任务相反)的方法,因为我们有了整个文本,就需要深入理解它(如BERT等模型)。

 

为了提高内存效率,架构的更改包括修改以减少 KV 缓存的内存使用,这往往会随着长上下文的增加而增加。与 Gemma 1 中使用的全局注意力机制和 Gemma 2 中使用的 1:1 本地/全局比例相比,这些更改减少了在长文本推理期间的内存开销。这允许在不丢失上下文的情况下分析较长的文档和对话。具体来说,它可以为 1B 模型处理 32k 令牌,或为更大的模型处理 128k 令牌。

 

Gemma 3 还引入了一个改进的分词器。词汇表大小已更改为 262k,但使用的是相同的SentencePiece分词器。为了避免错误,他们建议在 Gemma 3 中使用新的分词器。这与Gemini的分词器相同,后者对非英语语言更为平衡。由于重新审视了数据混合并增加了多语言数据(包括单语和平行数据)的数量,Gemma 3 的多语言能力得到了改进。该团队还修订了预训练数据混合和后训练流程,以增强其多语言能力。

 

在各种基准测试中,Gemma 3 模型在预训练的指令调优版本上的表现优于Gemma 2。它是一个更好的模型,适合安装在单个消费者 GPU 或 TPU 主机上。截至 2025 年 4 月 12 日,Gemma 27B IT 模型在LM Arena中排名前 10 位,超越了许多更大的开放模型,并显示出比 Gemma 2 更高的Elo分数。

 

Gemma 3 模型的长文本处理能力可以在预训练期间通过旋转位置嵌入(RoPE)重新缩放扩展到 128k 的上下文长度。他们将全局自注意层的 RoPE 基础频率从 10k 增加到 1M,而局部层的频率保持在 10k。

 

有关 Gemma 3 模型的更多信息,请查阅开发人员指南模型卡模因生成器Gemmaverse,以探索社区开发的 Gemma 模型。

 

原文链接:

https://www.infoq.com/news/2025/05/gemma3-new-features/

2025-05-23 16:001

评论

发布
暂无评论

番外3. Python OpenCV 中如何绘制各种图形?

梦想橡皮擦

8月日更

架构实战营模块4作业

子豪sirius

架构实战营

毕业设计

青鸟飞鱼

初识宽度优先搜索

泽睿

架构训练营模块四作业

老实人Honey

架构训练营

模块四作业

king

架构实战营第四周作业——考试试卷存储

发酵的死神

架构实战营

二叉树遍历和分治

泽睿

算法 遍历 分治

从0开始的TypeScriptの一:启航

空城机

typescript 大前端 8月日更

读尽天下源码,心中自然无码

程序员阿杜

8月日更

架构实战营 - 模块 4 - 设计千万级学生管理系统的考试试卷存储方案

雪中亮

架构实战营 #架构实战营

商城异地多活架构

arctec

架构实战营总结

Lane

电商秒杀系统设计方案

Lane

网络攻防学习笔记 Day99

穿过生命散发芬芳

态势感知 网络攻防 8月日更

毕业设计:设计电商秒杀系统

Johnny

架构实战营

架构实战营-毕业设计项目

༺NPE༻

软件测试基础面试常问问题

程序员阿沐

面试 软件测试 自动化测试 经验分享 测试工程师

prometheus介绍与安装

Rubble

Prometheus 8月日更

FastApi-08-路径参数校验

Python研究所

FastApi 8月日更

架构实战营-模块4

Cingk

【架构设计模块四】:设计千万级学生管理系统的考试试卷存储方案

Ryoma

printf函数的常用格式化输出

Changing Lin

8月日更

架构实战营-毕业总结

笑春风

架构实战营-毕业设计

笑春风

模块四

Winston

高亮架构训练营毕业设计-设计电商秒杀系统

高亮

架构训练营

iOS官方瘦身方案ODR(二):换肤系统改造|践行 On-Demand Resources

LabLawliet

ios 独立开发者 apple 优化技巧 8月日更

架构实战营基于redis哨兵模式的考试数据存储设计

慕溶枫

#架构实战营

值值得收藏,揭秘 MySQL 多版本并发控制实现原理

架构精进之路

MySQL MVCC 8月日更

业务定制型异地多活架构业务设计

arctec

Gemma 3支持视觉-语言理解、长上下文处理和改进的多语言性_AI&大模型_Srini Penchikala_InfoQ精选文章