10 月 23 - 25 日,QCon 上海站即将召开,9折优惠最后2天 了解详情
写点什么

Gemma 3 支持视觉 - 语言理解、长上下文处理和改进的多语言性

  • 2025-05-23
    北京
  • 本文字数:1152 字

    阅读完需:约 4 分钟

大小:592.15K时长:03:22
Gemma 3支持视觉-语言理解、长上下文处理和改进的多语言性

谷歌的开源生成式人工智能(AI)模型Gemma 3支持视觉-语言理解、长文本处理和改进的多语言能力。在最近的一篇博客文章中,谷歌DeepMind和 AI Studio 团队讨论了 Gemma 3 的新特性。该模型还强调了 KV 缓存内存的减少,引入了一种新的分词器,并提供了更好的性能和更高分辨率的视觉编码器。

 

Gemma 3技术报告总结了这些新特性和能力。新的视觉-语言理解能力包括使用自定义的 Sigmoid 损失进行语言-图像预训练(SigLIP)视觉编码器的模型(4B、12B 和 27B 参数),这使得模型能够解释视觉输入。编码器工作在固定的 896x896 方形图像上,为了处理不同长宽比或高分辨率的图像,采用了“平移 &扫描(Pan & Scan)”算法。这包括自适应裁剪图像,将每次裁剪的大小调整为 896x896,然后对其进行编码。平移 &扫描方法进一步提高了涉及非正方形长宽比、高分辨率图像和图像中文本读取任务的性能。新模型还将图像视为由 MultiModalProjector 产生的一系列紧凑的“软令牌”。这种技术通过用固定数量的 256 个向量表示视觉数据,减少了图像处理所需的推理资源。

 

Gemma 3 中的视觉编码器处理使用双向注意力与图像输入。双向注意力是一种能很好地理解任务(与预测任务相反)的方法,因为我们有了整个文本,就需要深入理解它(如BERT等模型)。

 

为了提高内存效率,架构的更改包括修改以减少 KV 缓存的内存使用,这往往会随着长上下文的增加而增加。与 Gemma 1 中使用的全局注意力机制和 Gemma 2 中使用的 1:1 本地/全局比例相比,这些更改减少了在长文本推理期间的内存开销。这允许在不丢失上下文的情况下分析较长的文档和对话。具体来说,它可以为 1B 模型处理 32k 令牌,或为更大的模型处理 128k 令牌。

 

Gemma 3 还引入了一个改进的分词器。词汇表大小已更改为 262k,但使用的是相同的SentencePiece分词器。为了避免错误,他们建议在 Gemma 3 中使用新的分词器。这与Gemini的分词器相同,后者对非英语语言更为平衡。由于重新审视了数据混合并增加了多语言数据(包括单语和平行数据)的数量,Gemma 3 的多语言能力得到了改进。该团队还修订了预训练数据混合和后训练流程,以增强其多语言能力。

 

在各种基准测试中,Gemma 3 模型在预训练的指令调优版本上的表现优于Gemma 2。它是一个更好的模型,适合安装在单个消费者 GPU 或 TPU 主机上。截至 2025 年 4 月 12 日,Gemma 27B IT 模型在LM Arena中排名前 10 位,超越了许多更大的开放模型,并显示出比 Gemma 2 更高的Elo分数。

 

Gemma 3 模型的长文本处理能力可以在预训练期间通过旋转位置嵌入(RoPE)重新缩放扩展到 128k 的上下文长度。他们将全局自注意层的 RoPE 基础频率从 10k 增加到 1M,而局部层的频率保持在 10k。

 

有关 Gemma 3 模型的更多信息,请查阅开发人员指南模型卡模因生成器Gemmaverse,以探索社区开发的 Gemma 模型。

 

原文链接:

https://www.infoq.com/news/2025/05/gemma3-new-features/

2025-05-23 16:009426

评论

发布
暂无评论
发现更多内容

字节三面被挂后,狂刷算法,意外斩获阿里offer,定级P6+

Java 数据结构 面试 算法

软件测试/测试开发丨RPC接口测试技术-Tcp 协议的接口测试

测试人

软件测试 自动化测试 测试开发

爱了!阿里P8纯手码出489页SQL优化手册,附笔记源码

Java 数据库 sql 面试

终于扒完国内算法第一人10年经验总结的数据结构与算法详解文档

程序知音

Java 算法 编程语言 数据结构与算法 后端技术

《2023大型企业财务数智化白皮书》:大型企业财务数智化建设应用架构

用友BIP

财务数智化 智能财务

不要再问我 In,Exists 走不走索引了

Java敏捷开发框架 高效搭建数据报表

力软低代码开发平台

蚁人与量子停车场

白洞计划

AI 智慧停车场

远程桌面连接软件:Jump Desktop 8 mac激活版

真大的脸盆

Mac 远程办公 Mac 软件 远程连接 远程工具

现货合约一键自动跟单app系统开发搭建(api对接)

开发v-hkkf5566

python进阶:带你学习实时目标跟踪

华为云开发者联盟

Python 人工智能 华为云 华为云开发者联盟 企业号 3 月 PK 榜

布隆过滤器(Bloom Filters)的原理及代码实现(Java)

Java 布隆过滤器

让国内顶尖程序员社区“牛客网”低头的这份Java面试手册真的强

程序知音

Java 编程语言 java面试 java架构 八股文

牛皮!GitHub上标星90.6K的Java面试指南+笔记

Java java面试 Java八股文 Java面试题 Java面试八股文

8个不能错过的程序员必备网站,惊艳到我了!!!

引迈信息

前端

想稳中求进?字节大佬的硬核学习神器《图解Java并发编程》看了吗

Java你猿哥

Java 面试 Java并发 ssm 面经

建木v2.7.0发布

Jianmu

node.js maven 缓存 CI/CD 流水线

IPQ5018 cooperate QCN6122 / QCN6102 high performance high speed wi-fi connection

Cindy-wallys

ipq5018 QCN6102 QCN6122 IPQ5010

MQTT协议是什么?MQTT和Kafka的联系与区别

EMQ映云科技

kafka 物联网 IoT mqtt 企业号 3 月 PK 榜

直面风口,未来不仅是中文版ChatGPT,还有AGI大时代在等着我们

加入高科技仿生人

人工智能 AI 低代码 数智化 AGI

腾讯2022年度研发大数据报告:研发人员占比74%,新增研发项目超7000个

科技热闻

轻松搞定面试拿offer的Java面试宝典(全彩图文版)24个Java技术栈

Java你猿哥

Java 面试 ssm 面经 java技术栈

3月27日“文心一言云服务”系列产品将发布 已有21家企业签约

极客天地

瓴羊Quick BI作为自定义数据门户,在企业的有效管理中发挥巨大作用

流量猫猫头

全员狠人!CG大佬的连环暴击!第二届瑞云3D渲染动画创作大赛入围名单出炉!人气奖投票进行时!

Renderbus瑞云渲染农场

3D渲染动画创作大赛 瑞云3D渲染动画大赛

提升面试成功率:深入理解C++11新特性

小万哥

程序员 面试 软件开发 新特性 C++11

看起来很简单的二维码巡检,究竟是怎么实现的?

草料二维码

小程序 二维码 表单 设备巡检

给跪了!阿里P7技术专家进阶必备,架构进阶宝典

Java 进阶 架构师

分析 | NFTScan NFT API 在加密钱包开发中的应用

NFT Research

API NFT

建木缓存—提升构建速度,让你不加班!

Jianmu

maven 缓存 持续集成 CI/CD 流水线

Gemma 3支持视觉-语言理解、长上下文处理和改进的多语言性_AI&大模型_Srini Penchikala_InfoQ精选文章