写点什么

AI 本地跑?Google 新开源模型上线,本地量化后占用不到 200MB 内存,支持百余语言

作者:Robert Krzaczyński

  • 2025-09-13
    北京
  • 本文字数:1052 字

    阅读完需:约 3 分钟

大小:496.38K时长:02:49
AI 本地跑?Google 新开源模型上线,本地量化后占用不到 200MB 内存,支持百余语言

Google DeepMind 宣布推出 EmbeddingGemma,这是一款拥有 3.08 亿参数的开源嵌入模型,专为在本地设备上高效运行而设计。借助这一模型,RAG(Retrieval-Augmented Generation,检索增强生成)、语义搜索、文本分类等应用无需依赖服务器或网络连接,也能顺畅运行。


EmbeddingGemma 采用 Matryoshka 表征学习方法,使嵌入向量可以灵活缩减,同时结合量化感知训练(Quantization-Aware Training),大幅提升了运行效率。Google 表示,在 EdgeTPU 硬件上处理短文本输入时,推理时间可控制在 15 毫秒以内。


在 Massive Text Embedding Benchmark (MTEB) 测试中,EmbeddingGemma 以不足 5 亿参数的体量,拿下了同类开源多语言嵌入模型的最佳成绩。它支持 100 多种语言,量化后内存占用不足 200MB。开发者可以根据需要,将输出维度在 768 到 128 之间灵活调整,在性能和存储之间找到平衡,同时保证模型质量不打折。



Google 将 EmbeddingGemma 定位于离线和隐私敏感的使用场景,例如本地搜索个人文件、在移动端运行基于 Gemma 3n 的 RAG 流程,或开发特定行业的聊天机器人。模型也支持微调,便于开发者针对特定任务进一步优化。目前,它已经与 transformers.js、llama.cpp、MLX、Ollama、LiteRT 和 LMStudio 等工具完成集成。


在 Reddit 上,用户也分享了对嵌入模型的实际用途的看法:

有人能跟我说说嵌入模型到底能干啥吗?我懂它能用在一些场景里,但它们具体是怎么发挥作用的呢?


用户 igorwarzocha 回复称:

除了那种大家都知道的搜索引擎,其实你也能把它塞在大模型和数据库中间,当个打杂的助手。有些写代码的工具已经这么玩了。只是不确定它是真能帮上忙,还是只是让大模型更迷糊。

我玩过一阵子,把它当成“匹配器”,用来把描述和关键词配起来(可能是反过来?我忘了),这样就能在素材库里自动找到对应的图片,不用我一张张手动翻。效果还行吧,但最后我还是选择自己生成定制图片。


Google 方面则强调,EmbeddingGemma 不仅适用于搜索,还可应用于离线助手、本地文件检索,以及隐私敏感行业的专用聊天机器人。由于数据处理全部在本地完成,像邮件或商务文档这样的敏感信息无需离开设备。同时,开发者也能进一步微调模型,以满足特定领域或特定语言的需求。


随着 EmbeddingGemma 的推出,Google 试图为开发者提供更多选择:既可以在本地使用这一高效轻量的嵌入模型,也可以通过 Gemini API 调用更大规模的 Gemini Embedding 模型,用于大规模部署。两者相互补充,形成了覆盖本地与云端的完整产品线。


原文链接:

https://www.infoq.com/news/2025/09/embedding-gemma/

2025-09-13 17:376703

评论

发布
暂无评论

🏆【SpringBoot技术专题】「Cache缓存组件」Redis缓存使用技巧及注解大全

码界西柚

redis cache Sprint Boot 7月日更

从0到1:用脚做一个路由器漏洞实例

网络安全学海

运维 网络安全 信息安全 渗透测试· SQL注入

给AI时代装配“新大脑”:数据密集型超算带来了哪些变革?

脑极体

用太极拳讲分布式理论,真舒服!

悟空聊架构

分布式 事务 CAS Base 7月日更

如何优雅的实现一个Client

Apologize

Java 设计模式 代码设计 client

免费分享Spring Boot开发的优秀图书

Java入门到架构

Java springboot

推荐系统的人工调控策略(三十五)

Databri_AI

人工智能 商业价值 推荐系统

Flink生产环境TOP难题与优化,阿里巴巴藏经阁YYDS

王知无

在线ASCII流程图编辑器工具

入门小站

工具

一篇并不起眼的Kafka面试题

王知无

Linux之文件属性详解

入门小站

Linux

两天搞定一个BUG

IT蜗壳-Tango

7月日更

Xshell 如何导入 PuTTYgen 生成的 key

HoneyMoose

SPAC:海外造壳上市

石云升

上市 7月日更

linux服务器开发人员必须要彻底理解的关于【Linux】IO的线程模型

Linux服务器开发

reactor 网络编程 epoll Linux服务器开发 IO模型

共1575道,内卷把我逼成“收集王”汇总十家大厂面试题后,产出Java“完美圣经”

Java架构师迁哥

代理

卢卡多多

代理 代理原理 7月日更

Reactive Spring实战 -- 响应式MySql交互

binecy

MySQL 响应式编程 Reactive Spring

软件开发的22条黄金法则

Zhendong

程序员 开发

初探 Redis 客户端 Lettuce:真香

白亦杨

Java redis

如何加速应用网格化部署?看这款社交产品怎么做

阿里巴巴中间件

让AI抛弃“小作坊”,拥抱“工业化”:盘古大模型究竟是什么?

脑极体

Ansible Role

耳东@Erdong

ansible 7月日更 ansible role

ARTS 日常打卡 - 7

pjw

架构训练营模块一作业

老实人Honey

架构实战营

登录验证那些事儿

江湖一点雨

Token Cookie JWT session处理方案 单点登录

5分钟速读之Rust权威指南(四十)高级trait

wzx

rust

这份面试笔记到底有什么魔力?可以使我斩获了8家大厂offer(Java岗)

Java架构师迁哥

想学好编程,别背代码!

程序员鱼皮

Java Python 学习 大前端 计算机基础

百分点大数据技术团队:ClickHouse国家级项目性能优化实践

百分点大数据团队

自建开发工具系列-Webkit内存动量监控UI(四)

Tim

UI JSX

AI 本地跑?Google 新开源模型上线,本地量化后占用不到 200MB 内存,支持百余语言_Google_InfoQ精选文章