AI 本地跑？Google 新开源模型上线，本地量化后占用不到 200MB 内存，支持百余语言_Google



 写点什么



大小：496.38K时长：02:49

AI 本地跑？Google 新开源模型上线，本地量化后占用不到 200MB 内存，支持百余语言

Google DeepMind 宣布推出 EmbeddingGemma，这是一款拥有 3.08 亿参数的开源嵌入模型，专为在本地设备上高效运行而设计。借助这一模型，RAG（Retrieval-Augmented Generation，检索增强生成）、语义搜索、文本分类等应用无需依赖服务器或网络连接，也能顺畅运行。

EmbeddingGemma 采用 Matryoshka 表征学习方法，使嵌入向量可以灵活缩减，同时结合量化感知训练（Quantization-Aware Training），大幅提升了运行效率。Google 表示，在 EdgeTPU 硬件上处理短文本输入时，推理时间可控制在 15 毫秒以内。

在 Massive Text Embedding Benchmark (MTEB) 测试中，EmbeddingGemma 以不足 5 亿参数的体量，拿下了同类开源多语言嵌入模型的最佳成绩。它支持 100 多种语言，量化后内存占用不足 200MB。开发者可以根据需要，将输出维度在 768 到 128 之间灵活调整，在性能和存储之间找到平衡，同时保证模型质量不打折。

Google 将 EmbeddingGemma 定位于离线和隐私敏感的使用场景，例如本地搜索个人文件、在移动端运行基于 Gemma 3n 的 RAG 流程，或开发特定行业的聊天机器人。模型也支持微调，便于开发者针对特定任务进一步优化。目前，它已经与 transformers.js、llama.cpp、MLX、Ollama、LiteRT 和 LMStudio 等工具完成集成。

在 Reddit 上，用户也分享了对嵌入模型的实际用途的看法：

有人能跟我说说嵌入模型到底能干啥吗？我懂它能用在一些场景里，但它们具体是怎么发挥作用的呢？

用户 igorwarzocha 回复称：

除了那种大家都知道的搜索引擎，其实你也能把它塞在大模型和数据库中间，当个打杂的助手。有些写代码的工具已经这么玩了。只是不确定它是真能帮上忙，还是只是让大模型更迷糊。
我玩过一阵子，把它当成“匹配器”，用来把描述和关键词配起来（可能是反过来？我忘了），这样就能在素材库里自动找到对应的图片，不用我一张张手动翻。效果还行吧，但最后我还是选择自己生成定制图片。

Google 方面则强调，EmbeddingGemma 不仅适用于搜索，还可应用于离线助手、本地文件检索，以及隐私敏感行业的专用聊天机器人。由于数据处理全部在本地完成，像邮件或商务文档这样的敏感信息无需离开设备。同时，开发者也能进一步微调模型，以满足特定领域或特定语言的需求。

随着 EmbeddingGemma 的推出，Google 试图为开发者提供更多选择：既可以在本地使用这一高效轻量的嵌入模型，也可以通过 Gemini API 调用更大规模的 Gemini Embedding 模型，用于大规模部署。两者相互补充，形成了覆盖本地与云端的完整产品线。

原文链接：

https://www.infoq.com/news/2025/09/embedding-gemma/

发布

暂无评论

创作场景

AI 本地跑？Google 新开源模型上线，本地量化后占用不到 200MB 内存，支持百余语言

评论

PPT | 未来工厂与数字孪生

文心一言 VS 讯飞星火 VS chatgpt （64）-- 算法导论6.5 3题

ZBC Staking 即将开启，全新利好来袭

ZBC Staking 即将开启，全新利好来袭

酒有十千，棋有独步——本土大模型百花齐放，文心一言站稳领先者身位RlueEva-System大模型测评来了！你pick哪一家

玩一玩编程式 AOP

Docker学习路线9：运行容器

算网深度融合成趋势，天翼云让政企上云更安全、更便捷！

Code片段

C++ 结合 opencv读取图片与视频

LLaVA：将视觉微调引入大模型

【MySQL技术专题】「问题实战系列」深入探索和分析MySQL数据库的数据备份和恢复实战开发指南（系统底层优化篇）

九科信息中标招商局集团流程挖掘项目

飞桨AI for Science线下交流会：汇聚科学计算人才，携手共建繁荣社区

案例 | 基于机理模型驱动的工业APP集成开发平台及应用实践

[分词]基于Lucene8版本的混合分词器(分词合并)

使用 Python 处理 CSV 文件，附示例

Code片段D

时光“摆渡者”，让回忆“闪现”眼前

AI开发软件环境

基于 Graviton2处理器构建容器化基因分析工作负载

MegEngine Python 层模块串讲（上）

喜报！天翼云电脑获“光华杯”大赛一等奖、最佳创意创新奖！

虚幻引擎教程——生成云平台指定路径下的EXE文件

演讲实录：指标平台+AI 的技术落地和未来展望

创作场景

AI 本地跑？Google 新开源模型上线，本地量化后占用不到 200MB 内存，支持百余语言

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载