写点什么

AI 本地跑?Google 新开源模型上线,本地量化后占用不到 200MB 内存,支持百余语言

作者:Robert Krzaczyński

  • 2025-09-13
    北京
  • 本文字数:1052 字

    阅读完需:约 3 分钟

大小:496.38K时长:02:49
AI 本地跑?Google 新开源模型上线,本地量化后占用不到 200MB 内存,支持百余语言

Google DeepMind 宣布推出 EmbeddingGemma,这是一款拥有 3.08 亿参数的开源嵌入模型,专为在本地设备上高效运行而设计。借助这一模型,RAG(Retrieval-Augmented Generation,检索增强生成)、语义搜索、文本分类等应用无需依赖服务器或网络连接,也能顺畅运行。


EmbeddingGemma 采用 Matryoshka 表征学习方法,使嵌入向量可以灵活缩减,同时结合量化感知训练(Quantization-Aware Training),大幅提升了运行效率。Google 表示,在 EdgeTPU 硬件上处理短文本输入时,推理时间可控制在 15 毫秒以内。


在 Massive Text Embedding Benchmark (MTEB) 测试中,EmbeddingGemma 以不足 5 亿参数的体量,拿下了同类开源多语言嵌入模型的最佳成绩。它支持 100 多种语言,量化后内存占用不足 200MB。开发者可以根据需要,将输出维度在 768 到 128 之间灵活调整,在性能和存储之间找到平衡,同时保证模型质量不打折。



Google 将 EmbeddingGemma 定位于离线和隐私敏感的使用场景,例如本地搜索个人文件、在移动端运行基于 Gemma 3n 的 RAG 流程,或开发特定行业的聊天机器人。模型也支持微调,便于开发者针对特定任务进一步优化。目前,它已经与 transformers.js、llama.cpp、MLX、Ollama、LiteRT 和 LMStudio 等工具完成集成。


在 Reddit 上,用户也分享了对嵌入模型的实际用途的看法:

有人能跟我说说嵌入模型到底能干啥吗?我懂它能用在一些场景里,但它们具体是怎么发挥作用的呢?


用户 igorwarzocha 回复称:

除了那种大家都知道的搜索引擎,其实你也能把它塞在大模型和数据库中间,当个打杂的助手。有些写代码的工具已经这么玩了。只是不确定它是真能帮上忙,还是只是让大模型更迷糊。

我玩过一阵子,把它当成“匹配器”,用来把描述和关键词配起来(可能是反过来?我忘了),这样就能在素材库里自动找到对应的图片,不用我一张张手动翻。效果还行吧,但最后我还是选择自己生成定制图片。


Google 方面则强调,EmbeddingGemma 不仅适用于搜索,还可应用于离线助手、本地文件检索,以及隐私敏感行业的专用聊天机器人。由于数据处理全部在本地完成,像邮件或商务文档这样的敏感信息无需离开设备。同时,开发者也能进一步微调模型,以满足特定领域或特定语言的需求。


随着 EmbeddingGemma 的推出,Google 试图为开发者提供更多选择:既可以在本地使用这一高效轻量的嵌入模型,也可以通过 Gemini API 调用更大规模的 Gemini Embedding 模型,用于大规模部署。两者相互补充,形成了覆盖本地与云端的完整产品线。


原文链接:

https://www.infoq.com/news/2025/09/embedding-gemma/

2025-09-13 17:376442

评论

发布
暂无评论
发现更多内容

PPT | 未来工厂与数字孪生

工赋开发者社区

文心一言 VS 讯飞星火 VS chatgpt (64)-- 算法导论6.5 3题

福大大架构师每日一题

福大大架构师每日一题

ZBC Staking 即将开启,全新利好来袭

股市老人

ZBC Staking 即将开启,全新利好来袭

西柚子

酒有十千,棋有独步——本土大模型百花齐放,文心一言站稳领先者身位RlueEva-System大模型测评来了!你pick哪一家

TE智库

玩一玩编程式 AOP

江南一点雨

Java spring

Docker学习路线9:运行容器

小万哥

c++ Docker 运维 后端 开发

算网深度融合成趋势,天翼云让政企上云更安全、更便捷!

天翼云开发者社区

云计算 云平台

Code片段

Bert

C++ 结合 opencv读取图片与视频

芯动大师

LLaVA:将视觉微调引入大模型

Zilliz

计算机视觉 LLM 大语言模型 模型微调

【MySQL技术专题】「问题实战系列」深入探索和分析MySQL数据库的数据备份和恢复实战开发指南(系统底层优化篇)

码界西柚

MySQL 性能调优 技术分析 底层分析

九科信息中标招商局集团流程挖掘项目

九科Ninetech

飞桨AI for Science线下交流会:汇聚科学计算人才,携手共建繁荣社区

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨 百度飞桨

案例 | 基于机理模型驱动的工业APP集成开发平台及应用实践

工赋开发者社区

[分词]基于Lucene8版本的混合分词器(分词合并)

alexgaoyh

中文分词 lucene Spring Boot 2 混合模型

使用 Python 处理 CSV 文件,附示例

前端毛小悠

Python

Code片段D

Bert

时光“摆渡者”,让回忆“闪现”眼前

白洞计划

AI 存储

AI开发软件环境

timerring

AI

基于 Graviton2处理器构建容器化基因分析工作负载

亚马逊云科技 (Amazon Web Services)

云计算

MegEngine Python 层模块串讲(上)

MegEngineBot

Python 深度学习 开源 Data

喜报!天翼云电脑获“光华杯”大赛一等奖、最佳创意创新奖!

天翼云开发者社区

云计算 云电脑

虚幻引擎教程——生成云平台指定路径下的EXE文件

3DCAT实时渲染

虚幻引擎 ue UE虚幻引擎

演讲实录:指标平台+AI 的技术落地和未来展望

Kyligence

Kyligence Copilot

AI 本地跑?Google 新开源模型上线,本地量化后占用不到 200MB 内存,支持百余语言_Google_InfoQ精选文章