50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

AI 本地跑?Google 新开源模型上线,本地量化后占用不到 200MB 内存,支持百余语言

作者:Robert Krzaczyński

  • 2025-09-13
    北京
  • 本文字数:1052 字

    阅读完需:约 3 分钟

大小:496.38K时长:02:49
AI 本地跑?Google 新开源模型上线,本地量化后占用不到 200MB 内存,支持百余语言

Google DeepMind 宣布推出 EmbeddingGemma,这是一款拥有 3.08 亿参数的开源嵌入模型,专为在本地设备上高效运行而设计。借助这一模型,RAG(Retrieval-Augmented Generation,检索增强生成)、语义搜索、文本分类等应用无需依赖服务器或网络连接,也能顺畅运行。


EmbeddingGemma 采用 Matryoshka 表征学习方法,使嵌入向量可以灵活缩减,同时结合量化感知训练(Quantization-Aware Training),大幅提升了运行效率。Google 表示,在 EdgeTPU 硬件上处理短文本输入时,推理时间可控制在 15 毫秒以内。


在 Massive Text Embedding Benchmark (MTEB) 测试中,EmbeddingGemma 以不足 5 亿参数的体量,拿下了同类开源多语言嵌入模型的最佳成绩。它支持 100 多种语言,量化后内存占用不足 200MB。开发者可以根据需要,将输出维度在 768 到 128 之间灵活调整,在性能和存储之间找到平衡,同时保证模型质量不打折。



Google 将 EmbeddingGemma 定位于离线和隐私敏感的使用场景,例如本地搜索个人文件、在移动端运行基于 Gemma 3n 的 RAG 流程,或开发特定行业的聊天机器人。模型也支持微调,便于开发者针对特定任务进一步优化。目前,它已经与 transformers.js、llama.cpp、MLX、Ollama、LiteRT 和 LMStudio 等工具完成集成。


在 Reddit 上,用户也分享了对嵌入模型的实际用途的看法:

有人能跟我说说嵌入模型到底能干啥吗?我懂它能用在一些场景里,但它们具体是怎么发挥作用的呢?


用户 igorwarzocha 回复称:

除了那种大家都知道的搜索引擎,其实你也能把它塞在大模型和数据库中间,当个打杂的助手。有些写代码的工具已经这么玩了。只是不确定它是真能帮上忙,还是只是让大模型更迷糊。

我玩过一阵子,把它当成“匹配器”,用来把描述和关键词配起来(可能是反过来?我忘了),这样就能在素材库里自动找到对应的图片,不用我一张张手动翻。效果还行吧,但最后我还是选择自己生成定制图片。


Google 方面则强调,EmbeddingGemma 不仅适用于搜索,还可应用于离线助手、本地文件检索,以及隐私敏感行业的专用聊天机器人。由于数据处理全部在本地完成,像邮件或商务文档这样的敏感信息无需离开设备。同时,开发者也能进一步微调模型,以满足特定领域或特定语言的需求。


随着 EmbeddingGemma 的推出,Google 试图为开发者提供更多选择:既可以在本地使用这一高效轻量的嵌入模型,也可以通过 Gemini API 调用更大规模的 Gemini Embedding 模型,用于大规模部署。两者相互补充,形成了覆盖本地与云端的完整产品线。


原文链接:

https://www.infoq.com/news/2025/09/embedding-gemma/

2025-09-13 17:376397

评论

发布
暂无评论
发现更多内容

国内首家入驻统信系统的APaaS厂商

明道云

Linux之ln命令

入门小站

Linux

产业区块链迎来新纪元,基础设施建设成核心命题

CECBC

图解 JavaScript 数组方法

devpoint

ES6 array 7月日更

用户管理系统 - 用户权限设计从入门到精通

蒋川

后台开发 权限系统 权限管理 权限架构 用户管理

【架构训练营】模块二作业

zclau

基于迁移学习的语义分割算法分享与代码复现

华为云开发者联盟

语义分割 modelarts 迁移学习 语义分割算法 迁移分割

统一预估引擎的设计与实现

安第斯智能云

算法 后端

网络安全、Web安全、渗透测试之笔经面经总结

网络安全学海

面试 网络安全 信息安全 渗透测试 漏洞分析

在外包做开发3年,为了进大厂,耗时半年,整合出25W字Java全栈面试题,这就是我的决心

Java架构师迁哥

【软件测试转型自动化测试001】Python环境搭建&语法规则

程序员阿沐

Python 软件测试 自动化测试 环境搭建 语法规则

Rust从0到1-面向对象编程-概念

rust oop 面向对象编程

oCPX简介——广告界的“无人驾驶”技术

安第斯智能云

算法

获取微信小程序页面路径方法

一颗小树

小程序 微信开发者工具 页面路径 微信开发者

🐬【MySQL技术导航】常用函数介绍(1)

码界西柚

MySQL 7月日更

Python OpenCV 图像的几何变换,先说不平凡的 resize 函数

梦想橡皮擦

Python 7月日更

【Flutter 专题】80 初识 Flutter Stream (一)

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 7月日更

Vue进阶(幺玖肆):localStorage应用总结

No Silver Bullet

Vue LocalStorage 7月日更

[翻译]innodb_ruby 项目简介

keaper

MySQL 数据库 后端 服务端 innodb

MERN堆栈

吴脑的键客

node.js mongodb React Express

快手上线本地生活榜单:自媒体平台在逐步蚕食搜索引擎市场

石头IT视角

char+char=number

喵叔

7月日更

拍乐云 X 青云科技,预见数字自由,相约 CIC 2021 云计算峰会

拍乐云Pano

微信朋友圈复杂度分析

桂阳

“吴痛针灸”代言人翻车,为什么女性会重新定义品牌优势

脑极体

Go语言,什么情况下应该使用指针?

微客鸟窝

Go 语言

Vue进阶(三十五):watch监听函数详解

No Silver Bullet

Vue 7月日更 watch

微信朋友圈高性能复杂度分析

木云先森

架构实战营

现代企业架构师的5大特征及六种方法

禅道项目管理

架构 数据 开发 创新 行业趋势

Java到底是什么?

卢卡多多

Java 入门 7月日更 Java入门

在线XML转CSV工具

入门小站

AI 本地跑?Google 新开源模型上线,本地量化后占用不到 200MB 内存,支持百余语言_Google_InfoQ精选文章