写点什么

谷歌发布 Gemma 3n 预览版和设备函数调用 SDK

作者:Steef-Jan Wiggers

  • 2025-06-02
    北京
  • 本文字数:1092 字

    阅读完需:约 4 分钟

大小:421.60K时长:02:23
谷歌发布Gemma 3n预览版和设备函数调用SDK

谷歌发布 Gemma 3n 预览版,可在新的 LiteRT Hugging Face 社区中找到,同时还有许多之前发布的模型。Gemma 3n 是一款支持文本、图像、视频和音频输入的多模态小语言模型。它还支持通过检索增强生成(RAG)进行微调和定制,以及使用新的 AI Edge SDK 进行函数调用。


Gemma 3n 提供两种参数变体,即 Gemma 3n 2BGemma 3n 4B,均支持文本和图像输入,音频支持在随后推出。与今年早些时候发布的非多模态 Gemma 3 1B 相比,新版本是一个显著的改进,Gemma 3 1B 仅需 529MB 即可在移动 GPU 上每秒处理多达 2585 个词元。


Gemma 3n 非常适合企业级应用场景,开发者可以充分利用设备的全部资源,从而在移动设备上运行更大的模型。例如,现场技术人员可以在没有网络服务的情况下拍摄零件照片并提问。仓库或厨房的工作人员可以在双手忙碌时通过语音更新库存。


谷歌表示,Gemma 3n 使用了选择性参数激活技术,这是一种高效的参数管理方法。这意味着这两个模型包含的参数数量比在推理期间激活的 2B 或 4B 参数要多。


谷歌强调,开发者可以对基础模型进行微调,然后使用 Google AI Edge 提供的新的量化工具对其进行转换和量化


在最新发布的量化工具中,新的量化方案大幅提升了 int4 后训练量化的质量。与 bf16(许多模型的默认数据类型)相比,int4 量化可将语言模型的大小缩小 2.5 到 4 倍,同时显著降低延迟和峰值内存消耗。


除了微调之外,这些模型还支持在设备上进行检索增强生成,能够将特定于应用程序的数据整合到语言模型中。目前,该功能由 Android 上的 AI Edge RAG 库提供支持,未来将拓展到更多平台。


RAG 库采用了一个简单的、包括几个步骤的流程:数据导入、分块和索引、嵌入生成、信息检索以及使用 LLM 生成响应。它支持对 RAG 流程进行全面定制,包括自定义数据库、分块策略和检索函数。


除了 Gemma 3n,谷歌还发布了目前仅在 Android 上可用的 AI Edge On-device Function Calling SDK,它能够让模型调用特定函数以执行实际的操作。


与纯粹生成文本不同,使用 FC SDK 可以让 LLM 生成结构化的函数调用,用于执行诸如搜索新信息、设置闹钟或预订等操作。


要将 LLM 与外部函数集成,需要指定函数的名称、描述(指导 LLM 何时使用该函数)以及所需的参数。这些元数据将被放置到一个 Tool 对象中,然后通过 GenerativeModel 构造函数传给大语言模型。函数调用 SDK 可以根据你提供的描述从 LLM 接收函数调用,并将执行结果反馈给 LLM。


如果你想深入了解这些新工具,可以参看 Google AI Edge Gallery,这是一个实验性应用程序,展示了各种模型,并支持文本、图像和音频处理。


原文链接

https://www.infoq.com/news/2025/05/gemma-3n-on-device-inference/

2025-06-02 10:006369

评论

发布
暂无评论

当你真的学会DataBinding后,你会发现“这玩意真香”!

编程的平行世界

JetPack andiod

一文读懂TDengine的窗口查询功能

TDengine

tdengine 时序数据库

开源者的自我修养|为 ShardingSphere 贡献了千万行代码的程序员,后来当了 CEO

SphereEx

开源 代码 ShardingSphere

SpringBoot工程创建Swagger文档并自动生成调用代码

百家饭隐私计算平台创业者

JavaScript Spring Boot swagger

2022上半年英特尔有哪些“硬核创新”?看这张图就知道了!

科技之家

web前端培训Docker入门指南

@零度

Docker 前端开发

大数据培训 | Scala语言知识分享,直击面试

@零度

scala 大数据开发

刘对(火线安全)-多云环境的风险发现

火线安全

云安全 云安全技术 云安全研究

向Spring框架学习设计模式

慕枫技术笔记

设计模式 spring框架 7月月更

从MLPerf谈起:如何引领AI加速器的下一波浪潮

OneFlow

人工智能 深度学习 加速器

进入前六!博云在中国云管理软件市场销量排行持续上升

BoCloud博云

云原生 cmp 云管理

焱融看 | 混合云时代下,如何制定多云策略

焱融科技

存储 文件存储 混合云 多云

SAP 智能机器人流程自动化(iRPA)解决方案分享

汪子熙

SAP 业务流程自动化 7月月更 企业自动化 iRPA

8款最佳实践,保护你的 IaC 安全!

SEAL安全

安全 IaC

SpringSecurity的初始化流程

急需上岸的小谢

7月月更

6年技术迭代,阿里全球化出海&合规的挑战和探索

阿里技术

阿里巴巴 最佳实践 方法论 全球化

Java培训 | 详解 Linux 中的权限,这一篇就够了

@零度

Linux JAVA开发

使用强大的DBPack处理分布式事务(PHP使用教程)

峨嵋闲散人

分布式事务 分库分表 读写分离 seata dbmesh

leetcode 322. Coin Change 零钱兑换(中等)

okokabcd

LeetCode 动态规划 算法与数据结构

Fiori 应用通过 Adaptation Project 的增强方式分享

汪子熙

前端开发 SAP Fiori SAP UI5 7月月更

JVM有哪些类加载机制?

源字节1号

软件开发

陈宇(Aqua)-安全->云安全->多云安全

火线安全

云安全 云安全技术 云安全研究

60 个前端 Web 开发流行语你都知道哪些?

海拥(haiyong.site)

前端 Web 7月月更

介绍一种对 SAP GUI 里的收藏夹事务码管理工具增强的实现方案

汪子熙

SAP abap SAPGUI 企业管理软件 7月月更

龙蜥社区开源 coolbpf,BPF 程序开发效率提升百倍

OpenAnolis小助手

Linux 开源 内核 龙蜥技术 BPF

研发效能度量框架解读

思码逸研发效能

研发效能 效能度量

洞态在某互联⽹⾦融科技企业的最佳落地实践

火线安全

漏洞检测 IAST

2022 · 让我带你Jetpack架构组件从入门到精通 — Lifecycle

编程的平行世界

an'droid android jetpack

学会使用LiveData和ViewModel,我相信会让你在写业务时变得轻松🌞

编程的平行世界

JetPack Andriod

Linux设备驱动1:硬件基础

贾献华

7月月更

孔松(信通院)-数字化时代云安全能力建设及趋势

火线安全

云安全 云安全技术 云安全研究

谷歌发布Gemma 3n预览版和设备函数调用SDK_Google_InfoQ精选文章