写点什么

谷歌发布 Gemma 3n 预览版和设备函数调用 SDK

作者:Steef-Jan Wiggers

  • 2025-06-02
    北京
  • 本文字数:1092 字

    阅读完需:约 4 分钟

大小:421.60K时长:02:23
谷歌发布Gemma 3n预览版和设备函数调用SDK

谷歌发布 Gemma 3n 预览版,可在新的 LiteRT Hugging Face 社区中找到,同时还有许多之前发布的模型。Gemma 3n 是一款支持文本、图像、视频和音频输入的多模态小语言模型。它还支持通过检索增强生成(RAG)进行微调和定制,以及使用新的 AI Edge SDK 进行函数调用。


Gemma 3n 提供两种参数变体,即 Gemma 3n 2BGemma 3n 4B,均支持文本和图像输入,音频支持在随后推出。与今年早些时候发布的非多模态 Gemma 3 1B 相比,新版本是一个显著的改进,Gemma 3 1B 仅需 529MB 即可在移动 GPU 上每秒处理多达 2585 个词元。


Gemma 3n 非常适合企业级应用场景,开发者可以充分利用设备的全部资源,从而在移动设备上运行更大的模型。例如,现场技术人员可以在没有网络服务的情况下拍摄零件照片并提问。仓库或厨房的工作人员可以在双手忙碌时通过语音更新库存。


谷歌表示,Gemma 3n 使用了选择性参数激活技术,这是一种高效的参数管理方法。这意味着这两个模型包含的参数数量比在推理期间激活的 2B 或 4B 参数要多。


谷歌强调,开发者可以对基础模型进行微调,然后使用 Google AI Edge 提供的新的量化工具对其进行转换和量化


在最新发布的量化工具中,新的量化方案大幅提升了 int4 后训练量化的质量。与 bf16(许多模型的默认数据类型)相比,int4 量化可将语言模型的大小缩小 2.5 到 4 倍,同时显著降低延迟和峰值内存消耗。


除了微调之外,这些模型还支持在设备上进行检索增强生成,能够将特定于应用程序的数据整合到语言模型中。目前,该功能由 Android 上的 AI Edge RAG 库提供支持,未来将拓展到更多平台。


RAG 库采用了一个简单的、包括几个步骤的流程:数据导入、分块和索引、嵌入生成、信息检索以及使用 LLM 生成响应。它支持对 RAG 流程进行全面定制,包括自定义数据库、分块策略和检索函数。


除了 Gemma 3n,谷歌还发布了目前仅在 Android 上可用的 AI Edge On-device Function Calling SDK,它能够让模型调用特定函数以执行实际的操作。


与纯粹生成文本不同,使用 FC SDK 可以让 LLM 生成结构化的函数调用,用于执行诸如搜索新信息、设置闹钟或预订等操作。


要将 LLM 与外部函数集成,需要指定函数的名称、描述(指导 LLM 何时使用该函数)以及所需的参数。这些元数据将被放置到一个 Tool 对象中,然后通过 GenerativeModel 构造函数传给大语言模型。函数调用 SDK 可以根据你提供的描述从 LLM 接收函数调用,并将执行结果反馈给 LLM。


如果你想深入了解这些新工具,可以参看 Google AI Edge Gallery,这是一个实验性应用程序,展示了各种模型,并支持文本、图像和音频处理。


原文链接

https://www.infoq.com/news/2025/05/gemma-3n-on-device-inference/

2025-06-02 10:006432

评论

发布
暂无评论

推荐计划 | 推荐好友用 CODING,获高额返现奖励

CODING DevOps

团队管理 敏捷开发 研发工具 开发团队

飞猪基于 Serverless 的云+端实践与思考

阿里巴巴云原生

Serverless 容器 运维 云原生 监控

百度 Serverless 架构揭秘与应用实践

百度开发者中心

百度 开源 Serverless 云原生

部署混合云环境的5大挑战

云计算

redis sentinel架构

王瑞强

数据湖vs数据仓库vs数据集市

数据社

数据仓库 数据湖 5月日更

高级软件工程师必备的五大技能

架构精进之路

5月日更

☕【JVM 技术之旅】让你完全攻克内存溢出(OOM)这一难题(上)

码界西柚

JVM OOM 异常 Exception 5月日更

throw与throws的区别学习笔记

风翱

异常 5月日更

C4C和CRM里获取当前登录用户分配的Organization Unit

汪子熙

CRM SAP C4C Cloud for Customer

使用Excel调用ABAP系统的函数

汪子熙

Excel Office SAP abap

UI5应用部署到Fiori On-Premise和On-Cloud的Launchpad

汪子熙

Fiori SAP UI5 Launchpad

IO

ltc

IO流

存储技术入门,这些硬件应该首先有所了解

SunnyZhang的IT世界

服务器 存储 交换机 san

论:在996的天下,Java程序员该如何高效学习

Java架构师迁哥

科大讯飞语音转文字以及中文分词的Java测试代码

汪子熙

Java 人工智能

SAP CRM WebClient UI里的文件是如何上传到ABAP Netweaver后台的

汪子熙

chrome CRM SAP WebClient UI

玩转直播系列之消息模块演进(3)

vivo互联网技术

Java 服务器 消息系统 直播技术

参与 Apache 顶级开源项目的 N 种方式,Apache Dubbo Samples SIG 成立!

阿里巴巴云原生

开源 开发者 云原生 dubbo 中间件

简单了解 MySQL 中相关的锁

leonsh

MySQL 后端

5分钟速读之Rust权威指南(八)

wzx

rust

Kubernetes 普及系列:容器基础入门

CODING DevOps

Kubernetes

仰望天空,脚踏实地 —— CODING OKR 全新上线

CODING DevOps

团队管理 OKR

超级详细!全网独家首发的SpringCloud Alibaba 到底有多强?

Java 程序员 架构 面试

双非渣硕也能上岸?痛述阿里Java岗7轮技术面经历,险幸上岸

Java 程序员 架构 面试

面向WEB开发人员的Docker(五):部署开发WordPress

devpoint

Docker Wordpress 部署 Docker-compose

程序员写好技术文章的几点小技巧

阿里巴巴云原生

程序员 云原生 写作 写作技巧

为什么5、6月会空缺出大量技术岗?跳槽注意事项+面试官关心什么

Java架构师迁哥

阿里云原生开源大家族加入中科院软件所开源软件供应链点亮计 - 暑期 2021

阿里巴巴云原生

开源 容器 微服务 开发者 云原生

华为HMS生态和1+8+N的交叉点,点透棋局的华为帐号

脑极体

(VMware)ubuntu环境下搭建Swarm+Stack一站式部署容器集群

逸少

Docker Docker Swarm Docker-compose Ubuntu20.04

谷歌发布Gemma 3n预览版和设备函数调用SDK_Google_InfoQ精选文章