
谷歌发布 Gemma 3n 预览版,可在新的 LiteRT Hugging Face 社区中找到,同时还有许多之前发布的模型。Gemma 3n 是一款支持文本、图像、视频和音频输入的多模态小语言模型。它还支持通过检索增强生成(RAG)进行微调和定制,以及使用新的 AI Edge SDK 进行函数调用。
Gemma 3n 提供两种参数变体,即 Gemma 3n 2B 和 Gemma 3n 4B,均支持文本和图像输入,音频支持在随后推出。与今年早些时候发布的非多模态 Gemma 3 1B 相比,新版本是一个显著的改进,Gemma 3 1B 仅需 529MB 即可在移动 GPU 上每秒处理多达 2585 个词元。
Gemma 3n 非常适合企业级应用场景,开发者可以充分利用设备的全部资源,从而在移动设备上运行更大的模型。例如,现场技术人员可以在没有网络服务的情况下拍摄零件照片并提问。仓库或厨房的工作人员可以在双手忙碌时通过语音更新库存。
谷歌表示,Gemma 3n 使用了选择性参数激活技术,这是一种高效的参数管理方法。这意味着这两个模型包含的参数数量比在推理期间激活的 2B 或 4B 参数要多。
谷歌强调,开发者可以对基础模型进行微调,然后使用 Google AI Edge 提供的新的量化工具对其进行转换和量化。
在最新发布的量化工具中,新的量化方案大幅提升了 int4 后训练量化的质量。与 bf16(许多模型的默认数据类型)相比,int4 量化可将语言模型的大小缩小 2.5 到 4 倍,同时显著降低延迟和峰值内存消耗。
除了微调之外,这些模型还支持在设备上进行检索增强生成,能够将特定于应用程序的数据整合到语言模型中。目前,该功能由 Android 上的 AI Edge RAG 库提供支持,未来将拓展到更多平台。
RAG 库采用了一个简单的、包括几个步骤的流程:数据导入、分块和索引、嵌入生成、信息检索以及使用 LLM 生成响应。它支持对 RAG 流程进行全面定制,包括自定义数据库、分块策略和检索函数。
除了 Gemma 3n,谷歌还发布了目前仅在 Android 上可用的 AI Edge On-device Function Calling SDK,它能够让模型调用特定函数以执行实际的操作。
与纯粹生成文本不同,使用 FC SDK 可以让 LLM 生成结构化的函数调用,用于执行诸如搜索新信息、设置闹钟或预订等操作。
要将 LLM 与外部函数集成,需要指定函数的名称、描述(指导 LLM 何时使用该函数)以及所需的参数。这些元数据将被放置到一个 Tool
对象中,然后通过 GenerativeModel
构造函数传给大语言模型。函数调用 SDK 可以根据你提供的描述从 LLM 接收函数调用,并将执行结果反馈给 LLM。
如果你想深入了解这些新工具,可以参看 Google AI Edge Gallery,这是一个实验性应用程序,展示了各种模型,并支持文本、图像和音频处理。
原文链接:
https://www.infoq.com/news/2025/05/gemma-3n-on-device-inference/
评论