谷歌LiteRT-LM通过Gemma 4多Token预测将本地推理速度提升了最高2.2倍

LiteRT-LM原生支持Gemma 4的多Token预测（Multi-Token Prediction，MTP）草稿器（drafter），可将推理速度提升最高 2.2 倍。该框架已经从 Kotlin 与 C++进行了扩展，新增了对 Swift 和 JavaScript API 的支持。

LiteRT-LM 在 LiteRT（前身为 TensorFlow Lite）之上包含了一层专门的编排逻辑，专为处理大规模语言模型（LLM）而设计。谷歌表示，它是在 Android、iOS 与 Web 等平台上运行 Gemma 4 的运行时，经过了生产环境的验证和高度优化。

其基于 LiteRT 的底层使其能有效应对内存、计算与硬件碎片化等约束，结合了先进的量化模式以及加速的 XNNPACK 和 MLDrift 内核。在编排层面，它采用优化流水线以最小化昂贵的 CPU-GPU 数据传输，支持多 Token 预测并具备先进的会话管理功能。谷歌称这种组合使其成为“针对 Gemma 模型性能最高的运行时环境”。

LiteRT-LM 在 MTP 上采用了推测性解码（speculative decoding），并通过“优化主模型与 MTP 草稿器之间的数据交互”来避免简单实现的常见瓶颈。

为了实现这一点，LiteRT-LM 通过在相同硬件 IP（例如，GPU）上同时执行轻量级的 MTP 草稿器与主模型来实现内存的局部化。在本地内存中管理共享的 KV 缓存和激活态，完全消除了跨 IP 同步与数据传输带来的延迟惩罚。一旦草稿器预测出未来的 token，主模型便使用优化内核对其进行评估，从而在验证阶段最大化并行处理。

基于自身的基准测试，谷歌表示 MTP 解码在 Gemma 4 E2B 上快了 1.6 倍，在 Gemma 4 E4B 上快了 2.2 倍。公司还报告称，无论是预填充（prefill）还是解码（decode）性能，相比 llama.cpp、MLX、Cactus 与 ONNX 等竞争框架提升了 1.8 到 3.7 倍。

LiteRT-LM 将会话管理视为一等特性。它可以保存并恢复 KV 缓存状态，从而在避免昂贵重算的同时无缝续接长时交互，这既能改善用户体验也能提高效率。

另一个重要支柱是内存效率，通过将按层分布的嵌入向量（per-layer embeddings）保持在外部并按需动态加载图像与音频编码器，运行时可以尽可能地保持精简。例如，约 2.58 GB 的 Gemma 4 E2B 模型在 Apple 移动 CPU 上只占用了约 607MB。

系统还强调了 agentic 的能力，原生支持 Gemma 4 的“思考模式（Thinking Mode）”、用于结构化输出的约束解码，以及函数调用（function-calling）。这些功能允许运行时暂停执行、返回结构化的工具调用请求并在随后恢复执行。

随 Gemma 4 一同推出的多 Token 预测草稿器使用推测性解码并行生成多个 token，然后在单次通过的过程中一起进行验证。该方法减少了 VRAM 与计算单元之间的持续数据移动，同时利用了许多预测“显而易见”这一事实，这类预测通常不需要像其他情况那么多的计算。

LiteRT-LM已经在GitHub 开源，并包括用于桌面试验的CLI，以及用于在设备上运行的移动示例应用。

查看英文原文：Google LiteRT-LM Speeds Up Local Inference Up to 2.2x With Gemma 4 Multi-Token Prediction

创作场景

谷歌 LiteRT-LM 通过 Gemma 4 多 Token 预测将本地推理速度提升了最高 2.2 倍