LiteRT-LM原生支持Gemma 4的多Token预测(Multi-Token Prediction,MTP)草稿器(drafter),可将推理速度提升最高 2.2 倍。该框架已经从 Kotlin 与 C++进行了扩展,新增了对 Swift 和 JavaScript API 的支持。
LiteRT-LM 在 LiteRT(前身为 TensorFlow Lite)之上包含了一层专门的编排逻辑,专为处理大规模语言模型(LLM)而设计。谷歌表示,它是在 Android、iOS 与 Web 等平台上运行 Gemma 4 的运行时,经过了生产环境的验证和高度优化。
其基于 LiteRT 的底层使其能有效应对内存、计算与硬件碎片化等约束,结合了先进的量化模式以及加速的 XNNPACK 和 MLDrift 内核。在编排层面,它采用优化流水线以最小化昂贵的 CPU-GPU 数据传输,支持多 Token 预测并具备先进的会话管理功能。谷歌称这种组合使其成为“针对 Gemma 模型性能最高的运行时环境”。
LiteRT-LM 在 MTP 上采用了推测性解码(speculative decoding),并通过“优化主模型与 MTP 草稿器之间的数据交互”来避免简单实现的常见瓶颈。
为了实现这一点,LiteRT-LM 通过在相同硬件 IP(例如,GPU)上同时执行轻量级的 MTP 草稿器与主模型来实现内存的局部化。在本地内存中管理共享的 KV 缓存和激活态,完全消除了跨 IP 同步与数据传输带来的延迟惩罚。一旦草稿器预测出未来的 token,主模型便使用优化内核对其进行评估,从而在验证阶段最大化并行处理。
基于自身的基准测试,谷歌表示 MTP 解码在 Gemma 4 E2B 上快了 1.6 倍,在 Gemma 4 E4B 上快了 2.2 倍。公司还报告称,无论是预填充(prefill)还是解码(decode)性能,相比 llama.cpp、MLX、Cactus 与 ONNX 等竞争框架提升了 1.8 到 3.7 倍。
LiteRT-LM 将会话管理视为一等特性。它可以保存并恢复 KV 缓存状态,从而在避免昂贵重算的同时无缝续接长时交互,这既能改善用户体验也能提高效率。
另一个重要支柱是内存效率,通过将按层分布的嵌入向量(per-layer embeddings)保持在外部并按需动态加载图像与音频编码器,运行时可以尽可能地保持精简。例如,约 2.58 GB 的 Gemma 4 E2B 模型在 Apple 移动 CPU 上只占用了约 607MB。
系统还强调了 agentic 的能力,原生支持 Gemma 4 的“思考模式(Thinking Mode)”、用于结构化输出的约束解码,以及函数调用(function-calling)。这些功能允许运行时暂停执行、返回结构化的工具调用请求并在随后恢复执行。
随 Gemma 4 一同推出的多 Token 预测草稿器使用推测性解码并行生成多个 token,然后在单次通过的过程中一起进行验证。该方法减少了 VRAM 与计算单元之间的持续数据移动,同时利用了许多预测“显而易见”这一事实,这类预测通常不需要像其他情况那么多的计算。
LiteRT-LM已经在GitHub 开源,并包括用于桌面试验的CLI,以及用于在设备上运行的移动示例应用。
查看英文原文:Google LiteRT-LM Speeds Up Local Inference Up to 2.2x With Gemma 4 Multi-Token Prediction





