谷歌全新推出的LiteRT加速器为骁龙平台安卓设备的AI工作负载注入强劲动力

谷歌为 LiteRT 引入了一个名为Qualcomm AI Engine Direct（QNN）的全新加速器，旨在增强搭载骁龙 8 系列 SoC 的高通安卓设备的设备端 AI 性能。这个加速器带来了显著的性能提升，与 CPU 执行相比速度提升了高达 100 倍，与 GPU 相比也提升了 10 倍。

尽管现代安卓设备普遍配备了 GPU 硬件，但谷歌软件工程师 Lu Wang、Wiyi Wanf 和 Andrew Wang 表示，完全依赖它们来执行 AI 任务可能会产生性能瓶颈。例如，他们指出，“在设备上运行一个计算密集型的文本到图像生成模型，并同时处理实时摄像头输入的基于 ML 的分割”，即使高端移动 GPU 也可能不堪重负。这可能导致用户体验卡顿和画面丢帧。

不过，许多移动设备现在包括了神经处理单元（NPU），与 GPU 相比，这些定制设计的 AI 加速器可以显著加速 AI 工作负载，并降低功耗。

QNN 是谷歌与高通紧密合作开发的，旨在替代之前的 TFLite QNN delegate。它广泛集成了各种 SoC 编译器和运行时，并通过简化的 API 暴露它们，为开发人员提供了一个简化的统一工作流。它支持90个LiteRT操作，目标是实现全模型委托，这是实现最佳性能的关键因素。QNN 还包括专门的内核和优化，进一步增强了 Gemma 和 FastLVM 等 LLM 的性能。

谷歌在 72 个 ML 模型上对 QNN 进行了基准测试，其中 64 个成功实现了全 NPU 委托。结果显示，其性能与 CPU 执行相比提升了高达 100 倍，与 GPU 相比提升了 10 倍。

在高通最新的旗舰 SoC 骁龙 8 Elite Gen 5 上，性能提升显著：在 NPU 上有超过 56 个模型运行时间少于 5ms，而在 CPU 上只有 13 个模型能做到这一点。这解锁了一系列之前无法实现的实时 AI 体验。

谷歌工程师还开发了一个概念应用，使用了苹果 FastVLM-0.5B 视觉编码模型的优化版本。该应用几乎可以即时解释摄像头的实时场景。在骁龙 8 Elite Gen 5 NPU 上，该模型在 1024×1024 图像上实现了令人印象深刻的首次令牌时间（TTFT）（仅为 0.12 秒），预填充速度超过 11,000 个令牌/秒，解码速度超过 100 个令牌/秒。苹果的模型通过 int8 权重量化和 int16 激活量化进行了优化。根据谷歌工程师的说法，这是解锁 NPU 最强大的高速 int16 内核的关键。

QNN 目前仅支持有限的安卓硬件子集，主要是搭载骁龙 8 和骁龙 8+ SoC 的设备。感兴趣的话，可查阅NPU加速指南并从GitHub下载LiteRT。

原文链接：

https://www.infoq.com/news/2025/11/litert-snapdragon-accelerator/

创作场景

谷歌全新推出的 LiteRT 加速器为骁龙平台安卓设备的 AI 工作负载注入强劲动力