写点什么

谷歌全新推出的 LiteRT 加速器为骁龙平台安卓设备的 AI 工作负载注入强劲动力

作者:Sergio De Simone

  • 2025-12-04
    北京
  • 本文字数:924 字

    阅读完需:约 3 分钟

大小:479.29K时长:02:43
谷歌全新推出的LiteRT加速器为骁龙平台安卓设备的AI工作负载注入强劲动力

谷歌为 LiteRT 引入了一个名为Qualcomm AI Engine Direct(QNN)的全新加速器,旨在增强搭载骁龙 8 系列 SoC 的高通安卓设备的设备端 AI 性能。这个加速器带来了显著的性能提升,与 CPU 执行相比速度提升了高达 100 倍,与 GPU 相比也提升了 10 倍。

 

尽管现代安卓设备普遍配备了 GPU 硬件,但谷歌软件工程师 Lu Wang、Wiyi Wanf 和 Andrew Wang 表示,完全依赖它们来执行 AI 任务可能会产生性能瓶颈。例如,他们指出,“在设备上运行一个计算密集型的文本到图像生成模型,并同时处理实时摄像头输入的基于 ML 的分割”,即使高端移动 GPU 也可能不堪重负。这可能导致用户体验卡顿和画面丢帧。

 

不过,许多移动设备现在包括了神经处理单元(NPU),与 GPU 相比,这些定制设计的 AI 加速器可以显著加速 AI 工作负载,并降低功耗。

 

QNN 是谷歌与高通紧密合作开发的,旨在替代之前的 TFLite QNN delegate。它广泛集成了各种 SoC 编译器和运行时,并通过简化的 API 暴露它们,为开发人员提供了一个简化的统一工作流。它支持90个LiteRT操作,目标是实现全模型委托,这是实现最佳性能的关键因素。QNN 还包括专门的内核和优化,进一步增强了 Gemma 和 FastLVM 等 LLM 的性能。

 

谷歌在 72 个 ML 模型上对 QNN 进行了基准测试,其中 64 个成功实现了全 NPU 委托。结果显示,其性能与 CPU 执行相比提升了高达 100 倍,与 GPU 相比提升了 10 倍。

 

在高通最新的旗舰 SoC 骁龙 8 Elite Gen 5 上,性能提升显著:在 NPU 上有超过 56 个模型运行时间少于 5ms,而在 CPU 上只有 13 个模型能做到这一点。这解锁了一系列之前无法实现的实时 AI 体验。



谷歌工程师还开发了一个概念应用,使用了苹果 FastVLM-0.5B 视觉编码模型的优化版本。该应用几乎可以即时解释摄像头的实时场景。在骁龙 8 Elite Gen 5 NPU 上,该模型在 1024×1024 图像上实现了令人印象深刻的首次令牌时间(TTFT)(仅为 0.12 秒),预填充速度超过 11,000 个令牌/秒,解码速度超过 100 个令牌/秒。苹果的模型通过 int8 权重量化和 int16 激活量化进行了优化。根据谷歌工程师的说法,这是解锁 NPU 最强大的高速 int16 内核的关键。

 

QNN 目前仅支持有限的安卓硬件子集,主要是搭载骁龙 8 和骁龙 8+ SoC 的设备。感兴趣的话,可查阅NPU加速指南从GitHub下载LiteRT

 

原文链接:

https://www.infoq.com/news/2025/11/litert-snapdragon-accelerator/

2025-12-04 14:001

评论

发布
暂无评论
发现更多内容

Vue复刻华为官网 (二)

游坦之

10月月更

Vue复刻华为官网 (一)

游坦之

10月月更

统计匹配检索规则的物品数量

掘金安东尼

算法 10月月更

Java | Date类

陌上

Java 编程 10月月更

JVM是什么?Java程序为啥需要运行在JVM中?

wljslmz

Java JVM 虚拟机 10月月更

StarRocks极客营 | 90天,17名新晋贡献者,SQL Planner 实战回顾

StarRocks

数据库

【一Go到底】第二十九天---切片入门

指剑

Go golang 10月月更

【JavaWeb】过滤器和监听器,就这?

游坦之

10月月更

Storm概念与架构

穿过生命散发芬芳

Storm 10月月更

程序的地址分配

计算机基础

Vue实现日期选择器

游坦之

10月月更

整合Mybatis、Servlet、Mysql、Axios、Filter、Session写一个入门级项目:非常适合初接触JavaWeb的小白白来进阶

游坦之

10月月更

数据库&基本SQL语法

w010w

数据库 sql 10月月更

从AI生成视频看人工智能未来发展趋势​

felix

人工智能 AI 图片生成

记一次网络安全应急响应流程

网络安全学海

黑客 网络安全 信息安全 渗透测试 WEB安全

设计模式之禅01单一职责原则

okokabcd

设计模式

【web 开发基础】PHP 自定义函数之函数声明 -PHP 快速入门 (24)

迷彩

函数 10月月更 web开发基础 PHP基础 函数的定义

3分钟了解CDN的工作原理

阿泽🧸

CDN 10月月更

SQL注入的题目

w010w

网络安全 SQL注入 SQL语句 10月月更

【JavaWeb】一篇承载Ajax、Axios、Json的学习笔记~

游坦之

10月月更

达梦数据库主备安装部署

For

jmeter 扩展自定义java 插件

kcnf

SQL注入

w010w

网络安全 WEB安全 SQL注入 10月月更

软件架构 & 研发效率

agnostic

研发效能

Java | DateFormat和SimpleDateFormat类

陌上

Java 编程 10月月更

Java | StringBuilder类/StringBuffer类

陌上

Java 编程 10月月更

2022-10-29:go语言中的defer能非常方便地处理资源释放问题,rust语言里如何实现defer功能呢?

福大大架构师每日一题

rust defer 福大大 RAII

在熬夜中成长

暮春零贰

熬夜 10月月更

【分布式技术专题】「架构实践于案例分析」总结和盘点目前常用分布式技术特别及问题分析

码界西柚

分布式 微服务 10月月更 微服务化

谷歌全新推出的LiteRT加速器为骁龙平台安卓设备的AI工作负载注入强劲动力_Google_InfoQ精选文章