写点什么

谷歌发布新版 LiteRT,增强设备机器学习推理能力

  • 2025-05-31
    北京
  • 本文字数:918 字

    阅读完需:约 3 分钟

大小:470.54K时长:02:40
谷歌发布新版LiteRT,增强设备机器学习推理能力

LiteRT(之前的 TensorFlow Lite)新版本已发布,引入了一个新的 API 来简化设备上的机器学习推理,提升 GPU 加速性能,支持高通 NPU(神经处理单元)加速器,并增加了高级推理功能。


新版本 LiteRT 的一个目标是让开发者可以更容易地利用 GPU 和 NPU 加速,这在之前开发者需要使用特定的 API 或供应商特定的 SDK:


在移动 GPU 和 NPU 上加速 AI 模型,可以将模型的速度提高到 CPU 的 25 倍,同时将功耗降低到原来的五分之一。


LiteRT 正对 GPU 引入了 MLDrift,一种新的 GPU 加速实现,与 TFLite 的 GPU 委托相比,它带来了几项改进:包括更高效的基于张量的数据组织、基于上下文和资源的智能计算,以及优化的数据传输和转换。


这使得其性能显著优于 CPU,优于之前版本的 TFLite GPU 委托,甚至优于其他支持 GPU 的框架,尤其是在 CNN 和 Transformer 模型方面。


LiteRT 还针对神经处理单元(NPU)进行了优化,NPU 是专门用于加速推理的 AI 加速器。根据谷歌的内部基准测试,NPU 的性能可以达到 CPU 的 25 倍,同时仅消耗五分之一的电量。然而,目前并没有一种标准化的方式来整合这些加速器,通常需要使用定制的 SDK 和供应商特定的依赖项。


因此,为了提供一种统一的 NPU 开发和部署模型的方式,谷歌与高通和联发科合作,在 LiteRT 中增加了对它们的 NPU 支持,从而能够加速视觉、音频和自然语言处理模型。这包括在安装 LiteRT 时自动下载 SDK,以及通过 Google Play 选择性地分发模型和运行时。


此外,为了进一步简化 GPU 和 NPU 加速的处理过程,谷歌对 LiteRT 的 API 进行了简化,让开发者在创建编译模型时能够指定要使用的后端。这可以通过 CompiledModel::Create 方法来实现,该方法支持 CPU、XNNPack、GPU、NNAPI(用于 NPU)和 EdgeTPU 后端,与之前需要针对每个后端使用不同方法的版本相比,大大简化了流程。


LiteRT API 还引入了一些优化推理性能的功能,尤其针对内存或处理器受限的环境。这些功能包括通过新的 TensorBuffer API 实现的缓冲区互操作性,该 API消除了GPU内存和CPU内存之间的数据复制;以及支持在 CPU、GPU 和 NPU 之间异步、并发地执行模型的不同部分。据谷歌透露,这可以将延迟降低到原来的一半。


LiteRT 可以从GitHub下载,其中包含了几个示例应用程序,演示如何使用它。


原文链接

https://www.infoq.com/news/2025/05/google-litert-on-device-ai/

2025-05-31 14:006002

评论

发布
暂无评论

有了这张微积分知识地图,你可能会爱上高数!

博文视点Broadview

图像处理-Java-指定大小压缩

alexgaoyh

Java 图像处理 图像压缩 压缩算法 指定大小

1688店铺详情数据接口python

tbapi

1688 1688API 1688店铺详情数据接口 1688店铺详情数据采集

大数据处理流程包括哪些环节

悦数图数据库

大数据处理流程

软件测试学习笔记丨Grafana安装

测试人

软件测试

第三届“新科技 星力量” 科技实践案例评选【获奖名单】揭晓

星环科技

大数据 科技 大模型 获奖

如何使用 NFTScan API 检索 NFT 合约地址下 Transactions 数据

NFT Research

API NFT\ NFTScan

万字图解 | 深入揭秘TCP工作原理

云舒编程

三次握手 TCP协议 TCP四次挥手 MSL 滑动窗口

实力认可!TDengine 在“2023 年度金猿季”两大榜单中脱颖而出

TDengine

tdengine 时序数据库

全面升级!Apache HugeGraph 1.2.0版本发布

百度安全

探索技术的无限可能-云原生计算2023年度奖项

字节跳动云原生计算

大数据 云原生

一分钟了解Wireshark的数据包

小齐写代码

如何让你的.NET WebAPI程序支持HTTP3?

不在线第一只蜗牛

Web 开发语言 http3 .NET 7

MySQL并发插入导致死锁

云舒编程

MySQL 并发 死锁

日志资源成本减少35%:新东方可观测体系改造如何降本增效?

TakinTalks稳定性社区

这一年我们上线的运维自动化系统

37丫37

DevOps 运维 自动化 工具 开发.

软件测试学习笔记丨JMeter使用代理录制脚本

测试人

软件测试

AppLink让你的电商运营财务管理自动化

RestCloud

零代码 APPlink 自动化集成

近6成金融机构的选择!华为云GaussDB加快金融核心系统转型

华为云开发者联盟

数据库 后端 华为云 华为云GaussDB 华为云开发者联盟

Footprint 的卓越资金流数据揭示加密货币的神秘叙事

Footprint Analytics

区块链 数据分析 加密货币

万字图解 | 深入揭秘Linux 接收网络数据包

云舒编程

数据包 中断 网卡 linux\ ringbuffer

WorkPlus AI智能客服解决方案,提升企业服务质量

BeeWorks

原来阿里字节员工简历长这样

云舒编程

简历模板 简历 应届生 大厂面试】 #面试

万字图解 | 深入揭秘HTTP工作原理

云舒编程

多路复用 HTTP web socket QUIC 图解网络

新书上线 | 《使用 NGINX 部署和保护 Kubernetes Ingress Controller》中文版

NGINX开源社区

nginx Kubernetes API NGINX Ingress Controller NGINX Service Mesh

指标平台详解(下):第三代指标平台实现了哪些突破?

Aloudata

BI ETL 指标中台; 指标中台

支撑核心系统分布式改造,GaussDB为江南农商银行筑稳根基

华为云开发者联盟

数据库 分布式数据库 后端 华为云 华为云开发者联盟

英特尔实现3D先进封装技术的大规模量产

E科讯

谷歌发布新版LiteRT,增强设备机器学习推理能力_AI&大模型_Sergio De Simone_InfoQ精选文章