写点什么

Arm 发布全新 Armv9 边缘 AI 计算平台,可运行超 10 亿参数端侧 AI 模型

  • 2025-03-06
    北京
  • 本文字数:1304 字

    阅读完需:约 4 分钟

大小:738.75K时长:04:12
Arm发布全新Armv9边缘AI计算平台,可运行超10亿参数端侧AI模型

近日,Arm 正式发布了其全球首款 Armv9 边缘 AI 计算平台。据介绍,该平台以全新的 Arm Cortex-A320 CPU 和边缘 AI 加速器 Arm Ethos-U85 NPU 为核心,可支持运行超 10 亿参数的端侧 AI 模型。

Cortex-A320 与 Ethos-U85 的深度配合


全新发布的 Arm Cortex-A320 是 Arm 首款基于 Armv9 架构的超高能效 CPU,专为物联网应用优化,也是该全新计算平台的核心组件。与上一代 Cortex-A35 相比,Cortex-A320 在机器学习(ML)计算能力上提升了 10 倍,标量计算性能提高了 30%。同时其能效比较 Cortex-A520 提升了 50%。此外,Cortex-A320 支持四核共享集群,可根据不同需求灵活扩展,满足各种应用场景的需求。

 

作为此次边缘 AI 计算平台的另一核心,对 Transformer 网络具有原生支持的 Ethos-U85 NPU 是 Arm Ethos-U 产品线中的第三代 NPU。与前一代产品相比,该 NPU 的性能提升了四倍,能效提高了 20%,并且可在主流网络上实现高达 85%的利用率。

 

Cortex-A320 CPU 和 Ethos-U85 NPU 实现了深度配合:Cortex-A320 可以为 Ethos-U85 提供更高的内存容量与带宽,让大模型在 Ethos-U85 上的执行如虎添翼;任何开发者们不希望在 Ethos-U85 上运行的 AI 操作,可以回退到 Cortex-A320,利用其 Neon/SVE2 引擎更灵活有效地在 CPU 上执行。这使智能物联网与消费类电子生态系统能够在正确的时间,并在合适的地方运行最适合的工作负载。

 

与去年发布的基于 Cortex-M85 搭配 Ethos-U85 的平台相比,全新 Armv9 边缘 AI 计算平台的 ML 计算性能提升了 8 倍,带来了显著的 AI 计算能力突破,助力大模型与生成式 AI 在物联网领域的落地。

安全性增强与 AI 计算优化


值得一提的是,Cortex-A320 充分利用了 Armv9 增强的安全性和 AI 计算特性,这些特性此前已经在其他市场得到广泛应用,而 Arm 现在也将其引入物联网领域。

 

在安全性方面,Cortex-A320 引入了 Secure EL2,该特性增强了 TrustZone 内部的隔离性,支持更安全地运行软件容器;指针验证/分支目标识别(PACBTI)可有效缓解跳转和返回编程中的指针安全隐患;内存标记扩展(MTE)可通过内存标记机制,使黑客更难利用漏洞进行攻击,提高整体系统安全性。

 

在 AI 计算能力方面,增强的 Neon 和可伸缩向量扩展(SVE2)技术,可提供更高效的 ML 计算能力;支持 BFloat16 等新数据类型,提高了 AI 计算的精度和能效;而新增的矩阵乘法指令,优化了 AI 和 ML 计算性能,加速神经网络推理和训练任务。

 

去年,Arm 推出了 Kleidi 软件库,并将其引入了智能手机和服务器市场,它包含优化 AI 负载在 Arm CPU 上执行的 KleidiAI 和加速机器视觉的 KleidiCV。现在,Arm 将 Kleidi 扩展到了物联网。KleidiAI 是一套专为 AI 框架开发者设计的计算内核,让开发者可以无缝地在 Arm CPU 上获取最佳性能。它支持如 Neon 和 SVE2 等 Armv9 架构的关键特性,大幅提升了 AI 的计算效率。此外,KleidiAI 已经集成到多个主流 AI 框架,包括 Llama.cpp、ExecuTorch 和 LiteRT(通过 XNNPACK),可加速 Meta Llama 3 和 Phi-3 等主流 AI 大模型,进一步释放 AI 计算性能。

 

从 AI 发展初期开始,Arm 技术一直推动着边缘智能创新的发展轨迹。此次发布的全新 Armv9 边缘 AI 计算平台可覆盖多个应用场景,实现包括视觉和自然语言在内的多模态的环境感知与理解,进而运行智能体 AI、自主规划、执行复杂任务。展望未来,Arm 全新的边缘 AI 计算平台对物联网生态系统带来的影响值得期待。

 

2025-03-06 11:4610585
用户头像
李冬梅 加V:busulishang4668

发布了 1179 篇内容, 共 801.0 次阅读, 收获喜欢 1299 次。

关注

评论

发布
暂无评论

我与声网Agora

june

修改OpenCV一行代码,提升14%图像匹配效果

Smile

机器学习 OpenCV Python Turtle 图像处理

Python入门-位运算

123568

Python 入门 位运算

容器 & 服务:Docker应用的Jenkins构建

程序员架构进阶

Docker 容器 七日更 28天写作 2月春节不断更

华云·云场景应用详解|安超DCM给数据中心“做主”

华云数据

CPU高速缓存与极性代码设计

华为云开发者联盟

缓存 数据 cpu 存储

BFF (Backend for frontend)避坑指南

码猿外

架构 微服务 BFF

Mybatis association关联查询

フェイト ゼロ

可能是Java Stream的最佳实践(一)

ES_her0

28天写作

c语言简介

Geek_f510ff

c C语言

基于matlab的控制系统与仿真3-根轨迹、bode图、Nyquist图

AXYZdong

matlab 2月春节不断更

Windows下JMeter分布式压测环境搭建

行者AI

Jmeter

话题讨论 | 如何看待公司发开工红包?

happlyfox

话题讨论 28天写作 2月春节不断更 话题王者 红包

以AI之名 | 给千万级合同管理安上“AI”,华为商务经理工作量大解放!

华为云开发者联盟

人工智能 华为 合同 商务 合同管理

效率工具分享-Quicker

十天、

效率 效率工具 工具 工具软件

kafka consumer group

Eric

新病毒兼容M1芯片,已经感染3万台Mac

Geek_b0cff7

华为云PB级数据库GaussDB(for Redis)解析第二期:Redis消息队列Stream的应用探讨

华为云开发者联盟

数据库

windows10+python3.8.0(anaconda)+MeCab安装总结

lauqasim

Python Mecab 日文分词

数据驱动业务增长的底层逻辑2.0

小飞象@木木自由

产品 数据分析 运营 业务增长

Elasticsearch入门,这一篇就够了

知南茶温暖

浅谈Python中遇到extend和append,该怎么区别使用

莫陌默

Python 列表 函数

程序员成长第十五篇:编码的注意事项

石云升

程序员 28天写作 2月春节不断更

cobra-强大的CLI应用程序库

happlyfox

GitHub cli 28天写作 2月春节不断更 Go 语言

python与c++区别之print

沈阳

日记 2021年2月24日(周三)

Changing Lin

2月春节不断更

几个小实践带你快速上手MindSpore

华为云开发者联盟

华为 AI mindspore 智慧终端 端边云

设计模式之代理模式

Geek_7cf491

Java 设计模式 代理模式

Spark Shuffle 内部机制(三)

hanke

大数据 spark 开源 数据

带你快速了解Flutter的发展和应用

anyRTC开发者

flutter 音视频 WebRTC 跨平台 sdk

2019年度CMMI V2.0性能报告

IPD产品研发管理

产品 项目管理 性能 质量 CMMI

Arm发布全新Armv9边缘AI计算平台,可运行超10亿参数端侧AI模型_芯片&算力_李冬梅_InfoQ精选文章