写点什么

Arm 发布全新 Armv9 边缘 AI 计算平台,可运行超 10 亿参数端侧 AI 模型

  • 2025-03-06
    北京
  • 本文字数:1304 字

    阅读完需:约 4 分钟

大小:738.75K时长:04:12
Arm发布全新Armv9边缘AI计算平台,可运行超10亿参数端侧AI模型

近日,Arm 正式发布了其全球首款 Armv9 边缘 AI 计算平台。据介绍,该平台以全新的 Arm Cortex-A320 CPU 和边缘 AI 加速器 Arm Ethos-U85 NPU 为核心,可支持运行超 10 亿参数的端侧 AI 模型。

Cortex-A320 与 Ethos-U85 的深度配合


全新发布的 Arm Cortex-A320 是 Arm 首款基于 Armv9 架构的超高能效 CPU,专为物联网应用优化,也是该全新计算平台的核心组件。与上一代 Cortex-A35 相比,Cortex-A320 在机器学习(ML)计算能力上提升了 10 倍,标量计算性能提高了 30%。同时其能效比较 Cortex-A520 提升了 50%。此外,Cortex-A320 支持四核共享集群,可根据不同需求灵活扩展,满足各种应用场景的需求。

 

作为此次边缘 AI 计算平台的另一核心,对 Transformer 网络具有原生支持的 Ethos-U85 NPU 是 Arm Ethos-U 产品线中的第三代 NPU。与前一代产品相比,该 NPU 的性能提升了四倍,能效提高了 20%,并且可在主流网络上实现高达 85%的利用率。

 

Cortex-A320 CPU 和 Ethos-U85 NPU 实现了深度配合:Cortex-A320 可以为 Ethos-U85 提供更高的内存容量与带宽,让大模型在 Ethos-U85 上的执行如虎添翼;任何开发者们不希望在 Ethos-U85 上运行的 AI 操作,可以回退到 Cortex-A320,利用其 Neon/SVE2 引擎更灵活有效地在 CPU 上执行。这使智能物联网与消费类电子生态系统能够在正确的时间,并在合适的地方运行最适合的工作负载。

 

与去年发布的基于 Cortex-M85 搭配 Ethos-U85 的平台相比,全新 Armv9 边缘 AI 计算平台的 ML 计算性能提升了 8 倍,带来了显著的 AI 计算能力突破,助力大模型与生成式 AI 在物联网领域的落地。

安全性增强与 AI 计算优化


值得一提的是,Cortex-A320 充分利用了 Armv9 增强的安全性和 AI 计算特性,这些特性此前已经在其他市场得到广泛应用,而 Arm 现在也将其引入物联网领域。

 

在安全性方面,Cortex-A320 引入了 Secure EL2,该特性增强了 TrustZone 内部的隔离性,支持更安全地运行软件容器;指针验证/分支目标识别(PACBTI)可有效缓解跳转和返回编程中的指针安全隐患;内存标记扩展(MTE)可通过内存标记机制,使黑客更难利用漏洞进行攻击,提高整体系统安全性。

 

在 AI 计算能力方面,增强的 Neon 和可伸缩向量扩展(SVE2)技术,可提供更高效的 ML 计算能力;支持 BFloat16 等新数据类型,提高了 AI 计算的精度和能效;而新增的矩阵乘法指令,优化了 AI 和 ML 计算性能,加速神经网络推理和训练任务。

 

去年,Arm 推出了 Kleidi 软件库,并将其引入了智能手机和服务器市场,它包含优化 AI 负载在 Arm CPU 上执行的 KleidiAI 和加速机器视觉的 KleidiCV。现在,Arm 将 Kleidi 扩展到了物联网。KleidiAI 是一套专为 AI 框架开发者设计的计算内核,让开发者可以无缝地在 Arm CPU 上获取最佳性能。它支持如 Neon 和 SVE2 等 Armv9 架构的关键特性,大幅提升了 AI 的计算效率。此外,KleidiAI 已经集成到多个主流 AI 框架,包括 Llama.cpp、ExecuTorch 和 LiteRT(通过 XNNPACK),可加速 Meta Llama 3 和 Phi-3 等主流 AI 大模型,进一步释放 AI 计算性能。

 

从 AI 发展初期开始,Arm 技术一直推动着边缘智能创新的发展轨迹。此次发布的全新 Armv9 边缘 AI 计算平台可覆盖多个应用场景,实现包括视觉和自然语言在内的多模态的环境感知与理解,进而运行智能体 AI、自主规划、执行复杂任务。展望未来,Arm 全新的边缘 AI 计算平台对物联网生态系统带来的影响值得期待。

 

2025-03-06 11:4610120
用户头像
李冬梅 加V:busulishang4668

发布了 1093 篇内容, 共 707.4 次阅读, 收获喜欢 1243 次。

关注

评论

发布
暂无评论

Fabric.js 圆形笔刷

德育处主任

canvas 前端可视化 Fabric.js 6月月更 前端画板

java虚拟机启动过程解析

乌龟哥哥

6月月更

Neo4j 知识图谱的图数据科学-如何助力数据科学家提升数据洞察力线上研讨会于6月8号举行

GPU算力

彰显个性│博客园的自定义主题

主题 可视化看板 6月月更

C#入门系列(二) -- 程序结构

陈言必行

C# 6月月更

纯CSS:动态渐变背景【一分钟学会】

德育处主任

CSS css3 纯CSS css特效 6月月更

区块链技术促进医药冷链物流更加可控和智能化

CECBC

写Python爬虫,服务器返回数据加密了,套路解决法~,出版社,出版社

梦想橡皮擦

6月月更

王者荣耀商城异地多活架构设计

踩着太阳看日出

架构训练营

LLVM之父Chris Lattner:模块化设计决定AI前途,不服来辩

OneFlow

机器学习 深度学习 AI

Python的教程

芯动大师

Python编程 6月月更

私有化IM即时通讯怎样在保障企业安全下提高效率?

BeeWorks

RxJS系列02:可观察者 Observables

代码与野兽

6月月更

用乐高玩转Scrum,轻松拿CSM证书

ShineScrum

Scrum ScrumMaster CSM 乐高

2022年SaaS的10个有趣趋势

小炮

CC2530 GPIO口输出配置说明​

DS小龙哥

6月月更

Django基础-1

zyf

django 6月月更

天猫精灵的自定义语音技能创建流程

汪子熙

人工智能 机器学习 机器人 机器人流程自动化 6月月更

推进流程挖掘技术发展,信通院首轮流程挖掘评测预报名正式启动

王吉伟频道

RPA 信通院 流程挖掘 流程挖掘评测 行业标准

【愚公系列】2022年06月 二十三种设计模式(十九)-观察者模式(Observer Pattern)

愚公搬代码

6月月更

Django API 开发:Todo 应用的 React 前端

宇宙之一粟

django React API 6月月更

静态路由,YYDS

wljslmz

网络工程师 6月月更 静态路由 路由协议

包装类这颗语法糖,其实并不甜

L

Java

Flutter如何一键唤起

坚果

6月月更

NFT,元宇宙的通行证

CECBC

最强分布式事务框架是怎么炼成的?

峨嵋闲散人

分布式事务 云原生 分库分表 无侵入 dbmesh

在线HTML转PERL工具

入门小站

工具

发布一个轻量级的 Elasticsearch 压测工具 - Loadgen

极限实验室

elasticsearch 极限实验室 loadgen 压测工具 esrally

DBNet实战:详解DBNet训练与测试(pytorch)

AI浩

人工智能 6月月更

火遍全网的AI给老照片上色,这里有一份详细教程!

博文视点Broadview

聊聊 Sharding-Jdbc 的简单使用

Nick

MySQL 分库分表 中间件 ShardingJDBC 6月月更

Arm发布全新Armv9边缘AI计算平台,可运行超10亿参数端侧AI模型_芯片&算力_李冬梅_InfoQ精选文章