内容介绍

从指令集突破到多核协同:Arm SME2 在端侧大语言模型中的极致优化

随着生成式 AI 向端侧设备(智能手机、AI PC)加速普及,如何在受限的功耗与内存下实现大模型的极致推理,成为行业核心挑战。Arm 最新推出的 SME2(Scalable Matrix Extension 2)指令集为打破端侧算力瓶颈提供了革命性的硬件基础。
本次演讲将深度解密阿里 MNN 推理引擎如何“榨干” SME2 的极致性能。首先,我们将从微架构切入,介绍如何利用 SME2 的二维矩阵寄存器(ZA Array)与查表指令(LUT),实现大模型 INT4 权重的极速解压与高效矩阵乘计算;其次,针对当前移动 SoC(如 iPhone 16 Pro Max)中 SME2 硬件单元数量受限导致的多线程性能反噬问题,我们将首次公开 MNN 独创的 “SME2 + NEON 异构协同调度” 机制。通过引入阶段感知(Prefill vs Decode)的动态负载分配与权重在线重排(On-the-fly reordering)技术,MNN 成功化解了算力争抢与内存开销的矛盾。
实测表明,该方案在端侧实现了接近桌面级的推理体验,Prefill 阶段性能飙升达 2.0~3.8 倍,最高吞吐量突破 892 tok/s。本议题将为端侧 AI 开发者提供一套从指令集到底层调度的全链路性能优化指南。

微信终端 AI 计算引擎 XNet 的 Arm SME2 优化实践

XNet 是微信高性能计算团队针对终端 AI 业务需求,自主研发的跨平台、高性能、轻量化的计算引擎。本次分享将介绍 XNet 在 Arm 新一代矩阵计算 SME 指令集上的性能优化实践,探讨如何释放端侧 Arm CPU 的计算潜能,满足日益增长的端侧 AI 算力需求。

主持人

潘逢治|Arm China 软件生态高级市场经理

嘉宾

杨经邦(酒七)|阿里巴巴 MNN 引擎开发工程师
许志耿|微信高性能计算专家

评论

发布
暂无评论