高能研讨会｜Arm SME2 赋能端侧 AI：极致推理性能实践_芯片&算力_王玮

内容介绍

从指令集突破到多核协同：Arm SME2 在端侧大语言模型中的极致优化

随着生成式 AI 向端侧设备（智能手机、AI PC）加速普及，如何在受限的功耗与内存下实现大模型的极致推理，成为行业核心挑战。Arm 最新推出的 SME2（Scalable Matrix Extension 2）指令集为打破端侧算力瓶颈提供了革命性的硬件基础。
本次演讲将深度解密阿里 MNN 推理引擎如何“榨干” SME2 的极致性能。首先，我们将从微架构切入，介绍如何利用 SME2 的二维矩阵寄存器（ZA Array）与查表指令（LUT），实现大模型 INT4 权重的极速解压与高效矩阵乘计算；其次，针对当前移动 SoC（如 iPhone 16 Pro Max）中 SME2 硬件单元数量受限导致的多线程性能反噬问题，我们将首次公开 MNN 独创的 “SME2 + NEON 异构协同调度” 机制。通过引入阶段感知（Prefill vs Decode）的动态负载分配与权重在线重排（On-the-fly reordering）技术，MNN 成功化解了算力争抢与内存开销的矛盾。
实测表明，该方案在端侧实现了接近桌面级的推理体验，Prefill 阶段性能飙升达 2.0~3.8 倍，最高吞吐量突破 892 tok/s。本议题将为端侧 AI 开发者提供一套从指令集到底层调度的全链路性能优化指南。

微信终端 AI 计算引擎 XNet 的 Arm SME2 优化实践

XNet 是微信高性能计算团队针对终端 AI 业务需求，自主研发的跨平台、高性能、轻量化的计算引擎。本次分享将介绍 XNet 在 Arm 新一代矩阵计算 SME 指令集上的性能优化实践，探讨如何释放端侧 Arm CPU 的计算潜能，满足日益增长的端侧 AI 算力需求。

主持人

潘逢治｜Arm China 软件生态高级市场经理

嘉宾

杨经邦（酒七）｜阿里巴巴 MNN 引擎开发工程师
许志耿｜微信高性能计算专家

创作场景