破局终端算力墙：支付宝 xNN-LLM 的端侧大模型实践｜QCon 上海

如果你也关注 Agent、AI 搜索、多模态、工程化等话题，一定不要错过这 100+可落地的实践案例！

10 月 23 日-10 月 25 日，QCon 全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题，以及 AI 时代下的软件研发、可观测、开源等技术实践，邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家，和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师，和你一起重构技术认知与能力边界！

蚂蚁集团 xNN 引擎负责人、支付宝多模态应用实验室研究员朱世艾博士已确认出席并发表题为《破局终端算力墙：支付宝 xNN-LLM 的端侧大模型实践》的主题分享。大模型的能力结合端侧 AI 在体验、成本与隐私保护方面的优势，对于业务应用无疑有着巨大的吸引力。我们可喜的看到终端大模型在各个新款手机上已经有了很好的落地案例，这之中汇聚了基础模型研发、硬件支持和系统层生态的力量。支付宝 APP 作为应用层重要的一员，端侧 AI 有着广泛的使用场景，面向大模型技术的升级也是亟待解决的问题。

然而其中面临的挑战也是巨大的：

1. APP 需要兼顾不同型号和算力的手机，特别是广泛使用的中端芯片；

2. 相对系统层来说，APP 可以用到的资源相对有限，还要保证上层应用的稳定性；

3. 手机上有着非常碎片化的硬件环境，不同 Backend 的特点不同，一致性难以解决；

4. APP 应用的模型通过网络下发部署，对于模型物理尺寸有着严格要求。

本次演讲将介绍支付宝如何在种种限制条件下以高覆盖和低资源消耗为目标，结合低比特量化和硬件加速实现，构建出了适合 APP 生态的端大模型技术 xNN-LLM。为大家展示这一技术在精度、性能和模型覆盖方面的最新进展，以及在支付宝 APP 中的潜在应用方式。

朱世艾博士，蚂蚁集团 xNN 引擎负责人，支付宝多模态应用实验室研究员。2013 年获得香港城市大学博士学位，之后前往加拿大渥太华大学从事博士后研究，2016 年加入蚂蚁集团，具有十多年算法研发和性能优化经验。在蚂蚁期间，先后担任过新春五福、扫一扫、会员等支付宝多个业务的算法负责人，开发了几乎覆盖所有 CV 类任务的超轻量移动端 AI 算法组件。自 2023 年开始担任支付宝移动端研发框架 xNN 的负责人，主导了面向超级 APP 的端侧大模型技术体系建设，致力于在大模型时代推动端侧 AI 技术的产业应用。他在本次会议的详细演讲内容如下：

演讲提纲

1. 背景与挑战

端大模型业界进展：介绍端大模型的发展历程，包括从基模，应用到芯片支持方面的进展
APP 端大模型面临的挑战：在 APP 场景中端 AI 处于什么位置，主要应用场景有哪些，大模型时代面临哪些变化。基于以上问题的技术判断有哪些

2. 适合于 APP 场景的低比特量化方案

LLM 模型量化方案：在各种条件限制下，需要综合考虑精度、模型尺寸和推理友好，从而构建出 xNN-LLM 低比特量化方案
多模态大模型量化方案：介绍量化算法从 LLM 延伸到多模态场景需要做哪些调整，包括多种可选方案的尝试
量化效果对比：介绍当前量化 Pipeline 在不同模型上的精度水位

3. xNN-LLM 异构推理引擎

推理引擎框架设计：面向大模型推理和应用场景特点的 xNN-LLM 框架设计
模型推理实现：为了提升覆盖率，如何充分发挥手机端的异构计算资源。这里介绍 xNN-LLM 在 CPU、GPU 和 NPU 上的实践经验

4. 端大模型能力有应用展望

能力介绍：当下 APP 端大模型具备什么能力，能完成哪些任务
应用展望：在支付宝 APP 中，可能存在的应用场景和应用形式有哪些

5. 端大模型未来展望

从整个手机生态角度来看，各方在端大模型方面可能的合作和协同机制会是什么样

您认为，这样的技术在实践过程中有哪些痛点？

从能力上来说，机型覆盖和能力覆盖之间的冲突
从运维的角度来看，有限资源下充分的共享带来模型更新复杂度增加
从场景来看，端云结合会是安全稳妥的方案，但是实现复杂度比较

演讲亮点

从 APP 应用角度出发，客观务实的阐述技术方案选型、实现技巧和应用模式

听众收益

具有更为广泛应用场景的 APP 上建设端大模型的思路有什么不同
了解到为什么需要算法和引擎之间进行联合优化
当下端大模型能力边界在哪里，未来可能往哪些方向演进

除此之外，本次大会还策划了多模态融合技术与创新应用、混沌工程与全链路压测实践、Data Infra for AI、Agentic AI、加速与反哺：AI 时代的可观测实践、Vibe Coding、端侧大模型的创新与应用、大模型推理的工程实践、AI 搜索技术的深水区、模型训练与微调、具身智能：当 AI 学会“动手思考”、大模型驱动的制造革命、AI4SE：软件研发提质增效实践、AI 重塑视觉创作体验、从“炫技”走向“实用”的 AI 产品、大模型驱动的智能数据分析等 20 多个专题论坛，届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 上海站现场带来前沿技术洞察和一线实践经验。

现在报名即可以享受 9 折优惠，单张门票立省 680 元，详情可联系票务经理 18514549229 咨询。

创作场景

破局终端算力墙：支付宝 xNN-LLM 的端侧大模型实践｜QCon 上海