小爱同学在高性能端侧大模型推理的实践｜AICon北京_AI&大模型_AICon 全球人工智能开发与应用大会



 写点什么



大小：553.33K时长：03:08

6 月 27 日-6 月 28 日，AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践，邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家，深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。

小米小爱同学端侧 AI 负责人杨永杰已确认出席并发表题为《小爱同学在高性能端侧大模型推理的实践》的主题分享。随着大模型相关技术的迅速发展，端侧大模型也越来越受到重视，端侧部署大模型具有隐私安全高、推理成本低、无网可响应等优点，但端侧面临资源受限的核心挑战，比如算力、内存、内存带宽、CPU 等资源，导致大模型难以在端侧商业化落地。杨永杰及其团队通过自研高性能的大模型推理框架克服了资源的限制，实现了端侧大模型在多个业务上商业化落地，最终以极低的资源占用实现业界领先的推理速度（超过 180 toks/s）。

杨永杰毕业于中山大学，现任小爱同学端侧 AI 负责人，曾为华为端侧 AI 技术专家，一直致力于端侧模型推理相关的技术研究和应用，主导小爱同学全离线链路的构建，并逐步升级到端侧大模型，使得离线小爱同学响应更智能、更迅速。他在本次会议的详细演讲内容如下：

演讲提纲
1. 端侧大模型推理面临的挑战
2. 端侧大模型推理架构
小爱同学业务差异化诉求
多业务共享基座架构，支持并发推理
跨硬件平台推理
大模型热更新策略
3. 端侧大模型高性能推理技术
基于端侧硬件资源限制的优化
大模型低比特量化
CPU 高性能计算
高加速比的并行解码策略
4. 端侧大模型未来技术展望

技术实践痛点
资源有限的情况下，怎么支持多个业务，以及支持多个任务并发
大模型推理占用带宽高，会导致系统应用卡顿，这里需要做 tradeoff

演讲前沿亮点
有限资源下的高性能推理，达到 180toks/s
支持多业务大模型并发推理

听众收益
了解到目前端侧大模型部署的挑战
了解端侧大模型推理的架构
了解端侧大模型高性能推理技术

除此之外，本次大会还策划了AI Agent 构建与多场景实践、多模态实践与应用、大模型助力研发的实战经验、AI 在业务运营中的深度落地、大模型时代的数据处理与分析、AI 变革下的工程师等 10 多个专题论坛，届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。

现在报名即可以享受 9 折优惠，单张门票立省 580 元，详情可扫码或联系票务经理 13269078023 咨询。

发布

暂无评论

创作场景

小爱同学在高性能端侧大模型推理的实践｜AICon 北京

评论

“明星级”人形机器人[波士顿动力]宣布裁员！

华为周智勇：“一切即一，一即一切”，加速优化智能企业数字治理

宋章明｜工业数据管理模式变革驱动下，重新想象工业设备管理

微信native支付对接案例详解

一文讲清数据库的分库分表

团队测试流程如何制定和实施

创作场景

小爱同学在高性能端侧大模型推理的实践｜AICon 北京

评论

推荐阅读

电子书

大厂实战PPT下载