智能体刷屏的背后,是 AI 应用拐点的来临?AICon 北京站议程重磅公布,50+ 硬核分享不容错过 了解详情
写点什么

小爱同学在高性能端侧大模型推理的实践|AICon 北京

  • 2025-06-05
    北京
  • 本文字数:990 字

    阅读完需:约 3 分钟

大小:553.33K时长:03:08
小爱同学在高性能端侧大模型推理的实践|AICon北京

6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。


小米小爱同学端侧 AI 负责人杨永杰已确认出席并发表题为《小爱同学在高性能端侧大模型推理的实践》的主题分享。随着大模型相关技术的迅速发展,端侧大模型也越来越受到重视,端侧部署大模型具有隐私安全高、推理成本低、无网可响应等优点,但端侧面临资源受限的核心挑战,比如算力、内存、内存带宽、CPU 等资源,导致大模型难以在端侧商业化落地。杨永杰及其团队通过自研高性能的大模型推理框架克服了资源的限制,实现了端侧大模型在多个业务上商业化落地,最终以极低的资源占用实现业界领先的推理速度(超过 180 toks/s)。



杨永杰毕业于中山大学,现任小爱同学端侧 AI 负责人,曾为华为端侧 AI 技术专家,一直致力于端侧模型推理相关的技术研究和应用,主导小爱同学全离线链路的构建,并逐步升级到端侧大模型,使得离线小爱同学响应更智能、更迅速。他在本次会议的详细演讲内容如下:


演讲提纲

1. 端侧大模型推理面临的挑战

2. 端侧大模型推理架构

  • 小爱同学业务差异化诉求

  • 多业务共享基座架构,支持并发推理

  • 跨硬件平台推理

  • 大模型热更新策略

3. 端侧大模型高性能推理技术

  • 基于端侧硬件资源限制的优化

  • 大模型低比特量化

  • CPU 高性能计算

  • 高加速比的并行解码策略

4. 端侧大模型未来技术展望


技术实践痛点

  • 资源有限的情况下,怎么支持多个业务,以及支持多个任务并发

  • 大模型推理占用带宽高,会导致系统应用卡顿,这里需要做 tradeoff


演讲前沿亮点

  • 有限资源下的高性能推理,达到 180toks/s

  • 支持多业务大模型并发推理


听众收益

  • 了解到目前端侧大模型部署的挑战

  • 了解端侧大模型推理的架构

  • 了解端侧大模型高性能推理技术


除此之外,本次大会还策划了AI Agent 构建与多场景实践多模态实践与应用大模型助力研发的实战经验AI 在业务运营中的深度落地大模型时代的数据处理与分析AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-06-05 09:316

评论

发布
暂无评论

400GE燎原前夜,智能IP网络的核心路由器巅峰际会

脑极体

架构师训练营第六周作业

R20114

极客大学架构师训练营

第六周总结

秦宝齐

作业

架构师训练营第 6 周作业二

不谈

2020-07-11-第六周作业

路易斯李李李

React与前端开发发展史

Geek_z9ygea

1. react起始 | 2020年前端再入门系列连载

chaozh

大前端 React

Week 6 作业

Shawn

你要的《Spring系列源码解读》PDF它来了

z小赵

Java spring

架构师训练营第六周总结

一剑

分布式系统架构作业

qihuajun

用Roslyn做个JIT的AOP

八苦-瞿昙

技术 随笔杂谈 aop 代理 框架

区块链扩张路径变局:从技术比拼转向生态落地

CECBC

week6.课后作业

个人练习生niki👍

极客大学架构师训练营

架构师训练营 Week 06 作业

Wancho

架构师第六周作业及总结

傻傻的帅

架构师训练营第六周作业

一剑

Rust所有权,可转可借

袁承兴

rust 指针 函数调用 引用 内存管理

第6周总结

andy

LeetCode题解:15. 三数之和,JavaScript双循环+HashMap,详细注释

Lee Chen

大前端 LeetCode

对CAP的理解

朱月俊

架构设计篇之中台战略思想与落地

小诚信驿站

架构设计 刘晓成 中台战略 服务化改造

java 后端博客系统文章系统——No5

猿灯塔

Java

CAP原理

chenzt

第六周作业

秦宝齐

学习 极客大学架构师训练营

分布式系统架构学习总结(分布式数据库和NoSQL)

qihuajun

记一次Apache的代码导致生产问题

root

Java Apache spring BeanUtils

用“实例化需求”,让需求澄清更高效

小隐乐乐

架构师训练营 Week 06 总结

Wancho

CAP Theorem

dongge

面向对象编程学习

一叶知秋

小爱同学在高性能端侧大模型推理的实践|AICon北京_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章