写点什么

小爱同学在高性能端侧大模型推理的实践|AICon 北京

  • 2025-06-05
    北京
  • 本文字数:990 字

    阅读完需:约 3 分钟

大小:553.33K时长:03:08
小爱同学在高性能端侧大模型推理的实践|AICon北京

6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。


小米小爱同学端侧 AI 负责人杨永杰已确认出席并发表题为《小爱同学在高性能端侧大模型推理的实践》的主题分享。随着大模型相关技术的迅速发展,端侧大模型也越来越受到重视,端侧部署大模型具有隐私安全高、推理成本低、无网可响应等优点,但端侧面临资源受限的核心挑战,比如算力、内存、内存带宽、CPU 等资源,导致大模型难以在端侧商业化落地。杨永杰及其团队通过自研高性能的大模型推理框架克服了资源的限制,实现了端侧大模型在多个业务上商业化落地,最终以极低的资源占用实现业界领先的推理速度(超过 180 toks/s)。



杨永杰毕业于中山大学,现任小爱同学端侧 AI 负责人,曾为华为端侧 AI 技术专家,一直致力于端侧模型推理相关的技术研究和应用,主导小爱同学全离线链路的构建,并逐步升级到端侧大模型,使得离线小爱同学响应更智能、更迅速。他在本次会议的详细演讲内容如下:


演讲提纲

1. 端侧大模型推理面临的挑战

2. 端侧大模型推理架构

  • 小爱同学业务差异化诉求

  • 多业务共享基座架构,支持并发推理

  • 跨硬件平台推理

  • 大模型热更新策略

3. 端侧大模型高性能推理技术

  • 基于端侧硬件资源限制的优化

  • 大模型低比特量化

  • CPU 高性能计算

  • 高加速比的并行解码策略

4. 端侧大模型未来技术展望


技术实践痛点

  • 资源有限的情况下,怎么支持多个业务,以及支持多个任务并发

  • 大模型推理占用带宽高,会导致系统应用卡顿,这里需要做 tradeoff


演讲前沿亮点

  • 有限资源下的高性能推理,达到 180toks/s

  • 支持多业务大模型并发推理


听众收益

  • 了解到目前端侧大模型部署的挑战

  • 了解端侧大模型推理的架构

  • 了解端侧大模型高性能推理技术


除此之外,本次大会还策划了AI Agent 构建与多场景实践多模态实践与应用大模型助力研发的实战经验AI 在业务运营中的深度落地大模型时代的数据处理与分析AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-06-05 09:314910

评论

发布
暂无评论

带你读Paper丨分析ViT尚存问题和相对应的解决方案

华为云开发者联盟

论文阅读 华为云 Vision Transformer 卷积核

华为宣布启动“开源雨林”计划,与社区伙伴共迎开源挑战

🚄【Redis基础指南】推荐给大家的「主从模式」+「缓存穿透」的学习小贴士(提炼优化)

码界西柚

redis Redis缓存穿透 10月月更

Android性能优化之Android 10+ dex2oat实践

字节跳动终端技术

字节跳动 移动开发 Android; 火山引擎

沈抚示范区·“华为云杯”2021全国AI大赛圆满落幕

华为云开发者联盟

人工智能 华为云 modelarts AppCube AI大赛

腾讯云原生数据库 TDSQL-C荣获“云原生卓越技术提供商”奖项

腾讯云数据库

数据库 tdsql

Redis和tdsql数据异地同步(迁移)案例

腾讯云数据库

数据库 tdsql

云原生数据库TDSQL-C和传统主备方式数据库有什么区别?

腾讯云数据库

数据库 tdsql

必须得会的汽车ECU研发基础--ECU是什么1

SOA开发者

TDSQL交易型分布式数据库背景分析

腾讯云数据库

数据库 tdsql

从用户关系看产品发展

石云升

产品经理 产品思维 产品分析 10月月更

这本笔记!仅需16个小时,让你像阿里P7一样掌握Spring源码解析

Java 架构 面试 程序人生 编程语言

使用AI在原神里自动钓鱼,扫描Git仓库泄露的密码 【蛮三刀酱的Github周刊第三期】

Zhendong

GitHub

ERP系统能帮你做些什么?ERP系统的部署类型哪个更适合你?

低代码小观

企业 企业管理 信息化管理 流程管理

「IM开源推荐」前微信技术专家打造,golang实现,一键部署,客户端SDK全平台支持,轻松替代IM云服务

OpenIM

盘盘 DevOps“衍生品”: DevSecOps、NoOps、AIOps

飞算JavaAI开发助手

MyCAT、DRDS、TIDB、TDSQL、TBase 在实现分布式事务时的区别及其各自的优势?

腾讯云数据库

数据库 tdsql

🐬【MySQL技术专题】该换换你的数据库版本了,让我们一同迎接8.0的到来哦!(初探篇)

码界西柚

MySQL 运维 MySQL8.0 MySQL 数据库 10月月更

一文说清楚css3具有颠覆意义的2D转换效果

你好bk

CSS html css3 大前端 html/css

Groovy入门常用语法

FunTester

Java 语法 测试开发 Groovy FunTester

【Python自动化测试网站推荐】免费资源网址,帮你找到所有想要的资源!!

程序员阿沐

北京博睿宏远数据科技股份有限公司声明

博睿数据

一文读懂 OceanBase 数据库的SLog日志

OceanBase 数据库

oceanbase OceanBase 开源 OceanBase 社区版 OceanBase 数据库大赛

解读世界互联网大会新品——智能运维2.0,管运提效再升级

云计算

报名|飞桨中国行- AI赋能软硬件产品创新

百度大脑

人工智能 百度 飞桨

号角声响!联想图像发起“百家百试”项目第二期,诠释“真国货之光”

出自阿里P8之手的这份微服务架构实践手册,为何能霸榜GitHub一周

进击的王小二

Java 架构 分布式 微服务

ERP对你有帮助吗?ERP是什么时候开始出现的?

低代码小观

管理 企业 企业管理 运营管理 企业管理系统

8. 这篇博客,把python从数值到模块、到字典、到元组,真python入门复习教程通览

梦想橡皮擦

10月月更

kubernetes pod访问不了外网但是宿主机可以

ilinux

流计算 Oceanus 限量1元秒杀,立省2000元

腾讯云大数据

小爱同学在高性能端侧大模型推理的实践|AICon北京_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章