阿里云飞天发布时刻,领先大模型限免,超7000万 tokens免费体验 了解详情
写点什么

小爱同学在高性能端侧大模型推理的实践|AICon 北京

  • 2025-06-05
    北京
  • 本文字数:990 字

    阅读完需:约 3 分钟

大小:553.33K时长:03:08
小爱同学在高性能端侧大模型推理的实践|AICon北京

6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。


小米小爱同学端侧 AI 负责人杨永杰已确认出席并发表题为《小爱同学在高性能端侧大模型推理的实践》的主题分享。随着大模型相关技术的迅速发展,端侧大模型也越来越受到重视,端侧部署大模型具有隐私安全高、推理成本低、无网可响应等优点,但端侧面临资源受限的核心挑战,比如算力、内存、内存带宽、CPU 等资源,导致大模型难以在端侧商业化落地。杨永杰及其团队通过自研高性能的大模型推理框架克服了资源的限制,实现了端侧大模型在多个业务上商业化落地,最终以极低的资源占用实现业界领先的推理速度(超过 180 toks/s)。



杨永杰毕业于中山大学,现任小爱同学端侧 AI 负责人,曾为华为端侧 AI 技术专家,一直致力于端侧模型推理相关的技术研究和应用,主导小爱同学全离线链路的构建,并逐步升级到端侧大模型,使得离线小爱同学响应更智能、更迅速。他在本次会议的详细演讲内容如下:


演讲提纲

1. 端侧大模型推理面临的挑战

2. 端侧大模型推理架构

  • 小爱同学业务差异化诉求

  • 多业务共享基座架构,支持并发推理

  • 跨硬件平台推理

  • 大模型热更新策略

3. 端侧大模型高性能推理技术

  • 基于端侧硬件资源限制的优化

  • 大模型低比特量化

  • CPU 高性能计算

  • 高加速比的并行解码策略

4. 端侧大模型未来技术展望


技术实践痛点

  • 资源有限的情况下,怎么支持多个业务,以及支持多个任务并发

  • 大模型推理占用带宽高,会导致系统应用卡顿,这里需要做 tradeoff


演讲前沿亮点

  • 有限资源下的高性能推理,达到 180toks/s

  • 支持多业务大模型并发推理


听众收益

  • 了解到目前端侧大模型部署的挑战

  • 了解端侧大模型推理的架构

  • 了解端侧大模型高性能推理技术


除此之外,本次大会还策划了AI Agent 构建与多场景实践多模态实践与应用大模型助力研发的实战经验AI 在业务运营中的深度落地大模型时代的数据处理与分析AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-06-05 09:314761

评论

发布
暂无评论

让 AI “潜入”物流中心,你的快递很快就到!

华为云开发者联盟

华为 AI 数字化 物流 智慧物流

理解RocketMQ

awen

RocketMQ 翻译 消息中间件

程序员成长第十三篇:做好时间管理

石云升

程序员 时间管理 28天写作 2月春节不断更

我看JAVA 之 String

awen

Java 源码 string

多种多样的语音连麦方式

anyRTC开发者

flutter uni-app ios android WebRTC

架构设计篇之微服务实战笔记(七)

小诚信驿站

架构师 刘晓成 小诚信驿站 28天写作 架构师成长笔记

入驻infoQ了

SwiftDD

平台写手

你是不是一个害怕失去,而拒绝开始的人?

SwiftDD

读书笔记 工作体会

我看JAVA 之 Object & JNI

awen

Java jni Object

太秀了!用Excel也能实现和Python数据分析一样的功能!

JackTian

Python 数据分析 Excel 2月春节不断更 实操案例

双非本科生、非大厂,毕业一年,业余净收入20万

不脱发的程序猿

程序员 程序人生 28天写作 二月春节不断更 外包项目

区块链电子证照共享平台--基于区块链的电子证照存证

13530558032

做好 IM/RTC 底层技术服务,帮助开发者打造自己的“Clubhouse”

融云 RongCloud

IM RTC clubhouse

MySQL COUNT(列名) 、COUNT(常量) 和 COUNT(*) 之间的区别

桃子

克服云安全挑战的5种方法

云计算

跨越异构鸿沟,Redis 迁移同步过程中的挑战与解决方案

京东科技开发者

云计算 大数据

《你越迷茫,越要去闯》读书笔记

SwiftDD

读书笔记

全面开放!华为云GaussDB(for openGauss)正式商用发布

华为云开发者联盟

数据 华为云 GaussDB 云数据库 GaussDB(for openGauss)

基于 Flink SQL 构建流批一体的 ETL 数据集成

Apache Flink

flink

android开发视频教程!移动开发者升职加薪的8项技能,成功定级腾讯T3-2

欢喜学安卓

android 程序员 面试 移动开发

Jira Software Data Center 可以免费使用高级路线图啦!

Atlassian

DevOps 敏捷 Atlassian Jira

UI自动化测试框架_地图测试如何开展呢?

小小娃爱吃甜食

最佳实践 测试 测试落地

超大规模会议技术优化策略 轻松实现 500 人线上流畅沟通

融云 RongCloud

音视频 视频会议

一文带你了解GaussDB(DWS) 的Roach逻辑备份实现原理

华为云开发者联盟

容灾 备份 GaussDB(DWS) 逻辑备份 Roach

万字长文带你解读Redisson分布式锁的源码

鄙人薛某

Java redis 分布式锁 redisson

react代码切割之路由懒加载

前端小猪

React webpack

基于matlab的控制系统与仿真5-simulink仿真模型

AXYZdong

matlab 2月春节不断更

区块链数字版权平台--为内容版权保驾护航

13530558032

用Vue3构建企业级前端应用,TS能让你更轻松点

华为云开发者联盟

Vue 大前端 Vue3 ts 框架

智慧党建APP开发,智慧党建平台的功能

13530558032

android开发视频!Android程序员最大的悲哀是什么?面试真题解析

欢喜学安卓

android 程序员 面试 移动开发

小爱同学在高性能端侧大模型推理的实践|AICon北京_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章