9 月 13 日,2025 Inclusion・外滩大会「开源嘉年华」正在限量报名中! 了解详情
写点什么

小爱同学在高性能端侧大模型推理的实践|AICon 北京

  • 2025-06-05
    北京
  • 本文字数:990 字

    阅读完需:约 3 分钟

大小:553.33K时长:03:08
小爱同学在高性能端侧大模型推理的实践|AICon北京

6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。


小米小爱同学端侧 AI 负责人杨永杰已确认出席并发表题为《小爱同学在高性能端侧大模型推理的实践》的主题分享。随着大模型相关技术的迅速发展,端侧大模型也越来越受到重视,端侧部署大模型具有隐私安全高、推理成本低、无网可响应等优点,但端侧面临资源受限的核心挑战,比如算力、内存、内存带宽、CPU 等资源,导致大模型难以在端侧商业化落地。杨永杰及其团队通过自研高性能的大模型推理框架克服了资源的限制,实现了端侧大模型在多个业务上商业化落地,最终以极低的资源占用实现业界领先的推理速度(超过 180 toks/s)。



杨永杰毕业于中山大学,现任小爱同学端侧 AI 负责人,曾为华为端侧 AI 技术专家,一直致力于端侧模型推理相关的技术研究和应用,主导小爱同学全离线链路的构建,并逐步升级到端侧大模型,使得离线小爱同学响应更智能、更迅速。他在本次会议的详细演讲内容如下:


演讲提纲

1. 端侧大模型推理面临的挑战

2. 端侧大模型推理架构

  • 小爱同学业务差异化诉求

  • 多业务共享基座架构,支持并发推理

  • 跨硬件平台推理

  • 大模型热更新策略

3. 端侧大模型高性能推理技术

  • 基于端侧硬件资源限制的优化

  • 大模型低比特量化

  • CPU 高性能计算

  • 高加速比的并行解码策略

4. 端侧大模型未来技术展望


技术实践痛点

  • 资源有限的情况下,怎么支持多个业务,以及支持多个任务并发

  • 大模型推理占用带宽高,会导致系统应用卡顿,这里需要做 tradeoff


演讲前沿亮点

  • 有限资源下的高性能推理,达到 180toks/s

  • 支持多业务大模型并发推理


听众收益

  • 了解到目前端侧大模型部署的挑战

  • 了解端侧大模型推理的架构

  • 了解端侧大模型高性能推理技术


除此之外,本次大会还策划了AI Agent 构建与多场景实践多模态实践与应用大模型助力研发的实战经验AI 在业务运营中的深度落地大模型时代的数据处理与分析AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-06-05 09:315019

评论

发布
暂无评论

数据分析和AI丨知识图谱,AI革命中数据集成和模型构建的关键推动者

Altair RapidMiner

数据分析 知识图谱 #人工智能 altair

腾讯云 AI 代码助手:代码诊断应用实践

CodeBuddy

TiFlash 存算分离架构踩坑实录

TiDB 社区干货传送门

新版本/特性解读 HTAP 场景实践 7.x 实践

TiDB数据库region打散指南

TiDB 社区干货传送门

性能调优 管理与运维 故障排查/诊断

TiDB v8.5 版本正式发布,来看看有什么惊喜吧!

TiDB 社区干货传送门

如何提高测试过程效率?

老张

软件测试 质量保障 效能度量 效能 效能提升

TiDB 优化器 | 执行计划管理及实践

TiDB 社区干货传送门

MobPush集成指南

MobTech袤博科技

SD-WAN在企业组网中的重要作用

Ogcloud

SD-WAN 企业组网 SD-WAN组网 SDWAN SD-WAN国际专线

B 站数据库负责人赵月顺:助力海内外业务增长,百套 TiDB 的选型与运维实战

PingCAP

数据库 分布式 TiDB

GitHub上疯传数万次的蚂蚁内部绝密分布式高可用算法笔记太香了

程序员高级码农

Java 编程 程序员 分布式 算法

TiDB 集群安装部署相关 sudo 权限说明

TiDB 社区干货传送门

安装 & 部署

商业银行基于容器云的分布式数据库架构设计与创新实践

TiDB 社区干货传送门

从体系建设到深化应用,中国管理会计实现十年跃迁(下)

用友智能财务

微众银行携手平凯星辰荣膺金融科技创新奖,共同打造纳管千台服务器的大规模数据库运维平台

PingCAP

数据库 分布式 TiDB pingCAP

企业组网解决方案与常用技术解析

Ogcloud

SD-WAN 企业组网 企业网络 SD-WAN组网 SD-WAN服务商

阿里P8面试官让我吃透这份10W字java面试题终于可以拿java高级岗

程序员高级码农

Java 编程 程序员 java面试 Java面试题

具身智能领域,伯克利(UC Berkeley)归国四子

机器人头条

清华大学 人形机器人 具身智能

Java 开发者注意!限时招募产品体验官,100% 获得好礼

飞算JavaAI开发助手

有奖活动 开发工具 Java. AI编程

流量治理架构对比:当Kmesh遇上Ambient Mesh

华为云开发者联盟

istio #云原生 流量治理 Kmesh

从混沌到秩序:Python的依赖管理工具分析

不在线第一只蜗牛

Python

小爱同学在高性能端侧大模型推理的实践|AICon北京_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章