写点什么

小爱同学在高性能端侧大模型推理的实践|AICon 北京

  • 2025-06-05
    北京
  • 本文字数:990 字

    阅读完需:约 3 分钟

大小:553.33K时长:03:08
小爱同学在高性能端侧大模型推理的实践|AICon北京

6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。


小米小爱同学端侧 AI 负责人杨永杰已确认出席并发表题为《小爱同学在高性能端侧大模型推理的实践》的主题分享。随着大模型相关技术的迅速发展,端侧大模型也越来越受到重视,端侧部署大模型具有隐私安全高、推理成本低、无网可响应等优点,但端侧面临资源受限的核心挑战,比如算力、内存、内存带宽、CPU 等资源,导致大模型难以在端侧商业化落地。杨永杰及其团队通过自研高性能的大模型推理框架克服了资源的限制,实现了端侧大模型在多个业务上商业化落地,最终以极低的资源占用实现业界领先的推理速度(超过 180 toks/s)。



杨永杰毕业于中山大学,现任小爱同学端侧 AI 负责人,曾为华为端侧 AI 技术专家,一直致力于端侧模型推理相关的技术研究和应用,主导小爱同学全离线链路的构建,并逐步升级到端侧大模型,使得离线小爱同学响应更智能、更迅速。他在本次会议的详细演讲内容如下:


演讲提纲

1. 端侧大模型推理面临的挑战

2. 端侧大模型推理架构

  • 小爱同学业务差异化诉求

  • 多业务共享基座架构,支持并发推理

  • 跨硬件平台推理

  • 大模型热更新策略

3. 端侧大模型高性能推理技术

  • 基于端侧硬件资源限制的优化

  • 大模型低比特量化

  • CPU 高性能计算

  • 高加速比的并行解码策略

4. 端侧大模型未来技术展望


技术实践痛点

  • 资源有限的情况下,怎么支持多个业务,以及支持多个任务并发

  • 大模型推理占用带宽高,会导致系统应用卡顿,这里需要做 tradeoff


演讲前沿亮点

  • 有限资源下的高性能推理,达到 180toks/s

  • 支持多业务大模型并发推理


听众收益

  • 了解到目前端侧大模型部署的挑战

  • 了解端侧大模型推理的架构

  • 了解端侧大模型高性能推理技术


除此之外,本次大会还策划了AI Agent 构建与多场景实践多模态实践与应用大模型助力研发的实战经验AI 在业务运营中的深度落地大模型时代的数据处理与分析AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-06-05 09:314831

评论

发布
暂无评论

办公软件定制开发在企业发展中的优势

Geek_16d138

APP软件开发 软件定制

《社交泛娱乐出海作战地图》加印领取啦!

融云 RongCloud

地图 社交 泛娱乐 出海 一图流

集群 CPU 利用率均值达 45% ,揭秘小红书规模化混部技术实践

小红书技术REDtech

cpu #云原生

「我在淘天做技术」迈步从头越-阿里妈妈广告智能决策技术的演进之路

阿里技术

广告 淘天 阿里妈妈 广告智能决策技术 自动出价

在线教育如何基于小程序进行技术创新

Onegun

小程序 在线教育

融云 Global IM UIKit 正式上线,开发更自由,服务更稳定

融云 RongCloud

产品 开发 IM API Global IM UIkit

HarmonyOS传感器开发指南

HarmonyOS开发者

HarmonyOS

Vue 实现低代码开发平台,没想到这么好用!

伤感汤姆布利柏

99%的人不知道的Docker干货

伤感汤姆布利柏

Docker 程序员 低代码 干货

云小课|HSS教您如何应对LockBit勒索事件

华为云开发者联盟

云计算 后端 华为云 主机安全 华为云开发者联盟

VPS服务器搭建指南:快速、简单、高效的秘诀大揭秘

一只扑棱蛾子

VPS VPS服务器

1天开发一个教育类App!我是怎么办到的

FN0

小程序 App

打破障碍:克服数字化应用挑战的策略

互联网工科生

数字化

优雅实现API接口开关:让你的应用更可控

树上有只程序猿

spring-boot API接口

产学研合作新篇章:东南大学OpenHarmony技术俱乐部成立,专家进校园共谋发展

科技热闻

应用容器化转型系列-容器部署进阶

品高云计算

Python subprocess模块的高级玩法

秃头小帅oi

Python 程序员 低代码 subprocess 前沿

Web 3.0最热门趋势:基于NFT的DAO-NFT和DAO如何彻底改变 Web3.0

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

OpenHarmony亮相MTSC 2023 | 质量&效率共进,赋能应用生态发展

OpenHarmony开发者

OpenHarmony

借助工具落地提高外包软件项目代码提交规范

知者如C

【专业测试工具推荐】优化测试流程,高效完成测试工作!

Liam

程序员 测试 自动化测试 接口测试 测试工具

企业如何选择安全又快速的大文件传输平台

镭速

大文件传输 大文件传输平台

什么是工业元宇宙?如何利用版本控制来应对工业元宇宙的挑战?

龙智—DevSecOps解决方案

元宇宙

小爱同学在高性能端侧大模型推理的实践|AICon北京_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章