50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

小爱同学在高性能端侧大模型推理的实践|AICon 北京

  • 2025-06-05
    北京
  • 本文字数:990 字

    阅读完需:约 3 分钟

大小:553.33K时长:03:08
小爱同学在高性能端侧大模型推理的实践|AICon北京

6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。


小米小爱同学端侧 AI 负责人杨永杰已确认出席并发表题为《小爱同学在高性能端侧大模型推理的实践》的主题分享。随着大模型相关技术的迅速发展,端侧大模型也越来越受到重视,端侧部署大模型具有隐私安全高、推理成本低、无网可响应等优点,但端侧面临资源受限的核心挑战,比如算力、内存、内存带宽、CPU 等资源,导致大模型难以在端侧商业化落地。杨永杰及其团队通过自研高性能的大模型推理框架克服了资源的限制,实现了端侧大模型在多个业务上商业化落地,最终以极低的资源占用实现业界领先的推理速度(超过 180 toks/s)。



杨永杰毕业于中山大学,现任小爱同学端侧 AI 负责人,曾为华为端侧 AI 技术专家,一直致力于端侧模型推理相关的技术研究和应用,主导小爱同学全离线链路的构建,并逐步升级到端侧大模型,使得离线小爱同学响应更智能、更迅速。他在本次会议的详细演讲内容如下:


演讲提纲

1. 端侧大模型推理面临的挑战

2. 端侧大模型推理架构

  • 小爱同学业务差异化诉求

  • 多业务共享基座架构,支持并发推理

  • 跨硬件平台推理

  • 大模型热更新策略

3. 端侧大模型高性能推理技术

  • 基于端侧硬件资源限制的优化

  • 大模型低比特量化

  • CPU 高性能计算

  • 高加速比的并行解码策略

4. 端侧大模型未来技术展望


技术实践痛点

  • 资源有限的情况下,怎么支持多个业务,以及支持多个任务并发

  • 大模型推理占用带宽高,会导致系统应用卡顿,这里需要做 tradeoff


演讲前沿亮点

  • 有限资源下的高性能推理,达到 180toks/s

  • 支持多业务大模型并发推理


听众收益

  • 了解到目前端侧大模型部署的挑战

  • 了解端侧大模型推理的架构

  • 了解端侧大模型高性能推理技术


除此之外,本次大会还策划了AI Agent 构建与多场景实践多模态实践与应用大模型助力研发的实战经验AI 在业务运营中的深度落地大模型时代的数据处理与分析AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-06-05 09:315086

评论

发布
暂无评论

数维图API文档:SovitJS编辑器开放API说明

数据可视化平台

数维图编辑器 Sovitjs编辑器 数维图API 可视化编辑器 可视化引擎

每日算法刷题Day4-完全数、分情况输出、平方矩阵、斐波那契数列匹配输出

timerring

刷题 算法题 9月月更

参加前端培训哪种方式比较靠谱

小谷哥

web前端开发技术培训需要学习多久

小谷哥

Java面试:你了解HashMap吗?

钟奕礼

编程 面试 java;

每日算法刷题Day5-平方矩阵II和III、蛇形矩阵图解

timerring

刷题 算法题 9月月更

文科生大数据培训需要注意的问题

小谷哥

回归理性,直面低代码

华为云开发者联盟

云计算 后端 软件开发 低代码 企业号九月金秋榜

Java进阶(三十六)深入理解Java的接口和抽象类

No Silver Bullet

Java 接口 抽象类 9月月更

重磅发布|腾讯云容器安全服务网络隔离功能已上线

腾讯安全云鼎实验室

云安全 容器安全

9面阿里Java岗,最终定级P6拿P7工资,分享学习经验

Geek_0c76c3

Java 数据库 开源 程序员 架构

得物基于 StarRocks 的 OLAP 需求实践

得物技术

数据库 开源 OLAP 开发工具 StarRocks

每日算法刷题Day7-比较字符串大小,去掉多余的空格,单词替换

timerring

算法 刷题 9月月更

膜拜大佬!分享一份京东T9大牛私藏文档:从NIO一直学到Netty

Geek_0c76c3

Java 数据库 开源 程序员 开发

java技术线下面授培训学习好还是自学好

小谷哥

参加java培训学习难不难?

小谷哥

面试中经常问到的几个问题,快来看看能答对几道吧(Java)

钟奕礼

编程 java;

Java开发学习----SpringBoot三种配置文件解析

钟奕礼

编程 Spring Boot java;

极狐GitLab 15.4 | 四大专享更新、更能打的CI/CD,近 50 项更新全面来袭!

极狐GitLab

DevOps 运维 Harbor CI/CD 极狐GitLab

OptaPlanner是什么

积木编程

安全、可靠、稳定的企业IM,WorkPlus是政企工作的首选

BeeWorks

Redis进阶知识点(可学习,可复习,可面试)

钟奕礼

编程 redis 底层原理

MSE 结合 Dragonwell,让 Java Agent 更好用

钟奕礼

编程 java; MSE

基于Spring Cloud与Docker如何搭建一个电商平台项目

Geek_0c76c3

Java 数据库 开源 程序员 架构

腾讯云入选Gartner CPaaS市场指南“代表厂商”,数实融合和全球化布局受认可

科技热闻

Java 8 + 10 = Java 18

钟奕礼

java;

每日算法刷题Day6-循环相克令,字符串插入,单次字符出现

timerring

算法 刷题 9月月更

阿里P9师傅亲传98K+星的MySQL性能优化金字塔法则手册助我升职P7

Geek_0c76c3

Java 数据库 开源 程序员 架构

移动应用平台有哪些优势?能为企业带来什么好处?

BeeWorks

惊为天人!从Sql到Nosql,redis+mysql从架构到优化全覆盖

Geek_0c76c3

Java 数据库 开源 架构

从 0 到 1 上手阿里云服务器 ECS(三)

六月的雨在InfoQ

MySQL RDS ECS 云数据库RDS for MySQL 9月月更

小爱同学在高性能端侧大模型推理的实践|AICon北京_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章