AICon 北京站 Keynote 亮点揭秘,想了解 Agent 智能体来就对了! 了解详情
写点什么

SGLang 推理引擎——高效的开源部署方案|AICon 北京

  • 2025-06-16
    北京
  • 本文字数:1101 字

    阅读完需:约 4 分钟

大小:587.93K时长:03:20
SGLang 推理引擎——高效的开源部署方案|AICon北京

6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。


SGLang 核心开发者尹良升已确认出席并发表题为《强化学习 AI 系统的设计实现及未来发展》的主题分享。开源大语言模型快速发展,如 Deepseek V3 和 R1,展现了卓越的性能表现,同时其高效的部署方案大幅降低了推理成本。该方案整合了多项前沿技术,包括大规模专家并行、注意力并行、推测解码、Prefill 与 Decode 的分离部署,以及高效的 KV 缓存落盘实现。这些技术的结合,构成了当前最先进、最高效的大语言模型推理体系。


作为主流开源推理框架之一,SGLang 已深度集成这些技术。本次演讲将深入解析这些关键技术,并探讨其在实际应用中的优化与落地,同时结合最新版本展示如何以极低的成本部署 Deepseek V3/R1 等开源大语言模型。



尹良升就读于上海交通大学 ACM 班,即将前往加州大学伯克利分校 Sky Computing 攻读计算机博士学位。


作为最早期的几位核心开发者之一,深度参与了 SGLang 的研发和优化。SGLang 作为开源社区中备受关注的推理引擎,截至 2025 年 3 月,已在 GitHub 上获得 11K+ Stars,月均下载量超过 10 万。SGLang 也被多个行业巨头采用,包括 xAI(用于部署 Grok 3)、Microsoft Azure(运行 DeepSeek R1)、NVIDIA 和 AMD(深度集成)以及 LinkedIn、美团等企业的生产环境。在 DeepSeek R1 发布时,SGLang 便成为其官方推荐的推理引擎之一。他在本次会议的详细演讲内容如下:


演讲提纲

  1. PD 分离技术的高效实现

  2. 大规模专家并行、注意力并行等多种并行方案的兼容和高效部署

  3. 多级 KV Cache 的缓存设计

  4. 高效的 Eagle 推测解码、引用推测解码和基于语法的结构解码设计

  5. SGLang 社区生态与发展


您认为,这样的技术在实践过程中有哪些痛点?

  • 高质量的开发人员人手不足

  • 技术兼容性问题


您的演讲有哪些前沿亮点?

被多个行业巨头采用的推理引擎背后,多项核心技术深度解析


听众收益:

  • 学习前沿大模型推理技术的开源实现

  • 学习开源社区的开发经验和管理方案


除此之外,本次大会还策划了AI Agent 构建与多场景实践多模态实践与应用大模型助力研发的实战经验AI 在业务运营中的深度落地大模型时代的数据处理与分析AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


大会开幕在即,了解更多报名和详情信息可扫码或联系票务经理 13269078023 咨询。



2025-06-16 13:003448

评论

发布
暂无评论

七大步骤,详解预置算法构建模型的全过程

华为云开发者联盟

架构 算法 数据

架构设计大作业1

仲夏

五步带你探究爬虫爬取视频弹幕背后的真相,附爬虫实现源码

小Q

学习 编程 架构 面试 python 爬虫

完美!这份世界顶级架构师编写的550页Spring5高级编程

Java架构之路

Java 程序员 架构 面试 编程语言

小黄人提前回归?实力与萌力双出动

DT极客

低代码旋风将席卷整个IT业界,带来应用开发的新革命和新里程!

J2PaaS低代码平台

美团面试:为什么就能直接调用userMapper接口的方法?

田维常

美团

接口测试-使用mock生产随机数据

测试人生路

接口测试

用138个案例讲明白了Spring全家桶+Docker+MQ

996小迁

Docker 架构 面试 RabbitMQ Spring全家桶

专业基础篇

紫枫

GitHub上1.3W Stars国内第一的项目实战PDF

Java架构之路

Java 程序员 架构 面试 编程语言

【华为云专家原创】 服务注册与发现如何满足服务治理?

华为云开发者联盟

分布式 服务 注册

盘点 2020 | 数据里有你、我、他,关键还是自己

李孟聊AI

大数据 数据中台 感悟 盘点2020

Head First设计模式

田维常

京东城市时空数据引擎JUST亮相中国数据库技术大会(附PPT链接)

京东科技开发者

数据库 nosql

年前成功拿下35K+16薪美团Java架构师Offer!考点、面试题分享送给明年金三银四的你

Java架构追梦

Java 架构 面试 美团 offer

由两个问题引发的对GaussDB(DWS)负载均衡的思考

华为云开发者联盟

数据库 数据 负载

ONES 年终报告 | 功能升级123次,服务超100万客户

万事ONES

研发管理工具 年终报告

从阿里P5到P8=入门到内核?看看这份对标80W+年薪的Java进阶路线图

Java架构之路

Java 程序员 架构 面试 编程语言

2020H1中国AI云服务市场规模增长远超预期;C++20 标准正式发布

京东科技开发者

云计算 AI IoT

架构设计大作业 2

仲夏

手把手带你入门加密算法的Python实现

华为云开发者联盟

Python 算法 加密

看完这篇,保证让你真正明白:分布式系统的CAP理论、CAP如何三选二

四猿外

架构 分布式系统 CAP CAP原理 CAP理论

ReactNative | 通过文件下载/打开需求,聊聊使用三方库

梁龙先森

大前端 技术方案 React Native

重庆打造区块链产业高地

CECBC

区块链

架构革新路漫漫,京东智联云自研服务器设计细节探秘

京东科技开发者

服务器 数据中心 IDC

打通经济命脉,区块链助力实体商超变革

CECBC

区块链

测开之函数进阶· 第5篇《偏函数》

清菡软件测试

测试开发

【得物技术】交易轨迹系统

得物技术

数据 交易 得物 得物技术 自定义

Bitmap 续篇-基于 Bitmap 瞅瞅不一样的 Percentile

GrowingIO技术专栏

BitMap

IPFS系统APP软件开发

系统开发

SGLang 推理引擎——高效的开源部署方案|AICon北京_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章