SGLang 推理引擎——高效的开源部署方案｜AICon北京_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章



 写点什么

登录/注册



大小：587.93K时长：03:20

SGLang 推理引擎——高效的开源部署方案｜AICon北京

6 月 27 日-6 月 28 日，AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践，邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家，深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。

SGLang 核心开发者尹良升已确认出席并发表题为《强化学习 AI 系统的设计实现及未来发展》的主题分享。开源大语言模型快速发展，如 Deepseek V3 和 R1，展现了卓越的性能表现，同时其高效的部署方案大幅降低了推理成本。该方案整合了多项前沿技术，包括大规模专家并行、注意力并行、推测解码、Prefill 与 Decode 的分离部署，以及高效的 KV 缓存落盘实现。这些技术的结合，构成了当前最先进、最高效的大语言模型推理体系。

作为主流开源推理框架之一，SGLang 已深度集成这些技术。本次演讲将深入解析这些关键技术，并探讨其在实际应用中的优化与落地，同时结合最新版本展示如何以极低的成本部署 Deepseek V3/R1 等开源大语言模型。

尹良升就读于上海交通大学 ACM 班，即将前往加州大学伯克利分校 Sky Computing 攻读计算机博士学位。

作为最早期的几位核心开发者之一，深度参与了 SGLang 的研发和优化。SGLang 作为开源社区中备受关注的推理引擎，截至 2025 年 3 月，已在 GitHub 上获得 11K+ Stars，月均下载量超过 10 万。SGLang 也被多个行业巨头采用，包括 xAI（用于部署 Grok 3）、Microsoft Azure（运行 DeepSeek R1）、NVIDIA 和 AMD（深度集成）以及 LinkedIn、美团等企业的生产环境。在 DeepSeek R1 发布时，SGLang 便成为其官方推荐的推理引擎之一。他在本次会议的详细演讲内容如下：

演讲提纲
PD 分离技术的高效实现
大规模专家并行、注意力并行等多种并行方案的兼容和高效部署
多级 KV Cache 的缓存设计
高效的 Eagle 推测解码、引用推测解码和基于语法的结构解码设计
SGLang 社区生态与发展

您认为，这样的技术在实践过程中有哪些痛点？
高质量的开发人员人手不足
技术兼容性问题

您的演讲有哪些前沿亮点？
被多个行业巨头采用的推理引擎背后，多项核心技术深度解析

听众收益：
学习前沿大模型推理技术的开源实现
学习开源社区的开发经验和管理方案

除此之外，本次大会还策划了AI Agent 构建与多场景实践、多模态实践与应用、大模型助力研发的实战经验、AI 在业务运营中的深度落地、大模型时代的数据处理与分析、AI 变革下的工程师等 10 多个专题论坛，届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。

大会开幕在即，了解更多报名和详情信息可扫码或联系票务经理 13269078023 咨询。

评论

发布

暂无评论

Tcp网络模型

Spring的底层实现机制

从零开发区块链应用(四)--自定义业务错误信息

杰哥的技术杂货铺

社区知识库｜常见问答 FAQ 集合第 2 期：Topic 配置、ACK 等问题的解决

架构云原生 Apache Pulsar 开源社区消息中间件

博文推荐｜深入解析Apache BookKeeper 系列：第一篇 — 架构原理

开源架构云原生中间件 Apache Pulsar

社区知识库｜常见问答 FAQ 集合第 3 期：Topic 数量、Broker 设置等相关问题

分布式云原生 Apache Pulsar 开源社区消息中间件

低代码实现探索（二十四）业务的领域可视化构思

零道云-混合式低代码平台

Linux之date命令

Form 表单在数栈的应用(下)：深入篇

袋鼠云数栈

HarmonyOS工程【鸿蒙开发02】

鸿蒙开发 1月月更

Go 语言快速入门指南：Go 结构体

宇宙之一粟

Go 语言结构体 1月月更

SIG技术直播来了！技术专家教你，如何使用 iLogtail 采集可观测数据？

OpenAnolis小助手

Linux 开源数据直播采集

Spring中部署Activiti流程定义的三种姿势

华为云开发者联盟

spring 工作流 Activiti流程 Activiti框架 Activiti Explorer

只有天空才是你的极限，我们热爱探索的过程并沉浸其中丨图数据库 TiMatch 团队访谈

从零开发区块链应用(二)--mysql安装及数据库表的安装创建

杰哥的技术杂货铺

模块 5 作业

设计模式【11】-- 搞定组合模式

秦怀杂货店

Java 组合模式

博文推荐｜Apache Pulsar: 统一消息流平台

开源云原生 broker Apache Pulsar 消息中间件

谈A股投资策略--《香帅中国财富报告》摘录（5/100）

社区知识库｜常见问答 FAQ 集合第 4 期：消息保留及延迟、Broker、Pulsar 权限等相关问题

架构云原生开源社区消息中间件 Apachepulsar

ReactNative进阶（二十四）：react-native-scrollable-tab-view 标签导航器组件详解

No Silver Bullet

1月月更 ReactNative 标签导航

2022AJAX常见面试题分享

web技术分享| 白板SDK之函数和方程式的运用

anyRTC开发者

前端音视频视频会议白板 web技术分享

(1-15/15) 预训练模型+微调范式下如何做到文本数据安全

300天创作 2022Y300P

鸿蒙开发初体验【鸿蒙01】

鸿蒙 1月月更

HTTP跨域小结

nginx HTTP cros

带你读AI论文丨RAID2020 Cyber Threat Intelligence Modeling GCN

华为云开发者联盟

网络威胁情报 CTI 异构信息网络 GCN HINTI

详解 Flink 中 Time 与 Window

五分钟学大数据

flink 1月月更

从零开发区块链应用(一)--golang配置文件管理工具viper

杰哥的技术杂货铺

golang 区块链

从零开发区块链应用(三)--mysql初始化及gorm框架使用

杰哥的技术杂货铺

1月月更|推荐学java——Spring集成MyBatis

mybatis ssm Spring Framework spring aop spring+mybatis