9 月 13 日,2025 Inclusion・外滩大会「开源嘉年华」正在限量报名中! 了解详情
写点什么

SGLang 推理引擎的技术要点与部署实践

  • 2025-06-11
    北京
  • 本文字数:2380 字

    阅读完需:约 8 分钟

SGLang 推理引擎的技术要点与部署实践

采访嘉宾|尹良升,SGLang 核心开发者


作为开源社区近年来备受瞩目的推理引擎,SGLang 自发布以来持续迭代优化。截至 2025 年 6 月,其在 GitHub 上已收获近 15K Stars,月均下载量突破 10 万次。凭借出色的性能表现和设计,SGLang 已被多个行业巨头采纳:包括 xAI(用于部署 Grok 3)、Microsoft Azure(用于运行 DeepSeek R1)、NVIDIA 和 AMD(深度集成),以及 LinkedIn、美团等在内的多家企业,均已在生产环境中将其投入使用。在 DeepSeek R1 发布时,SGLang 便成为其官方推荐的推理引擎之一。


2025 年 5 月,SGLang 提出了第一个完全开源的 DeepSeek 大规模专家并行部署方案,该方案也是目前开源实现中唯一能够复现官方博客所述推理性能和成本的方案。


近日,InfoQ 专访了 SGLang 核心开发者尹良升,他分享了该项目背后的关键技术、工程挑战与社区生态,以及如何在大模型推理中实现性能与成本的平衡。从 PD 分离架构带来的尾延迟控制,到推测解码提升 Token 生成速度,再到 KV 缓存落盘在多轮对话中的显存优化——这些关键能力使 SGLang 成为支持低成本、大规模模型部署的高性能推理引擎。


尹良升,现就读于上海交通大学 ACM 班,即将前往加州大学伯克利分校 Sky Computing 攻读计算机博士学位。他是 SGLang 最早期的几位核心开发者之一,深度参与了 SGLang 的研发和优化。


6 月 27~28 日,在即将于北京举办的 AICon 全球人工智能开发与应用大会上,尹良升将发表演讲《SGLang 推理引擎——高效的开源部署方案》,将深入解析前沿大模型推理关键技术,并探讨其在实际应用中的优化与落地,同时结合最新版本展示如何以极低的成本部署 Deepseek V3/R1 等开源大语言模型。

敬请期待:https://aicon.infoq.cn/2025/beijing/presentation/6453


InfoQ:SGLang 开源推理引擎受到不少一线公司的采用。你觉得它最核心的技术优势是什么?相比其他开源方案,有哪些关键差异?


尹良升: 我认为 SGLang 最核心的优势在于高性能的实现和易于二次开发的代码。从 RadixAttention、高效的架构设计、Overlap Scheduling,到成功复现并集成了像 PD 分离、大规模 EP 等前沿技术,SGLang 实现了对不同主流模型的 SOTA 部署支持。这是我们区别于其他方案的关键。


InfoQ:你的演讲会介绍 PD 分离、推测解码、KV 缓存落盘等关键技术,这些优化在实际部署中解决了哪些痛点?


尹良升:


  • PD 分离:它解决了在 Prefill 和 Decode 混合部署时,Decode 经常被 Prefill 打断导致的延迟波动大、P99 尾延迟高的问题。分离部署后,Decode 的延迟变得均匀且稳定。同时,这种分离允许 Prefill 和 Decode 采用不同的部署策略和并行方式(比如不同的并行度),从而能更高效地利用资源。

  • 推测解码:这项技术的核心目标是降低 Decode 延迟。它通过利用模型隐藏层信息和小模型辅助,经过验证后一次预测多个 Token(相当于“一次解码,多步输出”),显著提升 Decode 速度,达到事半功倍的效果。

  • KV 缓存落盘:在多轮对话等需要复用之前计算出的 KV cache 的场景下,GPU 显存容量有限,难以存储所有用户的历史记录。KV 缓存落盘技术将不立即需要的、以往计算的 KV cache 存储在内存或硬盘等大容量存储设备中。当后续对话轮次需要复用这些历史上下文时,可以直接加载缓存的 KV 值,避免了重复进行耗时的 Prefill 计算,从而减少计算量并有效降低响应延迟。


InfoQ:关于如何平衡性能、资源利用率与成本,SGLang 在这方面有哪些通用的优化策略或架构设计可以借鉴?


尹良升: 平衡性能、资源利用率和成本需要根据下游任务进行 Trade-off:在离线批处理(Offline Batch)等对延迟不敏感的场景下,目标是最大化 GPU 显存利用率和批处理大小以提升吞吐、摊薄成本;而在线上推理等对延迟敏感的场景,则倾向于投入更多资源处理较少并发请求(如降低并行 Batch Size),优先保障每个请求的 Token 生成速度。


InfoQ:并行部署技术(如专家并行、注意力并行)越来越复杂,兼容性是一个现实挑战。SGLang 在支持多种并行方案上有哪些经验或踩坑故事?


尹良升: 在实现多种并行方案(比如专家并行)和分离式部署架构的过程中,我们踩的坑不仅仅在算法实现的初期,很多工程上的挑战更大。比如实现 DeepEP 时,它的通讯和 Prefill/Decode (PD) 之间传输 KV 缓存的时间需要重叠,这就容易导致网卡资源被同时争抢、CPU 负载过大、Python GIL 锁得不到及时释放等问题。


InfoQ:结合你的体验,能否分享下你认为 SGLang 社区是如何推动技术演进和应用场景落地之间的良性循环?


尹良升:SGLang 的核心是开源,让人人都能参与开发和贡献。我们广泛进行技术分享,旨在增强社区认同感并吸引新成员。社区的技术进步直接加速了应用落地,而我们超过 100k 显卡规模的大规模工业部署经验及来自社区的真实反馈,又持续指引着技术演进的方向,确保我们走在正确的道路上。


InfoQ:目前做大语言模型推理,除了算力之外,你认为开发者最容易忽视但最影响上线效率的环节是什么?


尹良升: 算力是基础,但拥有庞大的算力集群并不等于就有很高的实际部署性能。用户在实际使用中往往对延迟 (Latency) 等指标非常敏感。这种情况下,即使吞吐量能随着算力增长而提升,延迟指标却不一定能随之优化。我们认为最容易被忽视、也最拖慢上线效率的环节,是 面对几十甚至上百个配置参数(Config)的调试工作!如何高效地找到最优组合是巨大的挑战。“开箱即用”的配置通常不是最好的,精细化的调试才是关键难点。


InfoQ:对于关注大语言模型部署效率和成本控制的开发者来说,你希望他们在听完这场分享后,能带走哪些实用的经验或启发?


尹良升: 希望大家能认识到:模型规模只会越来越大,依赖单卡会越来越吃力。利用更多的 GPU 和高效的并行策略是实现高性能、低成本部署的必经之路。SGLang 在支持超大规模模型部署方面走在了前沿,积累了宝贵经验。我们非常欢迎大家一起来学习、实践,甚至参与贡献,共同推动这项技术的发展!

2025-06-11 17:204685

评论

发布
暂无评论

技术分享 | Web测试方法与技术之JavaScript 讲解

霍格沃兹测试开发学社

技术分享 | Web自动化之Selenium安装

霍格沃兹测试开发学社

uni-app黑马优购项目学习记录(二)

海底烧烤店ai

JavaScript 小程序 前端 9月月更

【微信小程序】——Mobx全局数据共享和分包

海底烧烤店ai

微信小程序 前端 JavaScrip 9月月更

教你如何一分钟内玩过《羊了个羊》| 傻瓜式操作,包教包会

bug菌

9月月更 羊了个羊 微信小程序-游戏

经典面试题-显式等待与隐式等待

霍格沃兹测试开发学社

测试人生 | 专科学历入职世界500强企业,二线城市年薪超30W,这个80后小哥哥很赞!

霍格沃兹测试开发学社

在线帮助中心-帮助客户更快上手使用你的产品

Baklib

帮助文档

Linux下使用LVM方式进行文件系统创建,详细教程

阿柠xn

Linux 运维 文件系统 lvm 9月月更

经典面试题-平时用的测试框架是什么?pytest框架下怎么入参?

霍格沃兹测试开发学社

经典面试题-元组和列表的区别

霍格沃兹测试开发学社

技术分享 | Web测试方法与技术之CSS讲解

霍格沃兹测试开发学社

一道大厂测试开发面试真题,你需要几分钟解答?

霍格沃兹测试开发学社

一道有趣的大厂测试面试题,你能用 Python or Shell 解答吗?

霍格沃兹测试开发学社

测试人生 | 97年双非学历的小哥哥,2线城市涨薪100%,我酸了......

霍格沃兹测试开发学社

OSCS开源安全周报第11期:本月微软补丁日修复 vscode 漏洞,请开发者留意自己使用的 vscode 是否受该漏洞影响

墨菲安全

golang vscode 开源安全 软件供应链安全

技术分享 | web前端的HTML浅析

霍格沃兹测试开发学社

技术分享 | Web测试方法与技术实战演练

霍格沃兹测试开发学社

测试人生 | 入行3年,年薪36W+,从外包到知名互联网公司,疫情之下薪资不止翻倍~

霍格沃兹测试开发学社

测试人生 | 三十而立终圆大厂梦,测试开发开启新征程

霍格沃兹测试开发学社

测试人生 | 二线城市涨薪近10万 ,还能955,这样的机会你想不想要?

霍格沃兹测试开发学社

【JavaScript】巩固JS开发中十个常用功能/案例(1-10)

海底烧烤店ai

算法 前端 JavaScrip 9月月更

把收藏力拉满,前端 50 个优质 Web 在线资源~

掘金安东尼

前端 9月月更

经典面试题-Python装饰器

霍格沃兹测试开发学社

技术分享 | Selenium 测试用例编写

霍格沃兹测试开发学社

构建开放、智能的企业数字化转型2.0平台,加速运营商创新升级

鲸品堂

IT 运营商

技术分享 | WEB 端常见 Bug 解析

霍格沃兹测试开发学社

技术分享 | SeleniumIDE用例录制

霍格沃兹测试开发学社

测试人生 | 40+的年龄50W+的年薪,2线城市入职名企,他曾想放弃测试?

霍格沃兹测试开发学社

测试人生 | 为了娃的奶粉钱,测试媛妈妈拿出考研的拼劲,半年终圆大厂梦!

霍格沃兹测试开发学社

测试人生 | 毕业2年未满,0经验拿下知名互联网企业30W 年薪,他是怎么做到的?

霍格沃兹测试开发学社

SGLang 推理引擎的技术要点与部署实践_AI&大模型_罗燕珊_InfoQ精选文章