SGLang 推理引擎的技术要点与部署实践_AI&大模型_罗燕珊



 写点什么

采访嘉宾｜尹良升，SGLang 核心开发者

作为开源社区近年来备受瞩目的推理引擎，SGLang 自发布以来持续迭代优化。截至 2025 年 6 月，其在 GitHub 上已收获近 15K Stars，月均下载量突破 10 万次。凭借出色的性能表现和设计，SGLang 已被多个行业巨头采纳：包括 xAI（用于部署 Grok 3）、Microsoft Azure（用于运行 DeepSeek R1）、NVIDIA 和 AMD（深度集成），以及 LinkedIn、美团等在内的多家企业，均已在生产环境中将其投入使用。在 DeepSeek R1 发布时，SGLang 便成为其官方推荐的推理引擎之一。

2025 年 5 月，SGLang 提出了第一个完全开源的 DeepSeek 大规模专家并行部署方案，该方案也是目前开源实现中唯一能够复现官方博客所述推理性能和成本的方案。

近日，InfoQ 专访了 SGLang 核心开发者尹良升，他分享了该项目背后的关键技术、工程挑战与社区生态，以及如何在大模型推理中实现性能与成本的平衡。从 PD 分离架构带来的尾延迟控制，到推测解码提升 Token 生成速度，再到 KV 缓存落盘在多轮对话中的显存优化——这些关键能力使 SGLang 成为支持低成本、大规模模型部署的高性能推理引擎。

尹良升，现就读于上海交通大学 ACM 班，即将前往加州大学伯克利分校 Sky Computing 攻读计算机博士学位。他是 SGLang 最早期的几位核心开发者之一，深度参与了 SGLang 的研发和优化。

6 月 27～28 日，在即将于北京举办的 AICon 全球人工智能开发与应用大会上，尹良升将发表演讲《SGLang 推理引擎——高效的开源部署方案》，将深入解析前沿大模型推理关键技术，并探讨其在实际应用中的优化与落地，同时结合最新版本展示如何以极低的成本部署 Deepseek V3/R1 等开源大语言模型。
敬请期待：https://aicon.infoq.cn/2025/beijing/presentation/6453

InfoQ：SGLang 开源推理引擎受到不少一线公司的采用。你觉得它最核心的技术优势是什么？相比其他开源方案，有哪些关键差异？

尹良升： 我认为 SGLang 最核心的优势在于高性能的实现和易于二次开发的代码。从 RadixAttention、高效的架构设计、Overlap Scheduling，到成功复现并集成了像 PD 分离、大规模 EP 等前沿技术，SGLang 实现了对不同主流模型的 SOTA 部署支持。这是我们区别于其他方案的关键。

InfoQ：你的演讲会介绍 PD 分离、推测解码、KV 缓存落盘等关键技术，这些优化在实际部署中解决了哪些痛点？

尹良升：

PD 分离：它解决了在 Prefill 和 Decode 混合部署时，Decode 经常被 Prefill 打断导致的延迟波动大、P99 尾延迟高的问题。分离部署后，Decode 的延迟变得均匀且稳定。同时，这种分离允许 Prefill 和 Decode 采用不同的部署策略和并行方式（比如不同的并行度），从而能更高效地利用资源。
推测解码：这项技术的核心目标是降低 Decode 延迟。它通过利用模型隐藏层信息和小模型辅助，经过验证后一次预测多个 Token（相当于“一次解码，多步输出”），显著提升 Decode 速度，达到事半功倍的效果。
KV 缓存落盘：在多轮对话等需要复用之前计算出的 KV cache 的场景下，GPU 显存容量有限，难以存储所有用户的历史记录。KV 缓存落盘技术将不立即需要的、以往计算的 KV cache 存储在内存或硬盘等大容量存储设备中。当后续对话轮次需要复用这些历史上下文时，可以直接加载缓存的 KV 值，避免了重复进行耗时的 Prefill 计算，从而减少计算量并有效降低响应延迟。

InfoQ：关于如何平衡性能、资源利用率与成本，SGLang 在这方面有哪些通用的优化策略或架构设计可以借鉴？

尹良升： 平衡性能、资源利用率和成本需要根据下游任务进行 Trade-off：在离线批处理（Offline Batch）等对延迟不敏感的场景下，目标是最大化 GPU 显存利用率和批处理大小以提升吞吐、摊薄成本；而在线上推理等对延迟敏感的场景，则倾向于投入更多资源处理较少并发请求（如降低并行 Batch Size），优先保障每个请求的 Token 生成速度。

InfoQ：并行部署技术（如专家并行、注意力并行）越来越复杂，兼容性是一个现实挑战。SGLang 在支持多种并行方案上有哪些经验或踩坑故事？

尹良升： 在实现多种并行方案（比如专家并行）和分离式部署架构的过程中，我们踩的坑不仅仅在算法实现的初期，很多工程上的挑战更大。比如实现 DeepEP 时，它的通讯和 Prefill/Decode (PD) 之间传输 KV 缓存的时间需要重叠，这就容易导致网卡资源被同时争抢、CPU 负载过大、Python GIL 锁得不到及时释放等问题。

InfoQ：结合你的体验，能否分享下你认为 SGLang 社区是如何推动技术演进和应用场景落地之间的良性循环？

尹良升：SGLang 的核心是开源，让人人都能参与开发和贡献。我们广泛进行技术分享，旨在增强社区认同感并吸引新成员。社区的技术进步直接加速了应用落地，而我们超过 100k 显卡规模的大规模工业部署经验及来自社区的真实反馈，又持续指引着技术演进的方向，确保我们走在正确的道路上。

InfoQ：目前做大语言模型推理，除了算力之外，你认为开发者最容易忽视但最影响上线效率的环节是什么？

尹良升： 算力是基础，但拥有庞大的算力集群并不等于就有很高的实际部署性能。用户在实际使用中往往对延迟 (Latency) 等指标非常敏感。这种情况下，即使吞吐量能随着算力增长而提升，延迟指标却不一定能随之优化。我们认为最容易被忽视、也最拖慢上线效率的环节，是 面对几十甚至上百个配置参数（Config）的调试工作！如何高效地找到最优组合是巨大的挑战。“开箱即用”的配置通常不是最好的，精细化的调试才是关键难点。

InfoQ：对于关注大语言模型部署效率和成本控制的开发者来说，你希望他们在听完这场分享后，能带走哪些实用的经验或启发？

尹良升： 希望大家能认识到：模型规模只会越来越大，依赖单卡会越来越吃力。利用更多的 GPU 和高效的并行策略是实现高性能、低成本部署的必经之路。SGLang 在支持超大规模模型部署方面走在了前沿，积累了宝贵经验。我们非常欢迎大家一起来学习、实践，甚至参与贡献，共同推动这项技术的发展！

发布

暂无评论

创作场景

SGLang 推理引擎的技术要点与部署实践

评论

0基础架构入门 - 1（架构概述）

模块一

eKuiper 联手 OpenYurt，解决物联网场景下边缘流数据处理难题

惊！阿里大佬珍之若宝的最强高并发pdf，竟然被上传GitHub开源

apipost使用脚本发送一个接口请求

Go- map的定义

Go- map的使用

阿里P8大牛终于整理完了564页大话java性能优化神仙文档

膜拜！阿里内部都在强力进阶学习springboot实战派文档

云小课｜想实现资源全自动备份？看完这篇秘籍，不再蕉绿~

新生代农民工的十八般武艺，你都了解吗

深层剖析鸿蒙轻内核M核的动态内存如何支持多段非连续性内存

金九银十给我疯狂内卷！GitHub再现星标86K面试手册，37K！妥妥的

阿里内部推出Spring响应式微服务Boot2Cloud文档

疫情小区离你有多远，百度地图告诉你

堡垒机和防火墙的三大区别分析-行云管家

深入虚拟机探索Thread start

常见内存泄漏引起原因

面试侃集合之SynchronousQueue非公平模式篇

阿里P8大牛耗费三年整理的：Java架构之完美设计实战PDF

linux笔记：极简方式安装mysql，建议收藏

Pulsar 周报 2021-08-09 ~ 2021-08-15

【墨天轮专访第二期】巨杉数据库萧少聪：重视企业长期需求，打造中国的世界级产品

超实用？HUAWEI高工总结出15W字的图解计算机操作系统指南手册

拆分电商系统为微服务

Vue进阶（七十二）：css 样式中逗号、空格、冒号、点号、~、＞的区别

故事篇：数据库架构演变之路

一文为你介绍ServiceComb Service-Center三大高性能优化点

带你读AI论文丨LaneNet基于实体分割的端到端车道线检测

TP6+layui2.6.8开发的管理系统（FunAdmin）,内置Curd命令模式在线更新

Spark必读！总有一些Spark知识点你需要知道

创作场景

SGLang 推理引擎的技术要点与部署实践

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载