写点什么

SGLang 推理引擎的技术要点与部署实践

  • 2025-06-11
    北京
  • 本文字数:2380 字

    阅读完需:约 8 分钟

SGLang 推理引擎的技术要点与部署实践

采访嘉宾|尹良升,SGLang 核心开发者


作为开源社区近年来备受瞩目的推理引擎,SGLang 自发布以来持续迭代优化。截至 2025 年 6 月,其在 GitHub 上已收获近 15K Stars,月均下载量突破 10 万次。凭借出色的性能表现和设计,SGLang 已被多个行业巨头采纳:包括 xAI(用于部署 Grok 3)、Microsoft Azure(用于运行 DeepSeek R1)、NVIDIA 和 AMD(深度集成),以及 LinkedIn、美团等在内的多家企业,均已在生产环境中将其投入使用。在 DeepSeek R1 发布时,SGLang 便成为其官方推荐的推理引擎之一。


2025 年 5 月,SGLang 提出了第一个完全开源的 DeepSeek 大规模专家并行部署方案,该方案也是目前开源实现中唯一能够复现官方博客所述推理性能和成本的方案。


近日,InfoQ 专访了 SGLang 核心开发者尹良升,他分享了该项目背后的关键技术、工程挑战与社区生态,以及如何在大模型推理中实现性能与成本的平衡。从 PD 分离架构带来的尾延迟控制,到推测解码提升 Token 生成速度,再到 KV 缓存落盘在多轮对话中的显存优化——这些关键能力使 SGLang 成为支持低成本、大规模模型部署的高性能推理引擎。


尹良升,现就读于上海交通大学 ACM 班,即将前往加州大学伯克利分校 Sky Computing 攻读计算机博士学位。他是 SGLang 最早期的几位核心开发者之一,深度参与了 SGLang 的研发和优化。


6 月 27~28 日,在即将于北京举办的 AICon 全球人工智能开发与应用大会上,尹良升将发表演讲《SGLang 推理引擎——高效的开源部署方案》,将深入解析前沿大模型推理关键技术,并探讨其在实际应用中的优化与落地,同时结合最新版本展示如何以极低的成本部署 Deepseek V3/R1 等开源大语言模型。

敬请期待:https://aicon.infoq.cn/2025/beijing/presentation/6453


InfoQ:SGLang 开源推理引擎受到不少一线公司的采用。你觉得它最核心的技术优势是什么?相比其他开源方案,有哪些关键差异?


尹良升: 我认为 SGLang 最核心的优势在于高性能的实现和易于二次开发的代码。从 RadixAttention、高效的架构设计、Overlap Scheduling,到成功复现并集成了像 PD 分离、大规模 EP 等前沿技术,SGLang 实现了对不同主流模型的 SOTA 部署支持。这是我们区别于其他方案的关键。


InfoQ:你的演讲会介绍 PD 分离、推测解码、KV 缓存落盘等关键技术,这些优化在实际部署中解决了哪些痛点?


尹良升:


  • PD 分离:它解决了在 Prefill 和 Decode 混合部署时,Decode 经常被 Prefill 打断导致的延迟波动大、P99 尾延迟高的问题。分离部署后,Decode 的延迟变得均匀且稳定。同时,这种分离允许 Prefill 和 Decode 采用不同的部署策略和并行方式(比如不同的并行度),从而能更高效地利用资源。

  • 推测解码:这项技术的核心目标是降低 Decode 延迟。它通过利用模型隐藏层信息和小模型辅助,经过验证后一次预测多个 Token(相当于“一次解码,多步输出”),显著提升 Decode 速度,达到事半功倍的效果。

  • KV 缓存落盘:在多轮对话等需要复用之前计算出的 KV cache 的场景下,GPU 显存容量有限,难以存储所有用户的历史记录。KV 缓存落盘技术将不立即需要的、以往计算的 KV cache 存储在内存或硬盘等大容量存储设备中。当后续对话轮次需要复用这些历史上下文时,可以直接加载缓存的 KV 值,避免了重复进行耗时的 Prefill 计算,从而减少计算量并有效降低响应延迟。


InfoQ:关于如何平衡性能、资源利用率与成本,SGLang 在这方面有哪些通用的优化策略或架构设计可以借鉴?


尹良升: 平衡性能、资源利用率和成本需要根据下游任务进行 Trade-off:在离线批处理(Offline Batch)等对延迟不敏感的场景下,目标是最大化 GPU 显存利用率和批处理大小以提升吞吐、摊薄成本;而在线上推理等对延迟敏感的场景,则倾向于投入更多资源处理较少并发请求(如降低并行 Batch Size),优先保障每个请求的 Token 生成速度。


InfoQ:并行部署技术(如专家并行、注意力并行)越来越复杂,兼容性是一个现实挑战。SGLang 在支持多种并行方案上有哪些经验或踩坑故事?


尹良升: 在实现多种并行方案(比如专家并行)和分离式部署架构的过程中,我们踩的坑不仅仅在算法实现的初期,很多工程上的挑战更大。比如实现 DeepEP 时,它的通讯和 Prefill/Decode (PD) 之间传输 KV 缓存的时间需要重叠,这就容易导致网卡资源被同时争抢、CPU 负载过大、Python GIL 锁得不到及时释放等问题。


InfoQ:结合你的体验,能否分享下你认为 SGLang 社区是如何推动技术演进和应用场景落地之间的良性循环?


尹良升:SGLang 的核心是开源,让人人都能参与开发和贡献。我们广泛进行技术分享,旨在增强社区认同感并吸引新成员。社区的技术进步直接加速了应用落地,而我们超过 100k 显卡规模的大规模工业部署经验及来自社区的真实反馈,又持续指引着技术演进的方向,确保我们走在正确的道路上。


InfoQ:目前做大语言模型推理,除了算力之外,你认为开发者最容易忽视但最影响上线效率的环节是什么?


尹良升: 算力是基础,但拥有庞大的算力集群并不等于就有很高的实际部署性能。用户在实际使用中往往对延迟 (Latency) 等指标非常敏感。这种情况下,即使吞吐量能随着算力增长而提升,延迟指标却不一定能随之优化。我们认为最容易被忽视、也最拖慢上线效率的环节,是 面对几十甚至上百个配置参数(Config)的调试工作!如何高效地找到最优组合是巨大的挑战。“开箱即用”的配置通常不是最好的,精细化的调试才是关键难点。


InfoQ:对于关注大语言模型部署效率和成本控制的开发者来说,你希望他们在听完这场分享后,能带走哪些实用的经验或启发?


尹良升: 希望大家能认识到:模型规模只会越来越大,依赖单卡会越来越吃力。利用更多的 GPU 和高效的并行策略是实现高性能、低成本部署的必经之路。SGLang 在支持超大规模模型部署方面走在了前沿,积累了宝贵经验。我们非常欢迎大家一起来学习、实践,甚至参与贡献,共同推动这项技术的发展!

2025-06-11 17:201

评论

发布
暂无评论
发现更多内容

华为云网站安全解决方案:中小型企业的IT安全利器

IT科技苏辞

在 plist 中轻松转换两种格式

谷歌研究科学家:ChatGPT秘密武器的演进与局限

OneFlow

Dapr和Rainbond集成,实现云原生BaaS和模块化微服务开发

北京好雨科技有限公司

云原生 #Kubernetes# Baas rainbond 企业号 4 月 PK 榜

持续领先同行?看华为云EI如何助力企业智能化转型

爱尚科技

解锁企业数据管理的利器——DataOps

数造万象

华为云EI:引领企业智能化转型,助力全球行业创新

爱尚科技

华为云EI引领行业智能化转型:赋能全球企业,共创智能未来

爱尚科技

华为云网站安全解决方案,如何保障中小型企业云上云下安全?

IT科技苏辞

华为云网站安全解决方案:为您的企业保驾护航,助力安心创造未来!

IT科技苏辞

The era of Wallys/wifi7 has arrived-ipq9574+qcn9274.

Cindy-wallys

qcn9274 ipq9574

百度智能云助力达拉特旗入选“数字城市创新成果与实践案例”

百度开发者中心

人工智能 智慧城市 云智一体

OctConv:八度卷积复现

华为云开发者联盟

人工智能 华为云 卷积 华为云开发者联盟 企业号 4 月 PK 榜

嘉为蓝鲸携手腾讯云亮相石油石化峰会!

嘉为蓝鲸

能源 嘉为蓝鲸 研运一体化

深度学习:理解卷积神经网络(CNN)的原理和应用

兴科Sinco

人工智能 神经网络 深度学习 自然语言 图象识别

华为云网络安全解决方案,云上云下一体助力企业安心发展

IT科技苏辞

REST 与 SOAP 之间的差异

Apifox

Rest 协议 soap REST API SOAP Webservice

Wallys/The IPQ9554+qcn6274 support the new WiFi 7 standard

Cindy-wallys

ipq9554 qcn6274

报名开启!成都首个ChatGPT和大模型专题研讨会,期待您的参与!

NLP资深玩家

集简云已支持GPT-4 API接口,将最新AI模型接入到您的业务流程中

集简云开放平台

人工智能 ChatGPT

华为云FusionInsight引领现代数据平台革新:助力企业数字化转型与增值

科技怪授

基于低代码开发平台打造新时代OA系统

力软低代码开发平台

如何打开 plist 文件

ios 开发 IPA上传

DriveGPT自动驾驶大模型中国玩家首发!1200亿参数,毫末智行出品

Openlab_cosmoplat

人工智能 自动驾驶 机器学习 开源社区 ChatGPT

如何使用 Postman 发送 JSON 数据

Liam

json Postman 接口测试 API API 调试

“云智一体”进化史

百度开发者中心

人工智能 云智一体 文心一言

SGLang 推理引擎的技术要点与部署实践_AI&大模型_罗燕珊_InfoQ精选文章