写点什么

SGLang 推理引擎的技术要点与部署实践

  • 2025-06-11
    北京
  • 本文字数:2380 字

    阅读完需:约 8 分钟

SGLang 推理引擎的技术要点与部署实践

采访嘉宾|尹良升,SGLang 核心开发者


作为开源社区近年来备受瞩目的推理引擎,SGLang 自发布以来持续迭代优化。截至 2025 年 6 月,其在 GitHub 上已收获近 15K Stars,月均下载量突破 10 万次。凭借出色的性能表现和设计,SGLang 已被多个行业巨头采纳:包括 xAI(用于部署 Grok 3)、Microsoft Azure(用于运行 DeepSeek R1)、NVIDIA 和 AMD(深度集成),以及 LinkedIn、美团等在内的多家企业,均已在生产环境中将其投入使用。在 DeepSeek R1 发布时,SGLang 便成为其官方推荐的推理引擎之一。


2025 年 5 月,SGLang 提出了第一个完全开源的 DeepSeek 大规模专家并行部署方案,该方案也是目前开源实现中唯一能够复现官方博客所述推理性能和成本的方案。


近日,InfoQ 专访了 SGLang 核心开发者尹良升,他分享了该项目背后的关键技术、工程挑战与社区生态,以及如何在大模型推理中实现性能与成本的平衡。从 PD 分离架构带来的尾延迟控制,到推测解码提升 Token 生成速度,再到 KV 缓存落盘在多轮对话中的显存优化——这些关键能力使 SGLang 成为支持低成本、大规模模型部署的高性能推理引擎。


尹良升,现就读于上海交通大学 ACM 班,即将前往加州大学伯克利分校 Sky Computing 攻读计算机博士学位。他是 SGLang 最早期的几位核心开发者之一,深度参与了 SGLang 的研发和优化。


6 月 27~28 日,在即将于北京举办的 AICon 全球人工智能开发与应用大会上,尹良升将发表演讲《SGLang 推理引擎——高效的开源部署方案》,将深入解析前沿大模型推理关键技术,并探讨其在实际应用中的优化与落地,同时结合最新版本展示如何以极低的成本部署 Deepseek V3/R1 等开源大语言模型。

敬请期待:https://aicon.infoq.cn/2025/beijing/presentation/6453


InfoQ:SGLang 开源推理引擎受到不少一线公司的采用。你觉得它最核心的技术优势是什么?相比其他开源方案,有哪些关键差异?


尹良升: 我认为 SGLang 最核心的优势在于高性能的实现和易于二次开发的代码。从 RadixAttention、高效的架构设计、Overlap Scheduling,到成功复现并集成了像 PD 分离、大规模 EP 等前沿技术,SGLang 实现了对不同主流模型的 SOTA 部署支持。这是我们区别于其他方案的关键。


InfoQ:你的演讲会介绍 PD 分离、推测解码、KV 缓存落盘等关键技术,这些优化在实际部署中解决了哪些痛点?


尹良升:


  • PD 分离:它解决了在 Prefill 和 Decode 混合部署时,Decode 经常被 Prefill 打断导致的延迟波动大、P99 尾延迟高的问题。分离部署后,Decode 的延迟变得均匀且稳定。同时,这种分离允许 Prefill 和 Decode 采用不同的部署策略和并行方式(比如不同的并行度),从而能更高效地利用资源。

  • 推测解码:这项技术的核心目标是降低 Decode 延迟。它通过利用模型隐藏层信息和小模型辅助,经过验证后一次预测多个 Token(相当于“一次解码,多步输出”),显著提升 Decode 速度,达到事半功倍的效果。

  • KV 缓存落盘:在多轮对话等需要复用之前计算出的 KV cache 的场景下,GPU 显存容量有限,难以存储所有用户的历史记录。KV 缓存落盘技术将不立即需要的、以往计算的 KV cache 存储在内存或硬盘等大容量存储设备中。当后续对话轮次需要复用这些历史上下文时,可以直接加载缓存的 KV 值,避免了重复进行耗时的 Prefill 计算,从而减少计算量并有效降低响应延迟。


InfoQ:关于如何平衡性能、资源利用率与成本,SGLang 在这方面有哪些通用的优化策略或架构设计可以借鉴?


尹良升: 平衡性能、资源利用率和成本需要根据下游任务进行 Trade-off:在离线批处理(Offline Batch)等对延迟不敏感的场景下,目标是最大化 GPU 显存利用率和批处理大小以提升吞吐、摊薄成本;而在线上推理等对延迟敏感的场景,则倾向于投入更多资源处理较少并发请求(如降低并行 Batch Size),优先保障每个请求的 Token 生成速度。


InfoQ:并行部署技术(如专家并行、注意力并行)越来越复杂,兼容性是一个现实挑战。SGLang 在支持多种并行方案上有哪些经验或踩坑故事?


尹良升: 在实现多种并行方案(比如专家并行)和分离式部署架构的过程中,我们踩的坑不仅仅在算法实现的初期,很多工程上的挑战更大。比如实现 DeepEP 时,它的通讯和 Prefill/Decode (PD) 之间传输 KV 缓存的时间需要重叠,这就容易导致网卡资源被同时争抢、CPU 负载过大、Python GIL 锁得不到及时释放等问题。


InfoQ:结合你的体验,能否分享下你认为 SGLang 社区是如何推动技术演进和应用场景落地之间的良性循环?


尹良升:SGLang 的核心是开源,让人人都能参与开发和贡献。我们广泛进行技术分享,旨在增强社区认同感并吸引新成员。社区的技术进步直接加速了应用落地,而我们超过 100k 显卡规模的大规模工业部署经验及来自社区的真实反馈,又持续指引着技术演进的方向,确保我们走在正确的道路上。


InfoQ:目前做大语言模型推理,除了算力之外,你认为开发者最容易忽视但最影响上线效率的环节是什么?


尹良升: 算力是基础,但拥有庞大的算力集群并不等于就有很高的实际部署性能。用户在实际使用中往往对延迟 (Latency) 等指标非常敏感。这种情况下,即使吞吐量能随着算力增长而提升,延迟指标却不一定能随之优化。我们认为最容易被忽视、也最拖慢上线效率的环节,是 面对几十甚至上百个配置参数(Config)的调试工作!如何高效地找到最优组合是巨大的挑战。“开箱即用”的配置通常不是最好的,精细化的调试才是关键难点。


InfoQ:对于关注大语言模型部署效率和成本控制的开发者来说,你希望他们在听完这场分享后,能带走哪些实用的经验或启发?


尹良升: 希望大家能认识到:模型规模只会越来越大,依赖单卡会越来越吃力。利用更多的 GPU 和高效的并行策略是实现高性能、低成本部署的必经之路。SGLang 在支持超大规模模型部署方面走在了前沿,积累了宝贵经验。我们非常欢迎大家一起来学习、实践,甚至参与贡献,共同推动这项技术的发展!

2025-06-11 17:205056

评论

发布
暂无评论
发现更多内容

关于HTTPDNS,你知道多少?

移动研发平台EMAS

阿里云 网络 HTTP #EMAS

视频清晰度优化指南

得物技术

深度学习 算法 H.265 视频质量 图像超分

Awesome MegEngineer 英雄招募帖,开源社区专属权益等你来领

MegEngineBot

深度学习 开源 MegEngine 开发者福利

软件测试校招面试题 | 实习生和应届生有什么区别?

测试人

面试 软件测试 自动化测试 测试开发 实习

洞见科技姚明:隐私计算行业将会发展为多层级多领域的数据智能流通网络

洞见科技

加密算法是什么?有哪几种类型?有什么用?

行云管家

加密算法

DTSE Tech Talk | 第11期:深入浅出畅谈华为云低时延直播技术

华为云开发者联盟

云计算 后端 华为云

聚焦亮点,西安人工智能治理委员会成立暨产业政策白皮书正式发布

极客天地

房产|1-10月全国房地产开发投资数据解读

前嗅大数据

旺链科技创始人刘涛荣登“中国区块链60人”榜单

旺链科技

区块链 数字经济 产业区块链 企业号十月PK榜

千万级学生管理系统设计试卷存储方案

Geek_92ba6f

CSS学习笔记(八)

lxmoe

CSS 前端 学习笔记 11月月更

看完这篇线程、线程锁与线程池讲解,面试随便问!

小小怪下士

Java 程序员 面试 线程 线程池

初步探索GraalVM--云原生时代JVM黑科技

京东科技开发者

Java lua jdk 云原生 GraalVM

解析 RocketMQ 多样消费功能-消息过滤

阿里巴巴云原生

阿里云 RocketMQ 云原生

Python进阶(四十七)python3使用pyinstaller实现将py文件打包成exe文件

No Silver Bullet

Python pyinstaller 11月月更

房产|2022年10月房价数据出炉!房价上涨的城市仅有…

前嗅大数据

DevOps 必备的 Kubernetes 安全清单

SEAL安全

Kubernetes DevOps 安全

【C语言】goto 关键字

謓泽

11月月更

特种设备如何管理?不同岗位视角职责解析

PreMaint

设备管理 特种设备

kubernetes下jenkins实战maven项目编译构建

程序员欣宸

DevOps jenkins 11月月更

「Go易错集锦」意外的变量隐藏

Go学堂

golang 程序员 个人成长 常见错误 隐藏变量

CSS学习笔记(九)

lxmoe

CSS 前端 学习笔记 11月月更

IM通讯协议专题学习(二):快速理解Protobuf的背景、原理、使用、优缺点

JackJiang

7.PGL图学习之图游走类metapath2vec模型[系列五]

汀丶人工智能

图神经网络 GNN GCN 11月月更

Ernie-SimCSE对比学习在内容反作弊上应用

百度Geek说

人工智能 AI技术 企业号十月 PK 榜

单实例并发超1个亿!阿里云飞天洛神云网络NLB网络型负载均衡性能重大突破

云布道师

负载均衡 阿里云 云网络

探知数字化研发4 - 底座篇

薛飞

数字化研发 数字化底座

一文带你回顾操作系统的内存知识点

华为云开发者联盟

操作系统 开发 内存 华为云

Base64码常见操作(url链接文件转base64编码、本地文件转base64编码等)

共饮一杯无

Java base64 11月月更

收藏|多指标时序预测方式及时序特征工程总结

云智慧AIOps社区

人工智能 机器学习 深度学习 时间序列 时间序列预测

SGLang 推理引擎的技术要点与部署实践_AI&大模型_罗燕珊_InfoQ精选文章