写点什么

SGLang 推理引擎——高效的开源部署方案|AICon 北京

  • 2025-06-16
    北京
  • 本文字数:1101 字

    阅读完需:约 4 分钟

大小:587.93K时长:03:20
SGLang 推理引擎——高效的开源部署方案|AICon北京

6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。


SGLang 核心开发者尹良升已确认出席并发表题为《强化学习 AI 系统的设计实现及未来发展》的主题分享。开源大语言模型快速发展,如 Deepseek V3 和 R1,展现了卓越的性能表现,同时其高效的部署方案大幅降低了推理成本。该方案整合了多项前沿技术,包括大规模专家并行、注意力并行、推测解码、Prefill 与 Decode 的分离部署,以及高效的 KV 缓存落盘实现。这些技术的结合,构成了当前最先进、最高效的大语言模型推理体系。


作为主流开源推理框架之一,SGLang 已深度集成这些技术。本次演讲将深入解析这些关键技术,并探讨其在实际应用中的优化与落地,同时结合最新版本展示如何以极低的成本部署 Deepseek V3/R1 等开源大语言模型。



尹良升就读于上海交通大学 ACM 班,即将前往加州大学伯克利分校 Sky Computing 攻读计算机博士学位。


作为最早期的几位核心开发者之一,深度参与了 SGLang 的研发和优化。SGLang 作为开源社区中备受关注的推理引擎,截至 2025 年 3 月,已在 GitHub 上获得 11K+ Stars,月均下载量超过 10 万。SGLang 也被多个行业巨头采用,包括 xAI(用于部署 Grok 3)、Microsoft Azure(运行 DeepSeek R1)、NVIDIA 和 AMD(深度集成)以及 LinkedIn、美团等企业的生产环境。在 DeepSeek R1 发布时,SGLang 便成为其官方推荐的推理引擎之一。他在本次会议的详细演讲内容如下:


演讲提纲

  1. PD 分离技术的高效实现

  2. 大规模专家并行、注意力并行等多种并行方案的兼容和高效部署

  3. 多级 KV Cache 的缓存设计

  4. 高效的 Eagle 推测解码、引用推测解码和基于语法的结构解码设计

  5. SGLang 社区生态与发展


您认为,这样的技术在实践过程中有哪些痛点?

  • 高质量的开发人员人手不足

  • 技术兼容性问题


您的演讲有哪些前沿亮点?

被多个行业巨头采用的推理引擎背后,多项核心技术深度解析


听众收益:

  • 学习前沿大模型推理技术的开源实现

  • 学习开源社区的开发经验和管理方案


除此之外,本次大会还策划了AI Agent 构建与多场景实践多模态实践与应用大模型助力研发的实战经验AI 在业务运营中的深度落地大模型时代的数据处理与分析AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


大会开幕在即,了解更多报名和详情信息可扫码或联系票务经理 13269078023 咨询。



2025-06-16 13:004207

评论

发布
暂无评论

Tcp网络模型

你?

Spring的底层实现机制

编程江湖

Spring JPA

从零开发区块链应用(四)--自定义业务错误信息

杰哥的技术杂货铺

社区知识库|常见问答 FAQ 集合第 2 期:Topic 配置、ACK 等问题的解决

Apache Pulsar

架构 云原生 Apache Pulsar 开源社区 消息中间件

博文推荐|深入解析Apache BookKeeper 系列:第一篇 — 架构原理

Apache Pulsar

开源 架构 云原生 中间件 Apache Pulsar

社区知识库|常见问答 FAQ 集合第 3 期:Topic 数量、Broker 设置等相关问题

Apache Pulsar

分布式 云原生 Apache Pulsar 开源社区 消息中间件

低代码实现探索(二十四)业务的领域可视化构思

零道云-混合式低代码平台

Linux之date命令

入门小站

Linux

Form 表单在数栈的应用(下):深入篇

袋鼠云数栈

前端

HarmonyOS工程【鸿蒙开发02】

坚果

鸿蒙开发 1月月更

Go 语言快速入门指南:Go 结构体

宇宙之一粟

Go 语言 结构体 1月月更

SIG技术直播来了!技术专家教你,如何使用 iLogtail 采集可观测数据?

OpenAnolis小助手

Linux 开源 数据 直播 采集

Spring中部署Activiti流程定义的三种姿势

华为云开发者联盟

spring 工作流 Activiti流程 Activiti框架 Activiti Explorer

只有天空才是你的极限,我们热爱探索的过程并沉浸其中丨图数据库 TiMatch 团队访谈

PingCAP

从零开发区块链应用(二)--mysql安装及数据库表的安装创建

杰哥的技术杂货铺

模块 5 作业

miliving

设计模式【11】-- 搞定组合模式

秦怀杂货店

Java 组合模式

博文推荐|Apache Pulsar: 统一消息流平台

Apache Pulsar

开源 云原生 broker Apache Pulsar 消息中间件

谈A股投资策略--《香帅中国财富报告》摘录(5/100)

hackstoic

投资

社区知识库|常见问答 FAQ 集合第 4 期:消息保留及延迟、Broker、Pulsar 权限等相关问题

Apache Pulsar

架构 云原生 开源社区 消息中间件 Apachepulsar

ReactNative进阶(二十四):react-native-scrollable-tab-view 标签导航器组件详解

No Silver Bullet

1月月更 ReactNative 标签导航

2022AJAX常见面试题分享

编程江湖

ajax

web技术分享| 白板SDK之函数和方程式的运用

anyRTC开发者

前端 音视频 视频会议 白板 web技术分享

(1-15/15) 预训练模型+微调范式下如何做到文本数据安全

mtfelix

300天创作 2022Y300P

鸿蒙开发初体验【鸿蒙01】

坚果

鸿蒙 1月月更

HTTP跨域小结

wong

nginx HTTP cros

带你读AI论文丨RAID2020 Cyber Threat Intelligence Modeling GCN

华为云开发者联盟

网络威胁情报 CTI 异构信息网络 GCN HINTI

详解 Flink 中 Time 与 Window

五分钟学大数据

flink 1月月更

从零开发区块链应用(一)--golang配置文件管理工具viper

杰哥的技术杂货铺

golang 区块链

从零开发区块链应用(三)--mysql初始化及gorm框架使用

杰哥的技术杂货铺

1月月更|推荐学java——Spring集成MyBatis

逆锋起笔

mybatis ssm Spring Framework spring aop spring+mybatis

SGLang 推理引擎——高效的开源部署方案|AICon北京_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章