2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

SGLang 推理引擎——高效的开源部署方案|AICon 北京

  • 2025-06-16
    北京
  • 本文字数:1101 字

    阅读完需:约 4 分钟

大小:587.93K时长:03:20
SGLang 推理引擎——高效的开源部署方案|AICon北京

6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。


SGLang 核心开发者尹良升已确认出席并发表题为《强化学习 AI 系统的设计实现及未来发展》的主题分享。开源大语言模型快速发展,如 Deepseek V3 和 R1,展现了卓越的性能表现,同时其高效的部署方案大幅降低了推理成本。该方案整合了多项前沿技术,包括大规模专家并行、注意力并行、推测解码、Prefill 与 Decode 的分离部署,以及高效的 KV 缓存落盘实现。这些技术的结合,构成了当前最先进、最高效的大语言模型推理体系。


作为主流开源推理框架之一,SGLang 已深度集成这些技术。本次演讲将深入解析这些关键技术,并探讨其在实际应用中的优化与落地,同时结合最新版本展示如何以极低的成本部署 Deepseek V3/R1 等开源大语言模型。



尹良升就读于上海交通大学 ACM 班,即将前往加州大学伯克利分校 Sky Computing 攻读计算机博士学位。


作为最早期的几位核心开发者之一,深度参与了 SGLang 的研发和优化。SGLang 作为开源社区中备受关注的推理引擎,截至 2025 年 3 月,已在 GitHub 上获得 11K+ Stars,月均下载量超过 10 万。SGLang 也被多个行业巨头采用,包括 xAI(用于部署 Grok 3)、Microsoft Azure(运行 DeepSeek R1)、NVIDIA 和 AMD(深度集成)以及 LinkedIn、美团等企业的生产环境。在 DeepSeek R1 发布时,SGLang 便成为其官方推荐的推理引擎之一。他在本次会议的详细演讲内容如下:


演讲提纲

  1. PD 分离技术的高效实现

  2. 大规模专家并行、注意力并行等多种并行方案的兼容和高效部署

  3. 多级 KV Cache 的缓存设计

  4. 高效的 Eagle 推测解码、引用推测解码和基于语法的结构解码设计

  5. SGLang 社区生态与发展


您认为,这样的技术在实践过程中有哪些痛点?

  • 高质量的开发人员人手不足

  • 技术兼容性问题


您的演讲有哪些前沿亮点?

被多个行业巨头采用的推理引擎背后,多项核心技术深度解析


听众收益:

  • 学习前沿大模型推理技术的开源实现

  • 学习开源社区的开发经验和管理方案


除此之外,本次大会还策划了AI Agent 构建与多场景实践多模态实践与应用大模型助力研发的实战经验AI 在业务运营中的深度落地大模型时代的数据处理与分析AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


大会开幕在即,了解更多报名和详情信息可扫码或联系票务经理 13269078023 咨询。



2025-06-16 13:001

评论

发布
暂无评论

什么样的云桌面套餐适合按需计费的用户?

青椒云云电脑

云桌面

如何利用海外服务器推广国际业务?

Ogcloud

云服务器 服务器租用 海外服务器 海外高防服务器 海外云服务器

Spring Boot 的执行器是什么?

我爱娃哈哈😍

微服务 执行器 spring-boot

顶级云桌面套餐:远程办公的终极指南

青椒云云电脑

云桌面 云桌面方案 云桌面系统

淘宝天猫商品评论数据接口 —— 电商决策的宝贵资源

tbapi

淘宝API接口 淘宝商品评论数据接口 天猫商品评论数据接口

计划建设数据中台前,这些问题要提前考虑

Aloudata

数据中台 数据仓库 数据虚拟化 noetl

实操上手TinyEngine低代码引擎插件化开发

OpenTiny社区

开源 前端 插件化 OpenTiny 低代码引擎

低代码突破:工业领域应用的潜力与难题解析!

不在线第一只蜗牛

低代码

1017关键词 | Nvidia模型超越GPT-4 | 全模态框架发布 | ChatGPT访问量超必应

言寡意多

Databend 产品月报(2024年9月)

Databend

Js数组&高阶函数

不在线第一只蜗牛

JavaScript 前端

5大提升工作效率的桌面软件,深度评测!

秃头小帅oi

日志分析是什么?如何进行日志分析?

ServiceDesk_Plus

日志分析 日志采集 日志处理

【直播预约】下周四大咖云集,不见不散!运维生态直播之“可观测技术实践”等你来~

乘云数字DataBuff

可观测性 zabbix oceanbase 应用性能监控 一体化可观测平台Databuff

理解 Spring Boot

我爱娃哈哈😍

微服务 spring-boot

怎么提升国外服务器访问速度?实用技巧分享

Ogcloud

网络加速 国外服务器 服务器加速

当三位神话人物,穿越到智能视频新视界……

白洞计划

AI 音视频

如何让数据清洗工作变得简单

RestCloud

数据同步 ETL 数据清洗 数据集成平台

2024年最佳云桌面服务:为远程工作者量身定制

青椒云云电脑

云桌面 云桌面厂家

2023开年力作!《流程挖掘白皮书》重磅发布

望繁信科技

数字化转型 流程挖掘 流程资产 流程智能 望繁信科技

有哪些常见的云桌面使用误区?

青椒云云电脑

云桌面 云桌面厂家 云桌面方案

干货分享|工作8年,我的职场成长笔记

京东零售技术

技术成长

IT行业还有未来吗?

程序员高级码农

程序员 互联网 计算机 #编程

全球CDN加速的优势与作用

HUODUNYUN

CDN CDN加速 CDN技术 CDN网络加速 全球CDN

澜舟科技新突破:大模型实现“持续学习”,应用成本大幅降低

澜舟孟子开源社区

人工智能 持续学习 企业服务

复旦大学全球供应链研究中心揭牌,合合信息共话大数据赋能

合合技术团队

大数据‘’

StarRocks Lakehouse 快速入门——Hive Catalog

StarRocks

数据库 hive LakeHouse

SGLang 推理引擎——高效的开源部署方案|AICon北京_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章