写点什么

英伟达 GB200 NVL72 超级计算机在 DeepSeek V3 模型上实现 2.7 倍推理速度提升

作者:Matt Foster

  • 2025-07-03
    北京
  • 本文字数:1094 字

    阅读完需:约 4 分钟

大小:566.62K时长:03:13
英伟达GB200 NVL72超级计算机在DeepSeek V3模型上实现2.7倍推理速度提升

来自SGLang的研究人员与英伟达(NVIDIA)合作,公布了 GB200 (Grace Blackwell) NVL72 系统的早期基准测试结果。结果显示,在处理 DeepSeek-V3 671B 模型时,该系统的大语言模型(LLM)推理吞吐量相较于 H100 提升了高达 2.7 倍。


此次性能提升归功于专为 Blackwell 架构构建的一系列软件优化,其中包括针对 FP8 优化的矩阵乘法、加速的注意力内核以及通过NVLink实现的高速令牌(token)路由。这些增强功能已被集成到 SGLang 运行时中,以充分利用 GB200 密集的“多 GPU 互联架构”和统一内存模型。


英伟达的GB200 NVL72定位为适用于大规模人工智能的通用平台,涵盖了训练与推理两大领域。本次基准测试专攻推理,让外界得以在更大规模的训练和服务测试公开前,提前预览了系统在真实负载下的性能表现。


在使用 2000 个令牌作为 prompt 的解码基准测试中,SGLang 实现了每 GPU 每秒处理 7,583 个令牌的成绩,这比 H100 HGX 系统在相同工作负载下的表现提升了 2.7 倍。如此高的吞吐量能够为长上下文输入和高并发场景(例如技术文档摘要、具备代码库感知能力的人工智能助手,以及企业级检索增强生成 RAG)提供更快的响应速度。同时,它还减少了以交互方式服务大模型所需的 GPU 数量,从而在规模化部署时提升了延迟表现和成本效益。



该基准测试使用了由 DeepSeek 发布的DeepSeek-V3模型,这是一个拥有 6710 亿参数、仅包含解码器的大语言模型。该模型采用了 MoE 设计——每个令牌约激活 370 亿参数(约占总数的 9%),这意味着在推理过程中只使用了一小部分参数。


这种架构带来了现实的性能挑战:专家之间的令牌路由让GPU间的通信不堪重负,而庞大的模型尺寸和长提示也让 GPU 内存持续承压。


为实现此次性能飞跃,SGLang 团队在其运行时中集成了一系列 Blackwell 专属优化技术,例如:用于发挥新 UMMA 指令性能的高性能 FP8 矩阵乘法库 DeepGEMM;为 DeepSeek 模型预填充阶段优化的重写版融合注意力内核 FlashInfer FMHA;以及通过 NVLink 直接内存映射实现高效令牌分发的通信库 DeepEP。


该队还采用了两项技术:一是针对 Blackwell 内存层级结构优化的潜注意力内核 CUTLASS MLA,二是用于解耦式 KV Cache 传输的定制传输引擎 Mooncake。


总的来说,这些组件共同构成了一条软件路径,在 SGLang 的大规模多 GPU 推理实验中,最大限度地减少了计算、内存和通信的开销。


作者指出,尽管此次基准测试展示了解码吞吐量的显著提升,但仍有几个领域有待进一步优化。特别是预填充阶段尚未完全调整,并且许多内核尚未充分利用 GB200 的内存带宽或计算能力。此外,通信与计算也未完全重叠,这意味着未来仍有提升效率的空间。


后续工作将聚焦于优化预填充阶段,并进一步改善内存的延迟与利用率。


原文链接:https://www.infoq.com/news/2025/06/nvidia-gb200/

2025-07-03 15:001

评论

发布
暂无评论

券商数字化创新场景数据中台实践

袋鼠云数栈

数字化转型 数据治理

科兴未来|浙江丽水市第六届高层次人才创业大赛活动

科兴未来News

6月优质更文活动结果已出炉,快来看看有没有你

InfoQ写作社区官方

热门活动 6 月 优质更文活动

看这个视频,4万人学会云上部署 Stable Diffusion

Serverless Devs

云计算 Serverless 函数计算FC

如何使用 Flink SQL 探索 GitHub 数据集|Flink-Learning 实战营

Apache Flink

大数据 flink 实时计算

表格检测识别技术面临的挑战和发展趋势

合合技术团队

人工智能 表格识别 表格检测

采用Qt+Live555搭建RTSP服务器

DS小龙哥

6 月 优质更文活动

AI 和 DevOps:实现高效软件交付的完美组合

SEAL安全

AI DevOps 企业号 6 月 PK 榜

程序员搞开发的时候,心态真的不稳

伤感汤姆布利柏

火山引擎A/B测试推出智能流量调优实验,助力汽车行业破局营销困境

字节跳动数据平台

Flink CDC 2.4 正式发布,新增 Vitess 数据源,PostgreSQL 和 SQL Server CDC 连接器支持增量快照,升级 Debezium 版本

Apache Flink

flink

证书管理:从手工到平台化

vivo互联网技术

运维自动化 运维开发 证书管理

WEB系统安全之开源软件风险使用评估

天翼云开发者社区

开源 Web

鲲鹏入晋,乘云而起,华为开发者大会开启“山西时刻”,共话山西鲲鹏生态建设

彭飞

“Cisco Live 2023 大会”云原生观测解决方案成关键看点

乘云数字DataBuff

云原生 APM 可观测性 Cisco 智能运维AIOps

LED租赁屏市场

Dylan

活动 广告 方案 设备 LED显示屏

基于群组实现从 Azure AD 到极狐GitLab 的单点登录

极狐GitLab

统一身份认证 IdP 单点登录 用户同步 配置群组同步

Gartner®DevOps 平台魔力象限出炉,GitLab 获评「领导者」!

极狐GitLab

gitlab 安全 开放平台 开源贡献者 领导者象限

实现淘宝母婴订单实时查询和可视化|Flink-Learning实战营

Apache Flink

大数据 flink

MySQL中字符串查询效率大比拼

不在线第一只蜗牛

数据库 sql

南通市属于几线城市?本地有正规等保测评机构吗?

行云管家

等级保护 等保测评 南通

2023中国(抚远)冷水鱼预制菜高质量发展大会在黑龙江抚远举办

新消费日报

你说搞开发的很累,那做什么工作不累?

树上有只程序猿

如何用极狐GitLab 为 iOS App 创建自动化CI/CD?详细教程来了

极狐GitLab

ios DevOps gitlab 自动化 CI/CD

linux自动化运维工具用哪款好?理由是什么?

行云管家

Linux IT运维 自动化运维

英伟达GB200 NVL72超级计算机在DeepSeek V3模型上实现2.7倍推理速度提升_AI&大模型_InfoQ精选文章