写点什么

英伟达 GB200 NVL72 超级计算机在 DeepSeek V3 模型上实现 2.7 倍推理速度提升

作者:Matt Foster

  • 2025-07-03
    北京
  • 本文字数:1094 字

    阅读完需:约 4 分钟

大小:566.62K时长:03:13
英伟达GB200 NVL72超级计算机在DeepSeek V3模型上实现2.7倍推理速度提升

来自SGLang的研究人员与英伟达(NVIDIA)合作,公布了 GB200 (Grace Blackwell) NVL72 系统的早期基准测试结果。结果显示,在处理 DeepSeek-V3 671B 模型时,该系统的大语言模型(LLM)推理吞吐量相较于 H100 提升了高达 2.7 倍。


此次性能提升归功于专为 Blackwell 架构构建的一系列软件优化,其中包括针对 FP8 优化的矩阵乘法、加速的注意力内核以及通过NVLink实现的高速令牌(token)路由。这些增强功能已被集成到 SGLang 运行时中,以充分利用 GB200 密集的“多 GPU 互联架构”和统一内存模型。


英伟达的GB200 NVL72定位为适用于大规模人工智能的通用平台,涵盖了训练与推理两大领域。本次基准测试专攻推理,让外界得以在更大规模的训练和服务测试公开前,提前预览了系统在真实负载下的性能表现。


在使用 2000 个令牌作为 prompt 的解码基准测试中,SGLang 实现了每 GPU 每秒处理 7,583 个令牌的成绩,这比 H100 HGX 系统在相同工作负载下的表现提升了 2.7 倍。如此高的吞吐量能够为长上下文输入和高并发场景(例如技术文档摘要、具备代码库感知能力的人工智能助手,以及企业级检索增强生成 RAG)提供更快的响应速度。同时,它还减少了以交互方式服务大模型所需的 GPU 数量,从而在规模化部署时提升了延迟表现和成本效益。



该基准测试使用了由 DeepSeek 发布的DeepSeek-V3模型,这是一个拥有 6710 亿参数、仅包含解码器的大语言模型。该模型采用了 MoE 设计——每个令牌约激活 370 亿参数(约占总数的 9%),这意味着在推理过程中只使用了一小部分参数。


这种架构带来了现实的性能挑战:专家之间的令牌路由让GPU间的通信不堪重负,而庞大的模型尺寸和长提示也让 GPU 内存持续承压。


为实现此次性能飞跃,SGLang 团队在其运行时中集成了一系列 Blackwell 专属优化技术,例如:用于发挥新 UMMA 指令性能的高性能 FP8 矩阵乘法库 DeepGEMM;为 DeepSeek 模型预填充阶段优化的重写版融合注意力内核 FlashInfer FMHA;以及通过 NVLink 直接内存映射实现高效令牌分发的通信库 DeepEP。


该队还采用了两项技术:一是针对 Blackwell 内存层级结构优化的潜注意力内核 CUTLASS MLA,二是用于解耦式 KV Cache 传输的定制传输引擎 Mooncake。


总的来说,这些组件共同构成了一条软件路径,在 SGLang 的大规模多 GPU 推理实验中,最大限度地减少了计算、内存和通信的开销。


作者指出,尽管此次基准测试展示了解码吞吐量的显著提升,但仍有几个领域有待进一步优化。特别是预填充阶段尚未完全调整,并且许多内核尚未充分利用 GB200 的内存带宽或计算能力。此外,通信与计算也未完全重叠,这意味着未来仍有提升效率的空间。


后续工作将聚焦于优化预填充阶段,并进一步改善内存的延迟与利用率。


原文链接:https://www.infoq.com/news/2025/06/nvidia-gb200/

2025-07-03 15:006702

评论

发布
暂无评论

助力车路云一体化,EMQ在车路协同领域的应用实践

EMQ映云科技

物联网 IoT emq 11月月更 车路协同

JAVA concurrency -- ArrayBlockingQueue源码详解

骑牛上青山

Java 源码

JAVA concurrency -- CyclicBarrier 与 CountDownLatch 源码详解

骑牛上青山

Java 源码

分布式系统中的哈希算法

骑牛上青山

数据结构 分布式 算法 哈希

jvm(二)内存管理与虚拟机执行子系统

想要飞的猪

java对象内存布局 jvm加载子系统

2022下半年《软考-系统架构设计师》备考经验分享

劼哥stone

软考 系统架构师

用户体验成为继MAU后,手机银行竞争分化的下一分水岭,易观千帆重磅发布手机银行APP用户体验GX评测

易观分析

App 手机银行

JAVA concurrency -- ThreadLocal 源码详解

骑牛上青山

Java 源码

一次zuul版本升级产生的问题排查记录

骑牛上青山

Java spring 源码 Zuul 生产环境

简单时序逻辑电路

芯动大师

Verilog 11月月更 锁存器

OpenYurt v1.1.0: 新增 DaemonSet 的 OTA 和 Auto 升级策略

阿里巴巴云原生

阿里云 开源 云原生 openyurt

一场算力集结令,国产芯片如何开启冲刺跑?

脑极体

L1、L2范数理解--Ridge以及Lasso回归

Studying_swz

深度学习 11月月更

动态路由协议(一)

我叫于豆豆吖.

11月月更

2022昇腾AI创新大赛圆满收官,看这届评委怎么说?

极客天地

融云「百幄」之数字人,升级交互体验的「新同事」

融云 RongCloud

AI 通信 数字化

爬虫基本原理介绍、实现以及问题解决

石臻臻的杂货铺

爬虫

Redis LRU 内存淘汰算法大有玄机

码哥字节

LRU Redis 6.0

链路状态路由协议 OSPF (一)

我叫于豆豆吖.

11月月更

算法题学习---单链表的排序

桑榆

算法题 11月月更

东方通Tongweb中间件Linux环境部署

@下一站

技术 中间件 linux 文件权限控制 Java core 11月月更

重塑感知,荣耀金洋!金洋奖两项用户体验奖项公布

易观分析

App 手机银行

HIFIVE音加加:多场景音乐版权解决方案,让「用音乐」更便捷

曲多多(嗨翻屋)版权音乐

版权保护 视频后期 数字版权保护

使用gitflow时如何合并hotfix

Geek_pwdeic

为什么要做用户留存分析

穿过生命散发芬芳

用户留存 11月月更

流程表单初体验

江南一点雨

Java spring springboot flowable

[力扣] 剑指 Offer 第三天 - 替换空格

陈明勇

Go 数据结构与算法 力扣 11月月更

JAVA concurrency -- ReentrantLock 源码详解

骑牛上青山

Java 源码

OSPF路由协议一

初学者

11月月更

通过阅读源码解决项目难题:GToken替换JWT实现SSO单点登录

王中阳Go

Go golang 高效工作 学习方法 11月月更

动态路由协议(二)

我叫于豆豆吖.

11月月更

英伟达GB200 NVL72超级计算机在DeepSeek V3模型上实现2.7倍推理速度提升_AI&大模型_InfoQ精选文章