写点什么

NVIDIA Dynamo 解决了多节点大语言模型推断的挑战

作者:Claudio Masolo

  • 2025-12-16
    北京
  • 本文字数:1555 字

    阅读完需:约 5 分钟

大小:799.39K时长:04:32
NVIDIA Dynamo解决了多节点大语言模型推断的挑战

大规模部署大语言模型(LLM)极具挑战性。现代 LLM 的参数规模已远超单块GPU甚至单个多 GPU 节点的内存与计算能力。因此,针对 70B+、120B+参数模型的推断工作负载或具有超大上下文窗口的流水线,必须采用多节点、分布式 GPU 的部署方案。

 

这一挑战正推动推理技术栈的创新,Dynamo应运而生。Dynamo 是一个开源的分布式推理框架,可跨 GPU 和节点统一管理执行流程。它将推理过程拆分为多个阶段(如 prefill 和 decode),并分离内存密集型与计算密集型任务。同时,Dynamo 能动态调度 GPU 资源,在提升资源利用率的同时保持低延迟。

 

借助 Dynamo,基础设施团队可灵活扩展推理容量,有效应对流量高峰,而无需长期过度地配置昂贵的 GPU 资源。该框架兼容任意的推理引擎,支持TensorRT-LLMvLLMSGLang等,为企业提供充分的技术选型自由度。

 

最近,Microsoft Azure 与 NVIDIA合作展示了开源的 NVIDIA Dynamo 框架。此次合作证明,通过任务解耦(disaggregation)、智能缓存和动态资源分配,可在 Kubernetes 上高效运行高性能 AI 工作负载。在最新发布的报告中,作者详细介绍了如何在 Azure Kubernetes Service(AKS)集群上部署 Dynamo,并运行于专为机架级扩展设计的 ND GB200-v6 虚拟机实例,即每台配备 72 颗紧密集成的 NVIDIA Blackwell GPU。

 

他们使用该配置运行开源的 120B 参数模型GPT-OSS 120B,并采用经过验证的“InferenceMAX”配方,实现了每秒 120 万 token 的吞吐量,充分证明 Dynamo 能够在标准集群上胜任企业级推理任务。

 

此次部署完全基于标准云原生工具:GPU 节点池、Helm(用于部署 Dynamo)以及 Kubernetes(用于编排)。这表明企业无需定制化基础设施即可从 Dynamo 中获益。

 

Dynamo 的核心创新在于将 LLM 推理的 prefill 阶段与 decode 阶段解耦,分别部署到不同的 GPU 上:Prefill 阶段处理输入上下文,属于计算密集型;Decode 阶段生成输出 token,属于内存密集型。通过分离这两个阶段,系统可针对各自特性独立优化,例如配置不同数量的 GPU、采用不同的并行策略。



这种架构解决了推理场景中的一个常见痛点。以电商应用为例:生成个性化商品推荐时,可能需要处理数千个 token 的用户与商品上下文(重 prefill),但仅输出 50 个 token 的简短描述(轻 decode)。若将两类任务放在同一 GPU 上执行,会造成资源浪费。而采用解耦式服务后,prefill GPU 专注高算力任务,decode GPU 则聚焦内存带宽与容量,实现资源最优分配。

 

Dynamo 还具备动态 GPU 调度能力,可根据实时流量变化调整资源。其内置的 Planner 组件基于 SLA 目标,利用时间序列数据预测流量趋势,并动态调整 prefill 与 decode 工作节点的 GPU 分配,以满足关键延迟指标,如“首 Token 时间”(Time to First Token)和“Token 间延迟”(Inter-Token Latency)。

 

在流量激增时,系统可将部分 decode GPU 临时转用于 prefill,或快速扩容新资源;当负载下降时,又能自动缩容。这种弹性机制帮助企业在不超配硬件的前提下,稳定达成服务等级目标。

 

此外,Dynamo 包含一个 LLM 感知的路由器,可追踪整个 GPU 集群中键值(KV)缓存的位置。当新请求到达时,路由器会计算其与已有 KV 缓存块的重叠度,并将请求路由至能最大化缓存复用的 GPU,从而减少冗余计算——尤其在多个请求共享相同上下文时效果显著。

 

在内存管理方面,Dynamo 的 KV Block Manager 可将访问频率较低的缓存块卸载至 CPU RAM、SSD 甚至对象存储中。这种分层缓存机制支持将缓存容量扩展至 PB 级,同时保持高效复用。若不进行卸载,随着并发会话增加,GPU 内存易发生缓存驱逐,导致昂贵的重复计算;而通过卸载,系统可在维持低延迟的同时服务更多用户。

 

Dynamo 被视为NVIDIA Triton推理服务器的继任者,融合了早期推理框架的经验教训。项目采用 Rust 构建以确保高性能,同时通过 Python 接口提供可扩展性,目前已在GitHub上完全开源。

 

原文链接:

NVIDIA Dynamo Addresses Multi-Node LLM Inference Challenges

2025-12-16 14:571

评论

发布
暂无评论

销量之王,去年程序员最爱看的技术书就是它!

博文视点Broadview

简单的线程池实现多线程对大文件的读取

CRMEB

Flink 实践教程-进阶(7):基础运维

腾讯云大数据

flink 实战 流计算 Oceanus

低代码实现探索(二十七)低代码如何继承传统

零道云-混合式低代码平台

安全研究人员发现:Nanocore等多个远控木马滥用公有云服务传播

H

网络安全

Nacos电子书 读后感(一)

努力努力再努力

1月日更

消息队列 RocketMQ 遇上可观测:业务核心链路可视化

阿里巴巴云原生

阿里云 RocketMQ 云原生 消息队列 可观测

i人事CTO王景飞:i人事+计算巢,协同赋能HR业务

阿里云弹性计算

阿里云 计算巢

markdown-it 插件如何写(二)

冴羽

前端 markdown vuepress markdown-it markdown-it插件

流计算 Oceanus | Flink JVM 内存超限的分析方法总结

腾讯云大数据

flink 实战 流计算 Oceanus

Kubernetes 下部署 JMeter 集群

zuozewei

Jmeter 性能测试 1月月更

低代码实现探索(二十六)移动端H5开发

零道云-混合式低代码平台

RadonDB PostgreSQL on K8s 2.1.0 发布!

RadonDB

数据库 postgresql 开源 RadonDB

喜报!东方证券携手博睿数据荣获《金融电子化》2021科技赋能金融业务突出贡献奖

博睿数据

12月云短信报告出炉,阿里云闯进前三

博睿数据

征文投稿丨使用轻量应用服务器部署Hadoop云集群

阿里云弹性计算

hadoop 轻量应用 征文投稿

OpenMLDB在AKULAKU实时特征计算场景的应用

第四范式开发者社区

机器学习 大数据 OpenMLDB 特征平台

【网络研讨会】“专家面对面”-MongoDB模式设计

MongoDB中文社区

mongodb

使用APICloud AVM框架开发预约应用

YonBuilder低代码开发平台

前端框架 APP开发 APICloud 跨端开发 小程序开发

精彩回顾!| Google DevFest 2021 广州国际嘉年华

江湖老铁

用11本白皮书搭建3座桥:联想企业科技集团让智能化转型不再有孤岛

脑极体

架构实战营-毕业设计

Beyond Ryan

StreamNative 联合传智教育推出免费 Apache Pulsar 中文视频教程

Apache Pulsar

大数据 开源 架构 云原生 Apache Pulsar

浪花过后,2022低代码该往哪儿走?

ToB行业头条

架构实战营:模块六作业

Geek_93ffb0

「架构实战营」

哲元科技×飞桨EasyDL|助力世界500强企业打造“灯塔工厂”,探索智能制造星辰大海

百度大脑

通证经济是更高层次的自由

CECBC

使用hydra对端口进行爆破

喀拉峻

明道云助力东航食品营销数据整合

明道云

网络安全kali渗透学习 web渗透入门 ARL资产侦察灯塔系统搭建及使用

学神来啦

云信小课堂|如何实现音视频安全检测?

网易云信

安全 音视频

NVIDIA Dynamo解决了多节点大语言模型推断的挑战_AI&大模型_InfoQ精选文章