写点什么

NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机

  • 2024-10-30
    北京
  • 本文字数:972 字

    阅读完需:约 3 分钟

大小:479.50K时长:02:43
NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机

2024 年 10 月 28 日,NVIDIA 宣布 xAI 位于田纳西州孟菲斯市的 Colossus 超级计算机集群达到了 10 万颗 NVIDIA® Hopper  GPU 的巨大规模。该集群使用了 NVIDIA Spectrum-X™ 以太网网络平台,该平台是专为多租户、超大规模的 AI 工厂提供卓越性能而设计的 RDMA(Remote Direct Memory Access)网络。

 

Colossus 是世界上最大的 AI 超级计算机,目前正被用于训练马斯克 xAI 的 Grok 系列大语言模型,以及作为 X Premium 用户功能之一的聊天机器人(Chatbot)。xAI 正在将 Colossus 的规模进一步扩大一倍至 20 万颗 NVIDIA HopperGPU。

 

据介绍,在训练 Grok 这种超大型模型时,Colossus 实现了空前的网络性能,在三层网络架构下,整个系统未出现任何因流量冲突而造成的应用延迟增加或数据包丢失的情况。凭借 Spectrum-X 先进的拥塞控制功能,系统数据吞吐量一直保持在 95%。这一性能水平是传统以太网在大规模的情况下根本无法实现的,传统以太网在数千条流发生冲突时,只能提供 60% 的数据吞吐量。

 

Spectrum-X 平台的核心是 Spectrum SN5600 以太网交换机,支持高达 800Gb/s 的端口速度,采用了 Spectrum-4 交换机 ASIC。xAI 采用了 Spectrum-X SN5600 交换机与 NVIDIA BlueField-3® SuperNIC 的端到端解决方案,以此实现了高性能。

 

专门面向 AI 的 Spectrum-X 以太网网络可在提供高效、可扩展带宽的同时,实现低延迟和短尾延迟,这些功能之前是 InfiniBand 网络所独有的。Spectrum-X 的功能包括基于 NVIDIA DDP(Direct Data Placement)技术的动态路由、拥塞控制计算,以及增强了 AI 网络的可视性和性能隔离,所有这些功能都是多租户生成式 AI 云和大型企业应用环境的关键要求。

 

xAI 和 NVIDIA 仅用了 122 天就建成了所有配套设施和这台最先进的超级计算机,从第一个机架落地到开始训练任务,只用了 19 天。而建造这种规模的系统通常需要数月乃至数年的时间。“Colossus 是世界上最强大的训练系统。xAI 团队、NVIDIA 和我们的众多合作伙伴及供应商干得漂亮。”埃隆·马斯克在 X 上说道。

 

NVIDIA 网络高级副总裁 Gilad Shainer 表示:“AI 正变得至关重要,对性能、安全性、可扩展性和成本效益提出了更高的要求。NVIDIA Spectrum-X 以太网网络平台专为那些如 xAI 一样的创新企业提供更快的处理、分析和执行 AI 工作负载的速度,进而加速 AI 解决方案的开发、部署和上市。”


2024-10-30 09:245354

评论

发布
暂无评论
发现更多内容

VMware ESXi 8.0U3d macOS Unlocker & OEM BIOS NVMe 驱动特殊定制版 (集成驱动版)

sysin

esxi

镜舟科技亮相 2025 中国移动云智算大会,展示数据湖仓一体创新方案

镜舟科技

人工智能 数据库 数据架构 中国移动 镜舟科技

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

声网

2025年全球最富裕城市

财见

从零到一开发 DeepSeek 智能聊天机器人

AI时代的一滴水

Python Chat AI API DeepSeek

冲破次元壁!初音未来梦幻联名丨华硕ROG DAY暨2025新品发布会

新消费日报

Lalamove基于Flink实时湖仓演进之路

Apache Flink

大数据 flink 实时计算

金仓数据库KingbaseES单机扩集群部署方案介绍

金仓技术

数据库· 电科金仓 金仓数据库

VMware ESXi 8.0U3d macOS Unlocker & OEM BIOS Lenovo (联想) 定制版

sysin

esxi

户外全彩LED显示屏应具备哪些性能?

Dylan

交通 LED 户外LED显示屏 体育 LED屏幕

商汤「日日新 V6」发布,国内最强多模态推理;三星新款「球球」机器人将接入 Gemini AI丨日报

声网

接入DeepSeek API,超详细

AI时代的一滴水

Python AI API DeepSeek

全球移动货币业务取得突破

财见

IBM收购 Hakkoda Inc.,扩展数据专业能力以推动客户的AI转型

财见

HR Path扩大爱尔兰英国业务版图

财见

VMware ESXi 8.0U3d macOS Unlocker & OEM BIOS Inspur (浪潮) 定制版

sysin

esxi

ProteinMPNN:基于深度学习的蛋白质序列设计模型

Splendid2025

企业跨地域多分支组网难?SD-WAN轻松解决!

Ogcloud

SD-WAN SD-WAN组网 SD-WAN厂商 sd-wan专线 SD-WAN厂家

Corinex获投资实现规模扩张

财见

VMware ESXi 8.0U3d macOS Unlocker & OEM BIOS xFusion (超聚变) 定制版

sysin

esxi

VMware ESXi 8.0U3d macOS Unlocker & OEM BIOS IEIT SYSTEMS (浪潮信息) 定制版

sysin

esxi

通义灵码 2.0 | AI程序员 荣耀登场

六月的雨在InfoQ

通义灵码 通义灵码2.0 AI辅助编程 AI代码助手

星闪技术代际领先,低时延、精定位、大带宽引领无线短距通信升级

科技热闻

高性能虚拟环境存储解决方案:基于 Xinnor RAID 引擎和 Kioxia PCIe 5.0 驱动器

Sergey Platonov

测试 HPC Performance raid Kiokia

MSKE铭文,一次正确的选择,足以改变你一生命运!

MSKE铭文

比特币行情 MSKE铭文 马斯克铭文 比特币铭文

《Operating System Concepts》阅读笔记:p606-p625

codists

操作系统

智能游戏开发神器 ,Dimensity Profiler让掉帧、内存飙升问题无所遁形

科技热闻

【征程 6】工具链VP示例中Cmakelists解读

地平线开发者

算法 自动驾驶; 地平线征程6

征程 6 VIO Frame 时间戳介绍

地平线开发者

自动驾驶 算法 地平线征程6

从 Greenplum 到 StarRocks:头部金融客户如何通过架构升级实现“实时分析自由”?

镜舟科技

数据架构 金融 分析型数据库 StarRocks 实时分析

新报告显示西班牙俱乐部在本土青训球员留用方面处于领先地位

新消费日报

NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机_AI&大模型_褚杏娟_InfoQ精选文章