写点什么

NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机

  • 2024-10-30
    北京
  • 本文字数:972 字

    阅读完需:约 3 分钟

大小:479.50K时长:02:43
NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机

2024 年 10 月 28 日,NVIDIA 宣布 xAI 位于田纳西州孟菲斯市的 Colossus 超级计算机集群达到了 10 万颗 NVIDIA® Hopper  GPU 的巨大规模。该集群使用了 NVIDIA Spectrum-X™ 以太网网络平台,该平台是专为多租户、超大规模的 AI 工厂提供卓越性能而设计的 RDMA(Remote Direct Memory Access)网络。

 

Colossus 是世界上最大的 AI 超级计算机,目前正被用于训练马斯克 xAI 的 Grok 系列大语言模型,以及作为 X Premium 用户功能之一的聊天机器人(Chatbot)。xAI 正在将 Colossus 的规模进一步扩大一倍至 20 万颗 NVIDIA HopperGPU。

 

据介绍,在训练 Grok 这种超大型模型时,Colossus 实现了空前的网络性能,在三层网络架构下,整个系统未出现任何因流量冲突而造成的应用延迟增加或数据包丢失的情况。凭借 Spectrum-X 先进的拥塞控制功能,系统数据吞吐量一直保持在 95%。这一性能水平是传统以太网在大规模的情况下根本无法实现的,传统以太网在数千条流发生冲突时,只能提供 60% 的数据吞吐量。

 

Spectrum-X 平台的核心是 Spectrum SN5600 以太网交换机,支持高达 800Gb/s 的端口速度,采用了 Spectrum-4 交换机 ASIC。xAI 采用了 Spectrum-X SN5600 交换机与 NVIDIA BlueField-3® SuperNIC 的端到端解决方案,以此实现了高性能。

 

专门面向 AI 的 Spectrum-X 以太网网络可在提供高效、可扩展带宽的同时,实现低延迟和短尾延迟,这些功能之前是 InfiniBand 网络所独有的。Spectrum-X 的功能包括基于 NVIDIA DDP(Direct Data Placement)技术的动态路由、拥塞控制计算,以及增强了 AI 网络的可视性和性能隔离,所有这些功能都是多租户生成式 AI 云和大型企业应用环境的关键要求。

 

xAI 和 NVIDIA 仅用了 122 天就建成了所有配套设施和这台最先进的超级计算机,从第一个机架落地到开始训练任务,只用了 19 天。而建造这种规模的系统通常需要数月乃至数年的时间。“Colossus 是世界上最强大的训练系统。xAI 团队、NVIDIA 和我们的众多合作伙伴及供应商干得漂亮。”埃隆·马斯克在 X 上说道。

 

NVIDIA 网络高级副总裁 Gilad Shainer 表示:“AI 正变得至关重要,对性能、安全性、可扩展性和成本效益提出了更高的要求。NVIDIA Spectrum-X 以太网网络平台专为那些如 xAI 一样的创新企业提供更快的处理、分析和执行 AI 工作负载的速度,进而加速 AI 解决方案的开发、部署和上市。”


2024-10-30 09:245509

评论

发布
暂无评论
发现更多内容

react hook 源码完全解读

flyzz177

React

Centos 7.2搭建MariaDB数据库服务器应用与管理

指剑

centos MariaDB 11月月更

(一)OpenStack---M版---双节点搭建---基础环境配置

指剑

centos OpenStack 11月月更

CentOS-7.2部署Squid服务

指剑

centos 11月月更 squid

Centos 7.2安装FTP服务并进行相关设置

指剑

centos ftp 11月月更

(二)OpenStack---M版---双节点搭建---数据库安装和配置

指剑

centos OpenStack 11月月更

AI简报-重参数化RepVGG

AIWeker

深度学习 AI简报 11月月更

Discourse 的左侧边栏可以修改吗

HoneyMoose

React源码分析5-commit

goClient1992

React

react源码中的fiber架构

flyzz177

React

Hadoop完全分布式环境搭建(三节点)

指剑

hadoop Bigdata 11月月更

【web 开发基础】PHP中多维数组的声明 (44)

迷彩

数据结构 一维数组 二维数组 11月月更 多维数组

AWS之EC2实例搭建LAMP服务器

指剑

AWS EC2 LAMP 11月月更

【web 开发基础】PHP中使用array()语言结构新建数组(43)

迷彩

数据结构 array 11月月更 array() 新建数组

python小知识-内置方法和属性应用:反射和单例

AIWeker

Python python小知识 11月月更

【web 开发基础】PHP中数组的遍历(45)

迷彩

数据结构 数组 foreach 11月月更 数组遍历

React源码分析6-hooks源码

goClient1992

React

湖仓一体电商项目(十六):业务实现之编写写入ODS层业务代码

Lansonli

湖仓一体电商项目 11月月更

湖仓一体电商项目(十五):实时统计商品及一级种类、二级种类访问排行业务需求和分层设计及流程图

Lansonli

湖仓一体电商项目 11月月更

Python第三方模块:PyQt5简介

指剑

Python PyQt5 11月月更

AWS之EC2搭建WordPress博客

指剑

AWS WordPress 11月月更

react源码中的hooks

flyzz177

React

xxl-job客户端架构流程

IT巅峰技术

Spark编程基础(Python版)

指剑

Python spark 11月月更

(三)OpenStack---M版---双节点搭建---Keystone安装和配置

指剑

centos OpenStack 11月月更

【web 开发基础】PHP中的预定义数组(46)

迷彩

php web开发基础 11月月更 预定义 超全局数组变量

React源码分析4-深度理解diff算法

goClient1992

React

世界杯火热进行中, 用一个div画个足球场助助兴

南城FE

CSS css3 前端 足球场

Centos 7.2搭建HTTP服务,并进行相关配置

指剑

centos httpd 11月月更

CentOS-7.2部署OpenLDAP服务器以及客户端

指剑

centos openldap 11月月更

2022叉车模组发布会:打破整车生产思维,叉车迎来模组化创新

E科讯

NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机_AI&大模型_褚杏娟_InfoQ精选文章