写点什么

NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机

  • 2024-10-30
    北京
  • 本文字数:972 字

    阅读完需:约 3 分钟

大小:479.50K时长:02:43
NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机

2024 年 10 月 28 日,NVIDIA 宣布 xAI 位于田纳西州孟菲斯市的 Colossus 超级计算机集群达到了 10 万颗 NVIDIA® Hopper  GPU 的巨大规模。该集群使用了 NVIDIA Spectrum-X™ 以太网网络平台,该平台是专为多租户、超大规模的 AI 工厂提供卓越性能而设计的 RDMA(Remote Direct Memory Access)网络。

 

Colossus 是世界上最大的 AI 超级计算机,目前正被用于训练马斯克 xAI 的 Grok 系列大语言模型,以及作为 X Premium 用户功能之一的聊天机器人(Chatbot)。xAI 正在将 Colossus 的规模进一步扩大一倍至 20 万颗 NVIDIA HopperGPU。

 

据介绍,在训练 Grok 这种超大型模型时,Colossus 实现了空前的网络性能,在三层网络架构下,整个系统未出现任何因流量冲突而造成的应用延迟增加或数据包丢失的情况。凭借 Spectrum-X 先进的拥塞控制功能,系统数据吞吐量一直保持在 95%。这一性能水平是传统以太网在大规模的情况下根本无法实现的,传统以太网在数千条流发生冲突时,只能提供 60% 的数据吞吐量。

 

Spectrum-X 平台的核心是 Spectrum SN5600 以太网交换机,支持高达 800Gb/s 的端口速度,采用了 Spectrum-4 交换机 ASIC。xAI 采用了 Spectrum-X SN5600 交换机与 NVIDIA BlueField-3® SuperNIC 的端到端解决方案,以此实现了高性能。

 

专门面向 AI 的 Spectrum-X 以太网网络可在提供高效、可扩展带宽的同时,实现低延迟和短尾延迟,这些功能之前是 InfiniBand 网络所独有的。Spectrum-X 的功能包括基于 NVIDIA DDP(Direct Data Placement)技术的动态路由、拥塞控制计算,以及增强了 AI 网络的可视性和性能隔离,所有这些功能都是多租户生成式 AI 云和大型企业应用环境的关键要求。

 

xAI 和 NVIDIA 仅用了 122 天就建成了所有配套设施和这台最先进的超级计算机,从第一个机架落地到开始训练任务,只用了 19 天。而建造这种规模的系统通常需要数月乃至数年的时间。“Colossus 是世界上最强大的训练系统。xAI 团队、NVIDIA 和我们的众多合作伙伴及供应商干得漂亮。”埃隆·马斯克在 X 上说道。

 

NVIDIA 网络高级副总裁 Gilad Shainer 表示:“AI 正变得至关重要,对性能、安全性、可扩展性和成本效益提出了更高的要求。NVIDIA Spectrum-X 以太网网络平台专为那些如 xAI 一样的创新企业提供更快的处理、分析和执行 AI 工作负载的速度,进而加速 AI 解决方案的开发、部署和上市。”


2024-10-30 09:245724

评论

发布
暂无评论
发现更多内容

2021年9月数据库流行度排行解读:聊聊国产数据库可以从哪方面做到以用户为中心

墨天轮

数据库 TiDB oceanbase 国产数据库 达梦

带你读论文丨基于视觉匹配的自适应文本识别

华为云开发者联盟

损失函数 视觉 文本识别 文档识别 视觉匹配

什么是低代码自动化以及它如何使你受益?

低代码小观

程序员 自动化 工具 低代码 低代码开发平台

深入理解Netty-从偶现宕机看Netty流量控制

vivo互联网技术

Java、 框架 netty

maven如何忽略指定的远程仓库

小江

maven nexus 迁移 java;

linux之秘钥登录

入门小站

Linux

天壤完成新一轮战略融资 加速构建数字化转型通用智能平台

InfoQ 天津

低代码平台的功能及其用处

低代码小观

程序员 低代码 开发工具 低代码开发平台 无代码

OceanBase 源码解读(五):租户的一生

OceanBase 数据库

数据开发 oceanbase OceanBase 开源 OceanBase 社区版 OceanBase 数据库大赛

两个剪辑透明化融合视频特效处理

老猿Python

Python 音视频 视频剪辑 视频特效 引航计划

卷王本卷

FunTester

内卷 FunTester

在线985,211高校查询

入门小站

工具

Linux之常见的存储架构

在即

9月日更

2B 销售系统设计需要考虑的 3 个层面

boshi

团队管理 销售管理

一文带你了解经典的Java垃圾回收机制

华为云开发者联盟

Java JVM 对象 垃圾回收机制 垃圾收集器

Elasticsearch IK 分词扩展词典(qbit)

qbit

elastic 扩展词 分词

回帖抽大奖——5分钟极速体验AI技术能力

百度大脑

人工智能

MPU:鸿蒙轻内核的任务栈的溢出检察官

华为云开发者联盟

鸿蒙 内核 任务栈 MPU 内存保护单元

HUAWEI雄起!顶级网络工程师总结出了这份网络协议开源笔记

Java 架构 面试 程序人生 编程语言

吃串串,数签签,这个AI神器一秒搞定

百度大脑

人工智能 EasyDL

[微服务] You built it.You fix it.

baiyutang

微服务 9月日更

百度信息流和搜索业务中的KV存储实践

百度Geek说

后端 搜索

2021 DEMO CHINA创新中国总决赛峰会闭幕,光子晶体斩获2021 DEMO GOD

创业邦

考试试卷存储设计

guangbao

MLOps生产中的机器学习:为什么你应该关心数据和概念漂移 易筋 ARTS 打卡 Week 67

John(易筋)

ARTS 打卡计划

大厂面试喜欢考算法,该怎么破?

博文视点Broadview

iPhone13全线机型上线WeTest云手机平台

WeTest

JavaScript “上层”语言

Augus

JavaScript 9月日更

p3c 插件,是怎么检查出你那屎山的代码?

小傅哥

小傅哥 代码规范 p3m pmd 开发手册

密码学系列之:1Password的加密基础PBKDF2

程序那些事

算法 加密解密 密码学 程序那些事

华为云顾炯炯:云原生应用传送网络AND的实现架构与核心技术分享

华为云开发者联盟

网络 华为云 应用传送网络 ADN 东数西算

NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机_AI&大模型_褚杏娟_InfoQ精选文章