写点什么

NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机

  • 2024-10-30
    北京
  • 本文字数:972 字

    阅读完需:约 3 分钟

大小:479.50K时长:02:43
NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机

2024 年 10 月 28 日,NVIDIA 宣布 xAI 位于田纳西州孟菲斯市的 Colossus 超级计算机集群达到了 10 万颗 NVIDIA® Hopper  GPU 的巨大规模。该集群使用了 NVIDIA Spectrum-X™ 以太网网络平台,该平台是专为多租户、超大规模的 AI 工厂提供卓越性能而设计的 RDMA(Remote Direct Memory Access)网络。

 

Colossus 是世界上最大的 AI 超级计算机,目前正被用于训练马斯克 xAI 的 Grok 系列大语言模型,以及作为 X Premium 用户功能之一的聊天机器人(Chatbot)。xAI 正在将 Colossus 的规模进一步扩大一倍至 20 万颗 NVIDIA HopperGPU。

 

据介绍,在训练 Grok 这种超大型模型时,Colossus 实现了空前的网络性能,在三层网络架构下,整个系统未出现任何因流量冲突而造成的应用延迟增加或数据包丢失的情况。凭借 Spectrum-X 先进的拥塞控制功能,系统数据吞吐量一直保持在 95%。这一性能水平是传统以太网在大规模的情况下根本无法实现的,传统以太网在数千条流发生冲突时,只能提供 60% 的数据吞吐量。

 

Spectrum-X 平台的核心是 Spectrum SN5600 以太网交换机,支持高达 800Gb/s 的端口速度,采用了 Spectrum-4 交换机 ASIC。xAI 采用了 Spectrum-X SN5600 交换机与 NVIDIA BlueField-3® SuperNIC 的端到端解决方案,以此实现了高性能。

 

专门面向 AI 的 Spectrum-X 以太网网络可在提供高效、可扩展带宽的同时,实现低延迟和短尾延迟,这些功能之前是 InfiniBand 网络所独有的。Spectrum-X 的功能包括基于 NVIDIA DDP(Direct Data Placement)技术的动态路由、拥塞控制计算,以及增强了 AI 网络的可视性和性能隔离,所有这些功能都是多租户生成式 AI 云和大型企业应用环境的关键要求。

 

xAI 和 NVIDIA 仅用了 122 天就建成了所有配套设施和这台最先进的超级计算机,从第一个机架落地到开始训练任务,只用了 19 天。而建造这种规模的系统通常需要数月乃至数年的时间。“Colossus 是世界上最强大的训练系统。xAI 团队、NVIDIA 和我们的众多合作伙伴及供应商干得漂亮。”埃隆·马斯克在 X 上说道。

 

NVIDIA 网络高级副总裁 Gilad Shainer 表示:“AI 正变得至关重要,对性能、安全性、可扩展性和成本效益提出了更高的要求。NVIDIA Spectrum-X 以太网网络平台专为那些如 xAI 一样的创新企业提供更快的处理、分析和执行 AI 工作负载的速度,进而加速 AI 解决方案的开发、部署和上市。”


2024-10-30 09:245411

评论

发布
暂无评论
发现更多内容

MySql从青铜到王者晋级之路,阿里大牛经验总结让牛少走弯路!

Java架构之路

Java 程序员 架构 面试 编程语言

如何生成 Flink 作业的交互式火焰图?

Apache Flink

flink

Vidyo的技术特点都有哪些?

dwqcmo

音视频 集成架构 解决方案 智能硬件

什么是动态代理

Rayjun

Java 动态代理

我服了,难倒无数程序员的源码面试,就这样被轻轻松松讲透彻

小Q

Java 学习 源码 架构 面试

分布式文件存储QoS硬核黑科技,真香

焱融科技

高性能 存储 HPC 分布式文件存储 QoS

爬虫“学前班”,记住这些不踩坑!

华为云开发者联盟

爬虫 数据 搜索

大企程序员亲身经历告诉你,CRM系统,自己的才是最好的

Learun

敏捷开发

求职时这样回答问题你就输了!来自IT类面试官视角的深度解读

华为云开发者联盟

面试 软件开发

架构师训练营第六周作业

Geek_4c1353

WebSocket-技术专题-服务器端消息推送

码界西柚

来自阿里面试官的Java面试连珠炮,让你自由发挥你能撑到哪一步?

Java架构之路

Java 程序员 架构 面试 编程语言

「深度解析」告诉你如何选择容器存储

焱融科技

Kubernetes 容器 云原生 焱融科技 分布式文件存储

uni-app支持PC宽屏适配

崔红保

uni-app 大前端

API生态的发展与机遇:从5000组数据看中国API生态与开发者现状

华为云开发者联盟

华为 API

实用!8个 chrome插件玩转GitHub,单个文件下载小意思

程序员小富

GitHub

搜狗搜索或成为企鹅号流量入口:腾讯欲实现自己的流量闭环

石头IT视角

基于阿里云容器的CI/CD落地实践

LorraineLiu

阿里云 k8s Helm jenkins CI/CD

个人计算机、工作站、服务器的主要区别

德胜网络-阳

一文读懂GaussDB(openGauss) 的六大关键技术特性

华为云开发者联盟

数据库 数据 存储

【JSRC小课堂】Web安全专题(一)认证缺失和认证缺陷漏洞

京东科技开发者

WEB安全

阿里巴巴专属著作超赞,就是名字起得有点狂“成神之路”???

Java架构师迁哥

程序员不愿意说的秘密!Java进阶架构师必看:架构完美设计+程序员三门课+架构修炼之道

Java架构追梦

最近程序员频繁被抓,如何避免面向监狱编程!?

Java架构师迁哥

以A.I.之力打破方言沟通障碍 科大讯飞重磅发布智慧翻译系统

Talk A.I.

小程序云开发实战:从0搭建科技爱好者周刊小程序

薛定喵君

微信小程序 小程序云开发 云开发

即构SDK10月迭代:新增多款语音音效、外部采集码流控制及Android SDK 最低支持操作系统版本调整

ZEGO即构

android RTC

10 张图打开 CPU 缓存一致性的大门

小林coding

缓存 cpu 操作系统 计算机

接口测试工具

测试人生路

接口文档 接口测试

你有时间吗?

池建强

时间

30 岁的码农人生 ——人生至暗时,你依然能窥见光明

苹果看辽宁体育

程序员 程序人生 感悟

NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机_AI&大模型_褚杏娟_InfoQ精选文章