写点什么

缺卡、缺电、缺组网技术!谁能为马斯克构建出全球最强大的 10 万卡超级集群?

  • 2024-07-31
    北京
  • 本文字数:4162 字

    阅读完需:约 14 分钟

大小:1.98M时长:11:32
缺卡、缺电、缺组网技术!谁能为马斯克构建出全球最强大的10万卡超级集群?

埃隆·马斯克掌控的那几家公司——包括 SpaceX、特斯拉、xAI 乃至 X(原 Twitter)——都需要大量的 GPU,而且也都是为自己的特定 AI 或者高性能计算(HPC)项目服务。但问题在于,市场上根本就没有充足的 GPU 能够满足他们各自宏伟目标所承载的勃勃野心。为此,马斯克必须为自己所能得到的有限 GPU 规划出最优用途。

 


筹集资金比筹集 GPU 容易得多

 

早在 2015 年,马斯克就慧眼独具地成为 OpenAI 的联合创始人。而在 2018 年的一场权力斗争之后(我们猜测这场斗争很可能与推动 AI 模型所消耗的巨额资金,以及对于此类 AI 模型的治理思路有直接关系),马斯克离开 OpenAI 并让微软有了可乘之机。软件巨头携大笔资金入驻,并推动 OpenAI 迅速成长为一股开发生产级生成式 AI 的主导性力量。面对这样的现实,马斯克果断于 2023 年 4 月成立 xAI 公司,自此之后这家初创公司也一直在努力筹集资金并争取 GPU 配额,希望建立起足以对抗 OpenAI/微软、谷歌、亚马逊云科技、Anthropic 等知名大厂的计算基础设施。

而其中,筹集资金显然是最简单的部分。

 

截至 5 月底,Andreessen Horowitz、红杉资本、Fidelity Management、Lightspeed Venture Partners、Tribe Capital、Valor Equity Partners、Vy Capital 和 Kingdom Holding(沙特王室控股公司)纷纷加入 xAI 总额 60 亿美元的 B 轮融资,一举推动其融资总值来到 64 亿美元。这是个好的开始,更幸运的是马斯克从特斯拉的全球经营中拿到了 450 亿美元的薪酬收益,因此可以随时把这笔巨款投入到 xAI GPU 的后续发展身上。(当然,更明智的作法应该是保留一部分作为特斯拉、X 和 SpaceX 的 GPU 采购基金。)

 

从特定角度来讲,特斯拉相当于是一次性付清了马斯克于 2022 年 4 月收购 X 所投入的全部 440 亿美元,同时又额外给了他 10 亿美元。这笔钱足够作为备用资金买下 2.4 万个 GPU 集群。必须承认,作为电动汽车的先驱力量,特斯拉已经撼动了整个汽车行业,其 2023 年的销售额为 968 亿美元,其中净利润为 150 亿美元,公司目前掌握的现金则为 291 亿美元。但即使是在如今这个财富分配极不公平的时代,450 亿美元的回报仍然是个相当离谱的薪酬方案。但马斯克有他的大事要做,所以他主导的董事会愿意牺牲掉特斯拉的利益,拿出更多资本哄这位时代的骄子开心。

 

不过按照同样的市值逻辑来判断,我们似乎也可以用 6500 亿美元买下摩根大通,而资金来源仍然是美国银行、阿布扎比、美联储以及我们能说动的其他资方。这样到了明年,我们就能给自己开出比收购成本略高一点点的薪酬——比如说 6750 亿美元。这样还清贷款之后,咱还能剩下 250 亿美元随便花花……抱歉跑题了,但这种情景真是想想都让人开心。

 

总之从目前的情况看,xAI 必须在计算、存储和网络层面表现出旺盛的需求。

 

Grok-0 大语言模型拥有 330 亿个参数,是在 xAI 成立几周之后就于 2023 年 8 月开始训练。Grok-1 拥有可响应提示词的对话式 AI 功能,有着 3140 亿参数,于 2023 年 11 月上市。该模型随后于 2024 年 3 月开源,很快 Grok-1.5 模型也正式亮相。与 Grok-1 相比,1.5 版本有着更长的上下文窗口和更高的认知测试平均绩点。

 


可以看到,Grok-1.5 的智能程度略低于谷歌、OpenAI 和 Anthropic 等竞争对手打造的同类模型。

即将推出的 Grok-2 模型将于 8 月之内与大家见面,该模型计划在 2.4 万张英伟达 H100 GPU 上进行训练。另据报道,该模型采用的是甲骨文的云基础设施。(甲骨文已经与 OpenAI 签署一项协议,允许其使用 xAI 未能尽用的剩余 GPU 容量。)

 

马斯克曾在多条推文中表示,Grok-3 也将在今年年底问世,需要 10 万个英伟达 H100 GPU 集群上接受训练,并将能够与 OpenAI 和微软正在开发的下一代 GPT-5 模型相媲美。甲骨文和 xAI 也积极就 GPU 容量分配方式讨论协议。但三周前价值 100 亿美元的 GPU 集群交易破坏消息一出,马斯克当即决定转变方向,在田纳西州孟菲斯南部的一处旧伊莱克斯工厂建造起“计算超级工厂”,用以容纳他自有的 10 万个 GPU 集群。如果大家恰好身在孟菲斯周边,接下来的情况可能有点疯狂——因为 xAI 号称将占用 150 兆瓦的区域供电。

 

据彭博社的报道,目前该处工厂已经分配到 8 兆瓦供电,未来几个月内有望增加到 50 兆瓦。而要想继续超越这个数字,则需要经过田纳西河谷管理局的繁琐审批。

 

不过目前来看除非英伟达愿意鼎力相助,否则马斯克似乎不太可能在今年 12 月之前拿到自己全部的 10 万张 H100 GPU

 

寻求英伟达这种芯片的公司名单很长,可能包括当今大多数大型科技公司,但只有少数几家公司公开宣称他们拥有多少 H100 芯片。

 


来源:The Information

 

据《The Information》报道,风险投资公司 Andreesen Horowitz 正囤积超过 2 万块昂贵的 GPU,作用是将其出租给 AI 初创公司以换取对方公司股份。

 

OpenAI 也一直没有透露他们拥有多少 H100 芯片,但据《The Information》报道,该公司以大幅折扣租用了微软提供的专用于训练的处理器集群,这是微软对 OpenAI 100 亿美元投资的一部分。据报道,这个训练集群的算力相当于 12 万块 Nvidia 上一代的 A100 GPU,并将在未来两年内花费 50 亿美元从 Oracle 租用更多的训练集群。

 

特斯拉一直在努力收集 H100。今年 4 月,马斯克在一次财报电话会议上表示,特斯拉希望在年底前拥有 3.5 万到 8.5 万块 H100。

 

为了给 xAI 筹集 GPU,马斯克最近还被特斯拉股东起诉,指控他将原本用于汽车制造商 AI 训练基础设施的 12,000 块 H100 芯片转给了 xAI。在昨天的特斯拉第二季度财报电话会议上,当被问及这一调配问题时,马斯克表示,这些 GPU 之所以被送往 xAI,是因为“特斯拉的数据中心已经满了,实际上没有地方可以放置它们。”

 

10 万张 H100 的单一集群,谁有能力构建出来?

 

上周马斯克曾发推文表示:



xAI、X、英伟达和各支持部门都做得很好,孟菲斯超级集群训练已经于当地时间凌晨 4:20 启动。

其单一 RDMA 结构上承载有 10 万张液冷 H100 GPU,这是世界上最强大的 AI 训练集群!

要实现在今年 12 月之前训练出全球最强 AI 模型的目标,这一切无疑是个显著的优势。

 

也许马斯克的这套系统最终会被称为 SuperCluster,也就是 Meta Platforms 对于采购来、而非自建 AI 训练系统时指定的称呼。

 

另外 10 万张 GPU 这个结论恐怕只是个愿景,也许到 12 月时 xAI 能拿到的 GPU 总共也只有 2.5 万张。但即使是这样,此等规模仍足以训练出一套体量庞大的模型。我们看到的部分报告指出,孟菲斯超级集群要到 2025 年晚些时候才能最终完成扩展,按目前的 GPU 供应能力来说这话其实颇为合理。

 

另外,上线后,孟菲斯超级集群的供电也是一个问题,不过马斯克也并没有说到底启动了多少张 H100。有网友讽刺道,马斯克的这种说法在极端情况下确实是成立的,比如只启动了 1 个 GPU 进行训练,而其他 99,999 个 GPU 并没有足够的电源来连接。

 


目前只有 3.2 万块上线,其余将在第四季度上线。如果达到 10 万块 GPU,要么变电站提前完工,要么需要更多这样的设备。

 

我们还可以从 Supermicro 公司创始人兼 CEO Charles Liang 的推文中做点推断,该公司正负责为 xAI 孟菲斯数据中心部署水冷设备:

 


很高兴能与马斯克一同创造历史,与他的孟菲斯团队合作也是一段美好的经历!为了达成目标,我们必须尽可能完美、快速、高效且环保地推进工作——虽然需要付出很多努力,但也同样极具意义而且令人兴奋!

 


图片来源:Charles Liang

 

目前还不清楚关于服务器基础设施的具体信息,但我们强烈怀疑这套系统将采用八路 HGX GPU 基板,并且属于 Supermicro 的机架式系统,其设计灵活来自英伟达的 SuperPOD 配置方案,但同时又有独特的工程调整以降低价格水平。采用八路 HGX 基板,该系统总计可容纳 1.25 万个节点,后端网络将承载 10 万张 GPU 和 10 万个端点;前端网络同样拥有 1.25 万个端点,即用于访问集群中数据和管理类负载的节点。

 

瞻博网络首席执行官 Rami Rahim 也讨论了该公司参与孟菲斯超级集群项目的情况:



恭喜马斯克、xAI 和 X!很高兴瞻博网络成为孟菲斯超级集群团队中的一员,并将我们的网络解决方案融入到这项创新工程当中。

 

从这些推文的内容来看,瞻博方面似乎是以某种方式拿下了孟菲斯超级集群的网络交易。考虑到 Arista Networks 和英伟达也在 AI 集群网络方面拥有深厚积累,马斯克最终选择瞻博着实令人感到惊讶。我们还没有从 Arista 那里看到与孟菲斯项目有关的任何消息;但在 5 月 22 日,英伟达在发布其 2025 财年第一季度财报时,公司首席财务官 Colette Kress 曾经表示:

 

“今年第一季度,我们开始针对 AI 发布经过优化的全新 Spectrum-X 以太网网络解决方案。其中包括我们的 Spectrum-4 交换机、BlueField-3 DPU 和新的软件技术,用以克服以太网承载 AI 工作负载时面临的挑战,为 AI 处理提供 1.6 倍于传统以太网的网络性能。

Spectrum-X 的销量也在不断增长,吸引到众多客户,包括一个庞大的 10 万 GPU 集群项目。Spectrum-X 为英伟达网络开辟出了全新的市场,使得纯以太网数据中心也能够容纳大规模 AI 类负载。我们预计 Spectrum-X 将在未来一年内跃升为价值数十亿美元的产品线。”

 

首先需要承认一点,这个世界上肯定没有多少项目能够豪爽地叫出“10 万张 GPU”这么夸张的体量,所以英伟达在 5 月声明中提到的几乎必然就是孟菲斯超级集群。再结合最近马斯克对于该系统的评价,我们认为英伟达应该是依靠 Spectrum-X 设备拿下了后端(或者叫东西向)网络部分,而瞻博则负责实现前端(或者叫南北向)网络部分。Arista 那边则没有任何动静。

 

但截至目前,我们仍不清楚孟菲斯超级集群具体会使用哪种存储解决方案。其可能是基于 Supermicro 的闪存加硬盘混合型原始存储阵列,可运行任意数量的文件系统;也可能是 Vast Data 或者 Pure Storage 提供的全闪存阵列。但如果非要选出一种赢面最大的方案,那我们会大胆认为 Vast Data 应该是参与了这笔交易,并拿下规模可观的存储订单。不过这种猜测也没有明确的依据,只是根据该公司大规模存储阵列过去两年在高性能计算和 AI 领域表现出的市场吸引力提出的假设。

 

参考链接:

https://www.nextplatform.com/2024/07/30/so-who-is-building-that-100000-gpu-cluster-for-xai/

https://sherwood.news/tech/companies-hoarding-nvidia-gpu-chips-meta-tesla/

https://techcrunch.com/2024/06/13/tesla-shareholders-sue-musk-for-starting-competing-ai-company/

https://www.youtube.com/watch?v=ktkCRVxTuEI&t=1325s

https://digitalassets.tesla.com/tesla-contents/image/upload/IR/TSLA-Q2-2024-Update.pdf

https://x.com/dylan522p/status/1815710429089509675

https://www.reddit.com/r/mlscaling/comments/1ea3vu1/xais_100k_h100_computing_cluster_goes_online/

 

2024-07-31 20:124074

评论

发布
暂无评论
发现更多内容

超长输出强化学习提升大语言模型推理能力

qife122

强化学习 推理能力

低代码 & 大模型:JeecgBoot 如何成为 AI 应用加速器

JEECG低代码

低代码 AI应用 AI 大模型

跨平台分词利器:基于开发者空间进行仓颉版Tokenizer的Qwen模型适配

华为云开发者联盟

AI+ CodeArts 仓颉 Qwen2.5

Fabarta 个人专属智能体多版本上线:覆盖多领域场景,可结合需求灵活部署

Fabarta

人工智能 智能体

JUC并发—Future模式和异步编程简介

不在线第一只蜗牛

Java

签约快报|天润融通签约得力集实原创

天润融通

车载Alexa语音助手的核心技术解析

qife122

语音识别 波束成形

“数字创新产品课程” 8月16-17日 · CSPO认证在线课程

ShineScrum

产品负责人 CSPO认证 CSPO

Databend 产品月报(2025年7月)

Databend

新媒体环境下的舆情演化路径监测及可视化研判方法

沃观Wovision

新媒体 沃观Wovision 舆情监测系统

阿里云招Java研发咯

安全乐谷

面试 找工作 简历

Eureka vs Consul,服务注册发现到底选哪个?性能对比深度解析!

我爱娃哈哈😍

微服务 架构设计 服务发现

AI无法拯救病入膏肓的企业 —— 但会让问题暴露无遗

ShineScrum

领导力 敏捷领导力 +AI jishu

CAD光标如何在悬停图片时高亮显示

极客天地

神经网络编码提升音频丢包恢复效率

qife122

神经网络 丢包恢复

分享‘动态化-Android资深开发工程师’的面试题

安全乐谷

互联网 面试 开发 找工作 笔试

“敏捷产品管理精进课程” 10月18-19日 · A-CSPO认证【提前报名特惠】

ShineScrum

产品负责人 CSPO认证

.NET Core 常用集合的几个坑

电子尖叫食人鱼

.net core

精简运维,节省成本:如何选择合适的AD域管理工具?

运维有小邓

AD域 AD域管理 AD域组管理

微服务拆分粒度,拆得太细还是太粗?一线架构师实战指南!

我爱娃哈哈😍

微服务 服务拆分

CAD网络版授权如何PING

极客天地

高校、智库如何通过舆情监测提升学术服务力

沃观Wovision

海外舆情监控 沃观Wovision 舆情监测系统

必看!导致事务失效的7大典型场景!

王磊

Java基础之八股文相关知识梳理

安全乐谷

阿里云 面试 找工作 校招 春招

基于开发者空间部署OpenGauss完成AI智能索引和参数自调优实践

华为云开发者联盟

opengauss AI+ 华为开发者空间

如何在代码中验证sql的正确性?

不在线第一只蜗牛

数据库 sql

同方智慧能源:OceanBase助力构建安全可靠、高性能的能源数据底座

老纪的技术唠嗑局

能源 OceanBase 社区版 #大数据

百度智能云AI“打工人”天团上线,7款数字员工“落地即上岗”

科技热闻

“团队敏捷教练进阶课程” 9月6-7日 · 在线A-CSM认证周末班

ShineScrum

Scrum Master CSM认证 A-CSM

CAD怎样裁剪图像

极客天地

“全球金牌敏捷课程” · 8月23-24日CSM认证课程

ShineScrum

Scrum Master CSM认证培训

缺卡、缺电、缺组网技术!谁能为马斯克构建出全球最强大的10万卡超级集群?_生成式 AI_核子可乐_InfoQ精选文章