2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

英伟达 Blackwell 芯片又又又曝问题!老黄大半年没搞定,微软们被迫换货、换方案

  • 2024-11-20
    北京
  • 本文字数:2078 字

    阅读完需:约 7 分钟

英伟达 Blackwell 芯片又又又曝问题!老黄大半年没搞定,微软们被迫换货、换方案

据 The Information 最新报道,英伟达下一代 Blackwell 芯片在高密度服务器机架中出现严重过热问题,导致设计变更和客户方面的部署延迟。这让 Google、Meta 和微软等主要客户对能否按时部署 Blackwell 产生担忧。

过热问题或拖累交付计划


英伟达早在今年 3 月发布了 Blackwell 系列产品,原计划是 2024 年第二季度发货,但之前已经因为设计缺陷而推迟。


据报道,Blackwell GPU 在高密度服务器机架中面临严重的过热问题。这些高密度服务器机架集成了 72 块 AI 芯片,每个机架功耗高达 120kW。但高密度和高功耗的设计带来了散热难题,不仅限制了 GPU 性能,还可能损坏硬件组件。


为解决这一问题,英伟达不得不多次调整机架设计,并对冷却系统进行工程修订。据悉,英伟达已指示供应商实施多项改进措施。


英伟达对此回应称,散热问题和设计变更是技术开发中的正常流程,并重申正在与云服务商和供应商合作,确保最终产品符合性能和可靠性要求。


戴尔宣布,基于英伟达 GB200 NVL72 架构且采用液冷技术的服务器机架已发货


在等待 Blackwell 问题解决的同时,一些客户已开始考虑替代方案。据报道,部分客户比如微软,已计划通过更换部分组件来定制 Blackwell 机架,以适应其数据中心需求。


一位云计算公司高管透露,他们正在增加当前一代 Hopper 芯片的采购量。分析认为,这可能在短期内提升英伟达的收入,尤其是 Hopper 芯片的利润率较高。然而,这种转向也可能削弱未来对 Blackwell 及其 NVLink 服务器的需求,对英伟达的长期增长构成潜在威胁。


在散热问题之前,因为封装设计的问题,Blackwell 芯片的发布至少被推迟了三个月。Blackwell 芯片采用台积电的 CoWoS-L 封装技术,通过局部硅互连(LSI)桥实现高达 10 TB/s 的数据传输速度。然而,GPU 芯片、LSI 桥和主板之间的热膨胀特性不匹配,曾导致芯片变形和系统故障。


为解决这一问题,英伟达调整了芯片结构,并重新设计模具,最终在 10 月底完成了修正。


Tom’s Hardware 指出,尽管此类调整在大规模技术推广中很常见,但还是可能会进一步推迟 Blackwell 的预期发货时间

Blackwell 需求惊人,性能表现屡创新高


Blackwell 芯片自发布以来,市场需求和关注度一直很高。黄仁勋在此前采访中曾多次表示,市场对 Blackwell 芯片的需求强到“疯狂(insane)”。


在近期的 MLPerf Training 4.1 基准测试中,Blackwell GPU 也继续展现领先的性能。


上周,英伟达公布了 Blackwell GPU 在 MLPerf v4.1 AI 训练工作负载方面的成绩——在 MLPerf Training 4.1 的测试中,训练 Llama 270B 模型的速度较前代 Hopper GPU 快了达 2.2 倍。此外,得益于 HBM3e 高带宽内存的应用,Blackwell 仅需 64 块 GPU 即可完成此前需 256 块 Hopper GPU 才能达到的计算任务。


与此同时,Hopper 平台也在持续优化。在本轮 MLPerf 训练测试中,Hopper 的每 GPU GPT-3 175B 训练性能比首次引入该基准时提高了 1.3 倍。


分析师普遍认为,AI 应用的发展仍处于早期阶段,Blackwell 的推出将继续推动英伟达业绩增长。摩根士丹利预计,Blackwell 新产品线将在 2025 年第一季度提升公司收入,预计销售额将在 50 亿至 60 亿美元之间。


随着 Blackwell 预计于 2025 年 1 月底开始大规模交付,其实际表现能否满足市场预期,将成为接下来观察的重点。

AMD 推出新款 AI 芯片挑战 Blackwell

在英伟达努力解决技术问题的同时,AMD 也在加速进军 AI 芯片市场。上个月,AMD 宣布推出全新 AI 芯片 Instinct MI325X,并且计划在 2024 年底前开始生产。AMD 的这一动作被认为是对英伟达在 GPU 市场主导地位的挑战。


目前,英伟达的 GPU 在 AI 芯片市场占据 90% 以上份额,而 AMD 一直稳居第二。此次发布的 MI325X 是去年推出的 MI300X 的继任者,AMD 计划每年发布一款新芯片,以更快响应市场需求并缩小与英伟达的差距。


AMD 预计,到 2028 年,AI 芯片市场规模将达到 5000 亿美元。AMD CEO 苏姿丰表示,“AI 需求正在迅速超出预期,全球范围内的投资仍在加速。”在性能方面,苏姿丰表示,MI325X 在处理 Meta 的 Llama 3.1 模型时推理性能比 Nvidia H200 高出 40%。


虽然 AMD 没有宣布新的客户名单,但公司此前已透露过 Meta、微软和 OpenAI 正在使用其 AI 芯片的消息。AMD 也强调,其芯片在生成内容和预测类 AI 应用中具有优势,这得益于其先进的内存设计。

然而,英伟达的 CUDA 语言已成为 AI 开发的事实标准,其技术生态和市场优势仍然是 AMD 最大的竞争障碍。有分析指出,随着 Meta、微软等云巨头对 AI 需求的持续增长,AMD 有机会通过价格和性能的差异化策略,吸引更多客户,尤其是在生成式 AI 模型推理等细分领域。


参考链接:

https://www.reuters.com/technology/artificial-intelligence/nvidias-design-flaw-with-blackwell-ai-chips-now-fixed-ceo-says-2024-10-23/

https://www.tomshardware.com/pc-components/gpus/nvidias-data-center-blackwell-gpus-reportedly-overheat-require-rack-redesigns-and-cause-delays-for-customers

https://blogs.nvidia.com/blog/mlperf-training-blackwell/

https://www.cnbc.com/2024/10/10/amd-launches-mi325x-ai-chip-to-rival-nvidias-blackwell-.html

2024-11-20 11:2910978

评论

发布
暂无评论
发现更多内容

阿里高工内产的 SpringBoot 保姆级笔记,面面俱到,太全了

程序知音

Java spring springboot java架构 后端技术

MySQL 数据库索引技术原理初探

mylxsw

MySQL 数据库 索引 B树

Alien Skin Exposure2023最新版下载

茶色酒

Alien Skin Exposure

Python 操作 lxml库与Xpath

度假的小鱼

11月月更 Python 操作 lxml库 UI自动化例子

【JavaWeb】会话的学习笔记:Cookie和Session的知识点,这一次我总算学明白了

游坦之

javaWeb session 11月月更

MongoDB 新手入门 - CRUD

mylxsw

mongo database 入门教程

【JavaWeb】JSP学习笔记

游坦之

javaWeb jsp 11月月更

Linux 磁盘管理

芯动大师

11月月更 Linux系统 Linux磁盘管理

第六章TCP/IP——网络传输硬件设备

初学者

11月月更

第七章TCP/IP——ARP网络攻击与欺骗

初学者

网络 11月月更

架构实战训练营模块6作业

atcgnu

【Python 函数】-嵌套使用,变量的作用域

度假的小鱼

11月月更 Python局不变量 Python全局变量

整合Mybatis、Servlet、Mysql、Axios、Filter、Session写一个入门级项目:非常适合初接触JavaWeb的小白白来进阶

游坦之

MySQL mybatis javaWeb Servlet 11月月更

Sentinel Go-揭秘[流量控制]的实现原理

柠檬汁Code(binbin0325)

源码 sentinel 熔断 限流 冷启动

架构--模块六作业

李某人

架构训练营

架构误区系列7:删除+更新的缓存刷新机制

agnostic

缓存

python利用open3d可视化npy文件

Studying_swz

Python 11月月更

数据结构分析_Inception_GNN_GCN

Studying_swz

人工智能 深度学习 11月月更

【Python 函数】-参数-返回值

度假的小鱼

11月月更 Python函数参数使用

Java 字符串 split 的一个反直觉陷阱

mylxsw

Java 字符串 基础 陷阱

混沌工程之ChaosBlade利刃出鞘

柠檬汁Code(binbin0325)

混沌工程 故障注入 ChaosBlade Chaos Mesh

刨根问底 Kafka,面试过程真好使

蔡农曰

Java kafka 面试 后端

一文弄懂Vue与Servlet的交互:让你的大学课设变得容易起来

游坦之

Vue axios 11月月更

分布式技术难学?谷歌大神首发纯手撸ZK+Dubbo笔记,网友看完直呼NB

程序知音

Java zookeeper 分布式 java架构 后端技术

模块六作业 - 拆分电商系统为微服务

小虎

架构训练营

耗时3个月啃烂了这份Redis技术笔记,我成功上岸进了字节

程序知音

Java 数据库 redis java架构 后端技术

MongoDB 新手入门 - Aggregation

mylxsw

mongo database 入门教程

【设计模式】装饰者模式:以造梦西游的例子讲解一下装饰者模式,这也是你的童年吗?

游坦之

软件工程 设计模式 11月月更

【设计模式】适配器模式:攻敌三分,自留七分,以超兽武装的例子来谈谈适配器模式

游坦之

软件工程 设计模式 11月月更

Baklib知识分享|知识管理中常用的5种工具

Baklib

【JavaWeb】过滤器和监听器,就这?

游坦之

javaWeb filter 11月月更

英伟达 Blackwell 芯片又又又曝问题!老黄大半年没搞定,微软们被迫换货、换方案_英伟达_罗燕珊_InfoQ精选文章