2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

英伟达 Blackwell 芯片又又又曝问题!老黄大半年没搞定,微软们被迫换货、换方案

  • 2024-11-20
    北京
  • 本文字数:2078 字

    阅读完需:约 7 分钟

英伟达 Blackwell 芯片又又又曝问题!老黄大半年没搞定,微软们被迫换货、换方案

据 The Information 最新报道,英伟达下一代 Blackwell 芯片在高密度服务器机架中出现严重过热问题,导致设计变更和客户方面的部署延迟。这让 Google、Meta 和微软等主要客户对能否按时部署 Blackwell 产生担忧。

过热问题或拖累交付计划


英伟达早在今年 3 月发布了 Blackwell 系列产品,原计划是 2024 年第二季度发货,但之前已经因为设计缺陷而推迟。


据报道,Blackwell GPU 在高密度服务器机架中面临严重的过热问题。这些高密度服务器机架集成了 72 块 AI 芯片,每个机架功耗高达 120kW。但高密度和高功耗的设计带来了散热难题,不仅限制了 GPU 性能,还可能损坏硬件组件。


为解决这一问题,英伟达不得不多次调整机架设计,并对冷却系统进行工程修订。据悉,英伟达已指示供应商实施多项改进措施。


英伟达对此回应称,散热问题和设计变更是技术开发中的正常流程,并重申正在与云服务商和供应商合作,确保最终产品符合性能和可靠性要求。


戴尔宣布,基于英伟达 GB200 NVL72 架构且采用液冷技术的服务器机架已发货


在等待 Blackwell 问题解决的同时,一些客户已开始考虑替代方案。据报道,部分客户比如微软,已计划通过更换部分组件来定制 Blackwell 机架,以适应其数据中心需求。


一位云计算公司高管透露,他们正在增加当前一代 Hopper 芯片的采购量。分析认为,这可能在短期内提升英伟达的收入,尤其是 Hopper 芯片的利润率较高。然而,这种转向也可能削弱未来对 Blackwell 及其 NVLink 服务器的需求,对英伟达的长期增长构成潜在威胁。


在散热问题之前,因为封装设计的问题,Blackwell 芯片的发布至少被推迟了三个月。Blackwell 芯片采用台积电的 CoWoS-L 封装技术,通过局部硅互连(LSI)桥实现高达 10 TB/s 的数据传输速度。然而,GPU 芯片、LSI 桥和主板之间的热膨胀特性不匹配,曾导致芯片变形和系统故障。


为解决这一问题,英伟达调整了芯片结构,并重新设计模具,最终在 10 月底完成了修正。


Tom’s Hardware 指出,尽管此类调整在大规模技术推广中很常见,但还是可能会进一步推迟 Blackwell 的预期发货时间

Blackwell 需求惊人,性能表现屡创新高


Blackwell 芯片自发布以来,市场需求和关注度一直很高。黄仁勋在此前采访中曾多次表示,市场对 Blackwell 芯片的需求强到“疯狂(insane)”。


在近期的 MLPerf Training 4.1 基准测试中,Blackwell GPU 也继续展现领先的性能。


上周,英伟达公布了 Blackwell GPU 在 MLPerf v4.1 AI 训练工作负载方面的成绩——在 MLPerf Training 4.1 的测试中,训练 Llama 270B 模型的速度较前代 Hopper GPU 快了达 2.2 倍。此外,得益于 HBM3e 高带宽内存的应用,Blackwell 仅需 64 块 GPU 即可完成此前需 256 块 Hopper GPU 才能达到的计算任务。


与此同时,Hopper 平台也在持续优化。在本轮 MLPerf 训练测试中,Hopper 的每 GPU GPT-3 175B 训练性能比首次引入该基准时提高了 1.3 倍。


分析师普遍认为,AI 应用的发展仍处于早期阶段,Blackwell 的推出将继续推动英伟达业绩增长。摩根士丹利预计,Blackwell 新产品线将在 2025 年第一季度提升公司收入,预计销售额将在 50 亿至 60 亿美元之间。


随着 Blackwell 预计于 2025 年 1 月底开始大规模交付,其实际表现能否满足市场预期,将成为接下来观察的重点。

AMD 推出新款 AI 芯片挑战 Blackwell

在英伟达努力解决技术问题的同时,AMD 也在加速进军 AI 芯片市场。上个月,AMD 宣布推出全新 AI 芯片 Instinct MI325X,并且计划在 2024 年底前开始生产。AMD 的这一动作被认为是对英伟达在 GPU 市场主导地位的挑战。


目前,英伟达的 GPU 在 AI 芯片市场占据 90% 以上份额,而 AMD 一直稳居第二。此次发布的 MI325X 是去年推出的 MI300X 的继任者,AMD 计划每年发布一款新芯片,以更快响应市场需求并缩小与英伟达的差距。


AMD 预计,到 2028 年,AI 芯片市场规模将达到 5000 亿美元。AMD CEO 苏姿丰表示,“AI 需求正在迅速超出预期,全球范围内的投资仍在加速。”在性能方面,苏姿丰表示,MI325X 在处理 Meta 的 Llama 3.1 模型时推理性能比 Nvidia H200 高出 40%。


虽然 AMD 没有宣布新的客户名单,但公司此前已透露过 Meta、微软和 OpenAI 正在使用其 AI 芯片的消息。AMD 也强调,其芯片在生成内容和预测类 AI 应用中具有优势,这得益于其先进的内存设计。

然而,英伟达的 CUDA 语言已成为 AI 开发的事实标准,其技术生态和市场优势仍然是 AMD 最大的竞争障碍。有分析指出,随着 Meta、微软等云巨头对 AI 需求的持续增长,AMD 有机会通过价格和性能的差异化策略,吸引更多客户,尤其是在生成式 AI 模型推理等细分领域。


参考链接:

https://www.reuters.com/technology/artificial-intelligence/nvidias-design-flaw-with-blackwell-ai-chips-now-fixed-ceo-says-2024-10-23/

https://www.tomshardware.com/pc-components/gpus/nvidias-data-center-blackwell-gpus-reportedly-overheat-require-rack-redesigns-and-cause-delays-for-customers

https://blogs.nvidia.com/blog/mlperf-training-blackwell/

https://www.cnbc.com/2024/10/10/amd-launches-mi325x-ai-chip-to-rival-nvidias-blackwell-.html

2024-11-20 11:2911005

评论

发布
暂无评论
发现更多内容

TEM v3 试用

TiDB 社区干货传送门

TEM 试用

产品失败的隐性主因:落后的反馈管理制度

Feedalyze

效率工具 产品经理 产品运营 用户运营 用户反馈

Typeless:能理解语音真实意图的转录工具;Chance AI:能够思考和行动的 Visual Agent丨日报

声网

第一批智能体开发者的生存境况

脑极体

AI

海外红人营销太烧钱?用这几招在非英语市场低成本突围

Wolink

出海企业 海外营销推广 沃链Wolink 达人营销

企业核心业务的优选|平凯数据库在可信数据库大会获权威认可

TiDB 社区干货传送门

一个小型工厂老板的自问:每年花几万块上MES,到底值不值?

万界星空科技

低代码 低代码平台 mes 万界星空科技mes 低代码云MES

信息安全入门指南:从蓝队经验到技术精进之路

qife122

信息安全 蓝队

IDC MarketScape:腾讯云位居国内生成式AI数据基础设施“领导者”象限

极客天地

面试官:如何提升项目并发性能?

王磊

2025年上半年前端技术圈生态总结

程序员海军

node.js 生态 Vue 3 AIGC

如何利用CST把PCB的S参数生成Spice电路模型

思茂信息

cst操作 CST软件 CST Studio Suite

即梦AI携手火山引擎全面开放API服务!

火山引擎开发者社区

API 火山引擎 即梦AI

Tem on 腾讯云试用体验

TiDB 社区干货传送门

TEM 试用

TEM试用体验

TiDB 社区干货传送门

TEM 试用

Vibe Coding,一场幻觉和焦虑催生的行业狂欢

脑极体

AI

20款低代码开发平台哪个才是适合你的?

优秀

低代码开发 低代码开发平台 低代码排名

多云战略的悖论:为何全局数据“看得见”却“算不起”?

Aloudata

数据开发 多云架构 数据集成 数据虚拟化 数据编织

【堡垒机小知识】堡垒机产品特点有哪些?企业都要购买堡垒机吗?

行云管家

网络安全 数据安全 堡垒机 企业安全

AI英语口语APP开发方案

北京木奇移动技术有限公司

软件外包公司 AI英语学习 AI口语

排名提升至第四|PingCAP 荣登 2025 AI Cloud 100 China 榜单

TiDB 社区干货传送门

AI 基础设施新范式,百度百舸 5.0 技术深度解析

Baidu AICLOUD

昆仑芯 MoE FP8

告别复杂规划:MZGantt让项目可视化变得简单高效

Tecjt_锦图科技

演讲案例 | 骏伯网络:为什么要从 MySQL 迁移到 TiDB ?用 MySQL 不是更省吗?

TiDB 社区干货传送门

冰火两重天的AI陪伴硬件

脑极体

AI

2024 信息技术应用创新优秀解决方案揭晓,平凯星辰占五席

TiDB 社区干货传送门

平凯星辰分享出海新范式:全球化的深度,取决于本地化的精度

TiDB 社区干货传送门

演讲案例 | 单表百亿行,平均耗时毫秒级:TiDB 在京东零售、物流等核心场景的性能实战

TiDB 社区干货传送门

TiDB 数据库运维管理平台(TEM)产品体验

TiDB 社区干货传送门

TEM 试用

产品失败的隐性主因:落后的反馈管理制度

Feedalyze

效率工具 产品经理 产品运营 用户运营 用户反馈

英伟达 Blackwell 芯片又又又曝问题!老黄大半年没搞定,微软们被迫换货、换方案_英伟达_罗燕珊_InfoQ精选文章