写点什么

英伟达 Blackwell 芯片又又又曝问题!老黄大半年没搞定,微软们被迫换货、换方案

  • 2024-11-20
    北京
  • 本文字数:2078 字

    阅读完需:约 7 分钟

英伟达 Blackwell 芯片又又又曝问题!老黄大半年没搞定,微软们被迫换货、换方案

据 The Information 最新报道,英伟达下一代 Blackwell 芯片在高密度服务器机架中出现严重过热问题,导致设计变更和客户方面的部署延迟。这让 Google、Meta 和微软等主要客户对能否按时部署 Blackwell 产生担忧。

过热问题或拖累交付计划


英伟达早在今年 3 月发布了 Blackwell 系列产品,原计划是 2024 年第二季度发货,但之前已经因为设计缺陷而推迟。


据报道,Blackwell GPU 在高密度服务器机架中面临严重的过热问题。这些高密度服务器机架集成了 72 块 AI 芯片,每个机架功耗高达 120kW。但高密度和高功耗的设计带来了散热难题,不仅限制了 GPU 性能,还可能损坏硬件组件。


为解决这一问题,英伟达不得不多次调整机架设计,并对冷却系统进行工程修订。据悉,英伟达已指示供应商实施多项改进措施。


英伟达对此回应称,散热问题和设计变更是技术开发中的正常流程,并重申正在与云服务商和供应商合作,确保最终产品符合性能和可靠性要求。


戴尔宣布,基于英伟达 GB200 NVL72 架构且采用液冷技术的服务器机架已发货


在等待 Blackwell 问题解决的同时,一些客户已开始考虑替代方案。据报道,部分客户比如微软,已计划通过更换部分组件来定制 Blackwell 机架,以适应其数据中心需求。


一位云计算公司高管透露,他们正在增加当前一代 Hopper 芯片的采购量。分析认为,这可能在短期内提升英伟达的收入,尤其是 Hopper 芯片的利润率较高。然而,这种转向也可能削弱未来对 Blackwell 及其 NVLink 服务器的需求,对英伟达的长期增长构成潜在威胁。


在散热问题之前,因为封装设计的问题,Blackwell 芯片的发布至少被推迟了三个月。Blackwell 芯片采用台积电的 CoWoS-L 封装技术,通过局部硅互连(LSI)桥实现高达 10 TB/s 的数据传输速度。然而,GPU 芯片、LSI 桥和主板之间的热膨胀特性不匹配,曾导致芯片变形和系统故障。


为解决这一问题,英伟达调整了芯片结构,并重新设计模具,最终在 10 月底完成了修正。


Tom’s Hardware 指出,尽管此类调整在大规模技术推广中很常见,但还是可能会进一步推迟 Blackwell 的预期发货时间

Blackwell 需求惊人,性能表现屡创新高


Blackwell 芯片自发布以来,市场需求和关注度一直很高。黄仁勋在此前采访中曾多次表示,市场对 Blackwell 芯片的需求强到“疯狂(insane)”。


在近期的 MLPerf Training 4.1 基准测试中,Blackwell GPU 也继续展现领先的性能。


上周,英伟达公布了 Blackwell GPU 在 MLPerf v4.1 AI 训练工作负载方面的成绩——在 MLPerf Training 4.1 的测试中,训练 Llama 270B 模型的速度较前代 Hopper GPU 快了达 2.2 倍。此外,得益于 HBM3e 高带宽内存的应用,Blackwell 仅需 64 块 GPU 即可完成此前需 256 块 Hopper GPU 才能达到的计算任务。


与此同时,Hopper 平台也在持续优化。在本轮 MLPerf 训练测试中,Hopper 的每 GPU GPT-3 175B 训练性能比首次引入该基准时提高了 1.3 倍。


分析师普遍认为,AI 应用的发展仍处于早期阶段,Blackwell 的推出将继续推动英伟达业绩增长。摩根士丹利预计,Blackwell 新产品线将在 2025 年第一季度提升公司收入,预计销售额将在 50 亿至 60 亿美元之间。


随着 Blackwell 预计于 2025 年 1 月底开始大规模交付,其实际表现能否满足市场预期,将成为接下来观察的重点。

AMD 推出新款 AI 芯片挑战 Blackwell

在英伟达努力解决技术问题的同时,AMD 也在加速进军 AI 芯片市场。上个月,AMD 宣布推出全新 AI 芯片 Instinct MI325X,并且计划在 2024 年底前开始生产。AMD 的这一动作被认为是对英伟达在 GPU 市场主导地位的挑战。


目前,英伟达的 GPU 在 AI 芯片市场占据 90% 以上份额,而 AMD 一直稳居第二。此次发布的 MI325X 是去年推出的 MI300X 的继任者,AMD 计划每年发布一款新芯片,以更快响应市场需求并缩小与英伟达的差距。


AMD 预计,到 2028 年,AI 芯片市场规模将达到 5000 亿美元。AMD CEO 苏姿丰表示,“AI 需求正在迅速超出预期,全球范围内的投资仍在加速。”在性能方面,苏姿丰表示,MI325X 在处理 Meta 的 Llama 3.1 模型时推理性能比 Nvidia H200 高出 40%。


虽然 AMD 没有宣布新的客户名单,但公司此前已透露过 Meta、微软和 OpenAI 正在使用其 AI 芯片的消息。AMD 也强调,其芯片在生成内容和预测类 AI 应用中具有优势,这得益于其先进的内存设计。

然而,英伟达的 CUDA 语言已成为 AI 开发的事实标准,其技术生态和市场优势仍然是 AMD 最大的竞争障碍。有分析指出,随着 Meta、微软等云巨头对 AI 需求的持续增长,AMD 有机会通过价格和性能的差异化策略,吸引更多客户,尤其是在生成式 AI 模型推理等细分领域。


参考链接:

https://www.reuters.com/technology/artificial-intelligence/nvidias-design-flaw-with-blackwell-ai-chips-now-fixed-ceo-says-2024-10-23/

https://www.tomshardware.com/pc-components/gpus/nvidias-data-center-blackwell-gpus-reportedly-overheat-require-rack-redesigns-and-cause-delays-for-customers

https://blogs.nvidia.com/blog/mlperf-training-blackwell/

https://www.cnbc.com/2024/10/10/amd-launches-mi325x-ai-chip-to-rival-nvidias-blackwell-.html

2024-11-20 11:2910481

评论

发布
暂无评论
发现更多内容

探索海外市场舆情:云手机助力企业赢得全球竞争

Ogcloud

云手机 海外云手机 云手机海外版 海外舆情监控 海外舆情

AI Infra多项标准发布,大模型基础设施研究启动

中国信通院AI Infra工作组

可信AI评测 | 人工智能训练芯片标准解读

中国信通院AI Infra工作组

智能工厂核心功能系统-MES生产管理系统

万界星空科技

制造业 智能工厂 智能制造 mes 万界星空科技

户外LED防水箱体:技术发展与市场趋势

Dylan

技术 性能 LED显示屏 户外LED显示屏

GPU云服务器的优势和应用

Ogcloud

gpu 服务器 云服务器 GPU实例 GPU云服务器

RocketMQ 流存储解析:面向流场景的关键特性与典型案例

阿里巴巴云原生

阿里云 RocketMQ 云原生

探索大模型落地新途径——大模型一体机标准第四次研讨会顺利召开

中国信通院AI Infra工作组

万界星空科技铜杆加工行业生产管理MES系统

万界星空科技

制造业 mes 电线电缆行业 铜杆行业 铜业

关于征集中国人工智能产业发展联盟“人工智能基础平台(AI Infra)工作组”首批成员单位的通知

中国信通院AI Infra工作组

ERPNext移动平均计价

麦兜

可信AI评测结果|首批!中国联通研究院“大规模分布式神经网络训练平台”通过深度学习平台产品能力评测

中国信通院AI Infra工作组

行业首批!| 创新奇智通过深度学习平台产品能力评测!

中国信通院AI Infra工作组

关于征集已立项行业标准《边缘人工智能平台技术要求和测试方法 第1部分:平台功能》参编单位的通知

中国信通院AI Infra工作组

FreeRTOS教程9 软件定时器

不在线第一只蜗牛

定时器 FreeRTOS

【论文速读】| 潜在越狱:用于评估大语言模型文本安全性和输出鲁棒性的基准测试

云起无垠

一站式测试解决方案,从人才到工具,我们全程护航!

测吧(北京)科技有限公司

测试

中国信通院“金融业人工智能平台”首轮评估测试正式启动报名

中国信通院AI Infra工作组

#人工智能 金融\行业

[每日秒懂] 软件架构风格

dinstone

架构 微服务架构 分层架构 领域驱动 架构风格

AI Infra组年度总结及2024重点方向预告

中国信通院AI Infra工作组

可信AI评测结果 | 电科网安通过深度学习平台和机器学习平台产品能力行业首批评测!

中国信通院AI Infra工作组

聚焦AI算力、大模型平台等前沿领域,AI Infra工作组会在渝召开

中国信通院AI Infra工作组

MES管理系统中电子看板都有哪些类型?

万界星空科技

mes 数据大屏 万界星空科技 生产看板

中国信通院可信人工智能基础平台(AI Infra)第七批评估正式启动

中国信通院AI Infra工作组

干货!10个项目与任务管理模板,让你轻松应对项目管理!

彭宏豪95

项目管理 任务管理 在线白板 模板 办公软件

人工智能产业发展联盟AI Infra工作组筹备会成功召开

中国信通院AI Infra工作组

中国信通院牵头编制的AI开发平台行业标准正式发布

中国信通院AI Infra工作组

海外舆情监控的重要性以及云手机的推荐

Ogcloud

云手机 海外云手机 云手机海外版 舆情监控

【教程】混淆代码保护与优化

软件全套资料:开发、实施、运维、安全、交付、立项、过程、结项、投标方案、资质评审等

金陵老街

详细设计 软件文档 规格说明

英伟达 Blackwell 芯片又又又曝问题!老黄大半年没搞定,微软们被迫换货、换方案_英伟达_罗燕珊_InfoQ精选文章