生成式AI领域的最新成果都在这里!抢 QCon 展区门票 了解详情
写点什么

市值暴涨至万亿美元后,英伟达再放大招!推出超级 AI 计算平台:集成 256 个 GH200 芯片、共享内存 144TB

  • 2023-05-30
    北京
  • 本文字数:3438 字

    阅读完需:约 11 分钟

市值暴涨至万亿美元后,英伟达再放大招!推出超级AI计算平台:集成256个GH200芯片、共享内存144TB

美国企业对 H100 处理器的旺盛需求,推动英伟达市值飙升至 1 万亿美元。

 

上周,英伟达股价一周内上涨了 25%,市值直逼万亿美元,其创始人黄仁勋的身价也突破了 330 亿美元。

 

春风得意的黄老板于 5 月 29 日现身在中国台北举办的 COMPUTEX 大会,并在大会上发布了面向所有行业的生成式AI平台。“我们正在重新发明计算机,加速计算和人工智能标志着计算正在被重新定义。”黄仁勋表示。

 

黄仁勋正在带领英伟达从一家芯片公司转向提供AI计算系统的公司,他此前称,人工智能的 iPhone 时刻已经来临。

英伟达发布超级芯片 GH200 和 AI 计算平台


受 AI 热潮的推动,英伟达也在硬件领域紧跟技术潮流,发布了一系列产品和解决方案:推出大内存生成式AI超级计算机 DGX GH200,可加速生成式 AI 设计的 Grace Hopper 超级芯片 GH200 已全面投产;推出全新加速以太网平台 Spectrum-X,为游戏提供定制化 AI 模型代工服务;与全球最大的营销服务机构 WPP 合作打造生成式 AI 内容引擎,多家世界顶级电子制造商采用英伟达生成式 AI 工具与 Omniverse 平台构建先进的数字工厂。

 

据悉,NVIDIA® GH200 Grace Hopper 超级芯片将为全球各地即将上线的系统提供运行复杂 AI 和 HPC 工作负载所需的动力。在 COMPUTEX 上,黄仁勋公布了关于 GH200 Grace Hopper 超级芯片的更多细节。

 

NVIDIA® GH200 Grace Hopper 超级芯片使用 NVIDIA NVLink®-C2C 互连技术,将基于 Arm 的 NVIDIA Grace CPU 和 Hopper GPU 架构互联,实现了高达 900GB/s 的总带宽,比传统加速系统中的标准 PCIe Gen5 通道高出 7 倍,算力有了很大程度的提高,并且能够满足要求最苛刻的生成式 AI 和 HPC 应用。

 

具体来说, GH200 超级芯片是将 72 核的 Grace CPU、H100 GPU、96GB 的 HBM3 和 512 GB 的 LPDDR5X 集成在同一个封装中,拥有高达 2000 亿个晶体管。这种组合提供了 CPU 和 GPU 之间惊人的数据带宽,高达 900 GB/s,为某些内存受限的工作负载提供了巨大的优势。

 

值得一提的,英伟达正式发布了一款新型大内存 AI 超级计算机——由 NVIDIA GH200 Grace Hopper 超级芯片和 NVIDIA NVLink Switch System 驱动的 NVIDIA DGX 超级计算机,旨在助力开发面向生成式 AI 语言应用、推荐系统和数据分析工作负载的巨型、下一代模型。


DGX GH200 的细节还不太清楚,但已确认英伟达使用了一种新的 NVLink Switch 系统,包含 36 个 NVLink 开关,将 256 个 GH200 Grace Hopper 芯片和 144TB 的共享内存连接成一个单元,英伟达 CEO 黄仁勋表示,GH200 芯片为“巨型 GPU”。英伟达表示,256 颗 Grace Hopper 超级芯片将 DGX GH200 的“AI 性能”提升到了 exaflop(一百万万亿次)。

 

NVIDIA 加速计算副总裁 Ian Buck 表示:“生成式AI正在迅速带来业务变革,解锁医疗、金融、商业服务等行业的新机遇并加速这些行业的研发工作。随着 Grace Hopper 超级芯片的全面投产,全球的制造商很快将会提供企业使用专有数据构建和部署生成式 AI 应用所需的加速基础设施。”

ChatGPT 问世后,芯片行业变天了

 

2022 年,英伟达发布了 H100——这是其有史以来最强大、也最昂贵的处理器之一,单位价格约为 4 万美元。当时看来,这款产品的发布时机并不理想,企业客户纷纷在巨大的通胀压力下削减开支。

 

但就在 11 月,ChatGPT横空出世后,情况发生了变化。

 

英伟达首席执行官黄仁勋表示,“刚刚经历艰难的一年,情况似乎一夜之间就出现了转机。”OpenAI 打造的这款热门聊天机器人堪称“尤里卡时刻”(或顿悟时刻),“立即创造出巨大需求”。

 

ChatGPT 的迅速蹿红在全球领先的科技巨头和初创公司之间掀起一波军备竞赛,各方开始竞相争夺宝贵的 H100 资源。黄仁勋称这款产品是“全球首个为生成式 AI 专门设计的计算机芯片”,能够帮助 AI 系统更快输出顺畅自然的文本、图像和内容。

 

就在过去一周,在正确的时间推出正确的产品再次成为决胜的关键。英伟达上周三宣布,其截至 7 月的本季度销售额预计将达 110 亿美元,较华尔街之前的估计高出 50%以上。这波强劲浪潮背后,无疑是众多大型科技公司恢复数据中心支出和疯狂采购 AI 芯片的现实需求。

 

投资人对此番预测也给出了积极回应,仅上周四一天之内就让英伟达公司的市值增加了 1840 亿美元。于是这家已经是全球最有价值的芯片公司在估值方面开始逼近万亿大关。

 

这项技术有望重塑各行各业,带来巨大的生产力提升并取代数百万个工作岗位。

 

而 H100 芯片将加快这一技术飞跃。H100 基于名为“Hopper”的英伟达全新芯片架构,以美国编程先驱 Grace Hopper 的名字命名,如今已经是整个硅谷最炙手可热的稀缺资源。

 

黄仁勋表示,“就在我们着手将 Hopper 投入量产之际,AI 突破到来了。”也就是说,Hopper 刚好是在 ChatGPT 正式亮相的几周之前开始大规模生产。

 

黄仁勋对于持续收益的信心,很大程度来自与芯片制造巨头台积电的密切合作。双方计划扩大 H100 的生产规模,以满足微软、亚马逊和谷歌等云服务商,Meta 等互联网大厂以及其他企业客户的爆发式需求。

 

CoreWeave 是一家专注 AI 的云基础设施初创公司。作为首批收到 H100 的客户之一,公司首席战略官 Brannin McBee 表示“这已经成为地球上最稀缺的工程资源之一”。

 

也有部分客户要等待半年之久,才能拿到自己用来训练大规模数据模型的 H100 芯片供应。更多 AI 初创公司则纷纷表示担心,称在需求起飞那一刻,H100 就将面临供不应求。

英伟达成为了 AI 浪潮中的首批赢家

 

马斯克也已经为自己的 AI 初创公司 X.ai 买下大量英伟达芯片,他本人也在本周《华尔街日报》的活动中表示,目前 GPU“比药品更难获得”,还开玩笑说“而且这种情况在旧金山随处可见”。

 

“计算成本已经飙升至天文数字,最低的准入门槛也是投入 2.5 亿美元为生成式 AI 系统构建服务器硬件。”

 

事实证明,H100 特别受到微软和亚马逊等大型科技企业的欢迎。他们正纷纷建立以 AI 工作负载为中心的更多数据中心。此外,OpenAI、Anthropic、Stability AI 和 Inflection AI 等 AI 初创公司也在密切关注 H100 的性能承诺,希望借助它的力量加快产品发布、降低训练成本。

 

英伟达超大规模与高性能计算业务负责人 Ian Buck 表示,“从购买难度来讲,没错,新架构 GPU 就是不容易买到。”肩负增加 H100 以满足需求这项艰巨任务的 Buck 承认,“目前供不应求已经成为规模性事件”,部分大客户正疯狂采购数以万计的 GPU。

 

这种性能极强的芯片负责充当数据中心的“加速器”,其搭载的 800 亿个晶体管达到最新款 iPhone 处理器晶体管数的 5 倍。尽管 H100 的售价高达 2020 年发售的上代 A100 芯片的 2 倍,但早期买家纷纷表示其性能至少提高了 3 倍,所以仍然极具性价比。

 

作为 Stable Diffusion 图像生成服务背后的厂商,Stability AI 联合创始人兼 CEO Emad Mostaque 表示“H100 解决了长期困扰 AI 模型创建者的可扩展性问题”。“这非常重要,它能让我们更快训练出更大的模型,真正将研究问题转化为工程问题。”

 

虽然 H100 的发布可谓正当其时,但英伟达在 AI 领域的突破实际源自近 20 年前的软件创新。

 

英伟达的 Cuda 软件诞生于 2006 年,作用就是让 GPU 在图形之外作为其他工作负载类型的加速器。待时间来到 2012 年左右,“AI 终于找上了我们。”

 

加拿大的研究人员们很快意识到 GPU 非常适合用于创建神经网络,这是一种由人脑内神经元间相互作用启发而来的 AI 形式,后来成为 AI 开发的新焦点。Buck 感慨道,“我们花了近 20 年才最终走到了今天。”

 

英伟达如今拥有的软件工程师比硬件工程师还多,这也使其得以支持后续几年出现的多种不同类型的 AI 框架,也使其芯片在训练 AI 模型所需要的统计计算方面愈发高效。

 

Hopper 是首个针对 transformers 进行优化的架构,而 transformers 则是支持 OpenAI 聊天机器人明星的底层 AI 方法。通过与 AI 研究人员的密切合作,英伟达在 2017 年就注意到了 transformers 的出现,并开始相应调整自己的软件。

 

AI 初创企业投资方 Air Street Capital 的普通合伙人 Nathan Benaich 指出,“英伟达可以说比其他人更早看到了未来,并将重点放在了 GPU 可编程方面。在发现机遇并押下赌注之后,英伟达获得了持续领先于竞争对手的优势。”

 

Benaich 估计,英伟达比其他竞争对手要领先约两年。但他也补充称,“英伟达硬件和软件方面的市场地位恐怕还达不到坚不可摧的水平。”

 

Stability AI 的 Mostaque 对此表示赞同。“谷歌、英特尔和其他公司打造的下一代芯片正在迎头赶上。而且随着软件标准化的普及,就连 Cuda 也不足以构成可靠的技术护城河。”

 

但对 AI 领先的另一些从业者来说,华尔街本周的热情似乎有点过度乐观。不过芯片咨询公司 D2D Advisory 创始人 Jay Goldberg 仍然承认,“从目前的情况看,AI 半导体市场仍然保持着英伟达赢家通吃的局面。”

 

参考链接:

https://www.ft.com/content/315d804a-6ce1-4fb7-a86a-1fa222b77266

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2023-05-30 14:395938
用户头像
李冬梅 加V:busulishang4668

发布了 804 篇内容, 共 373.1 次阅读, 收获喜欢 996 次。

关注

评论

发布
暂无评论
发现更多内容

架构师训练营第 1 期第 8 周学习总结

好吃不贵

极客大学架构师训练营

Rethink:多版本文件的命名细节

小匚

团队 随笔杂谈

Reactor中的Thread和Scheduler

程序那些事

响应式编程 reactor 多线程 程序那些事 reactivex

涨薪神作!华为内部操作系统与网络协议笔记爆火,Java程序员有福了

Java架构之路

Java 程序员 面试 编程语言

cglib入门后篇

Rayjun

Java cglib

5G为数字化转型插上翅膀

CECBC

5G网络安全

JVM真香系列:轻松掌握JVM运行时数据区

田维常

JVM

O'Reilly出版社又一经典之作——Python设计模式

计算机与AI

Python

靠脑机接口“隔空探物”,大脑植入芯片可实现“心灵感应”

脑极体

Docker

可以解除程序员中年危机的职业规划

Java架构师迁哥

数字人民币都来了 黄金还有什么用?

CECBC

数字货币

「Java并发编程」从源码分析几道必问线程池的面试题?

Java架构师迁哥

深度解析ThreadLocal原理

AI乔治

Java 架构 线程 ThreadLocal

记不住Spring中Scheduled中的Cron语法?让我们看看源码吧

AI乔治

Java spring 编程 架构

甲方日常 47

句子

工作 随笔杂谈 日常

当人脸识别对准执法者,AI的应用边界博弈

脑极体

当代开发者的六大真实现状,你被哪一个场景“戳中”了?

华为云开发者联盟

开发者 调研 报告

从一场“众盟科技云滇之播”,我们发现了美食直播的商业与公益价值

人称T客

LeetCode题解:剑指 Offer 22. 链表中倒数第k个节点,使用数组,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

【算法题目解析】杨氏矩阵数字查找

程序员架构进阶

算法 二分查找 杨氏矩阵

云计算简史(完整版)

明道云

Java程序员必备,Github上星标55.9k的微服务神级笔记简直太香了,学完感觉自己又行了!

Java架构之路

Java 程序员 架构 面试 编程语言

【T1543.003】利用 ACL 隐藏恶意 Windows 服务

比伯

Java 大数据 编程 架构 计算机

《迅雷链精品课》第二课:区块链核心技术框架

迅雷链

区块链

简要分析近几年商业软件开发平台的现状

Philips

敏捷开发 快速开发 企业应用

甲方日常 48

句子

工作 随笔杂谈 日常

Spring bean 加载顺序导致的 bug 问题

AI乔治

Java 架构 Spring Boot

阿里云视频云实时字幕技术,助力英雄联盟S10全球总决赛

阿里云视频云

游戏开发 直播 语音识别 字幕

从零到千万用户,我是如何一步步优化MySQL数据库的?

冰河

数据库 架构 性能优化 分布式数据库 分布式存储

区块链产业,怎样“链”住未来?

CECBC

区块链

市值暴涨至万亿美元后,英伟达再放大招!推出超级AI计算平台:集成256个GH200芯片、共享内存144TB_文化 & 方法_李冬梅_InfoQ精选文章