最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

英伟达正在开启 AI 芯片新纪元:重磅推出全新架构芯片,可支持 10 万亿个参数模型

  • 2024-03-20
    北京
  • 本文字数:3777 字

    阅读完需:约 12 分钟

大小:1.81M时长:10:34
英伟达正在开启AI芯片新纪元:重磅推出全新架构芯片,可支持10 万亿个参数模型

北京时间凌晨 4:00,大洋彼岸的美国加利福尼亚州圣何塞的圣何塞会议中心,被称为英伟达技术盛宴的 GTC 2024 大会正如火如荼地进行着。作为英伟达 2024 的开年大戏,身着标志性皮夹克的万亿富豪黄教主站在舞台中央,平静地甩出继 H100、A100 后的又一系列“核弹”级超级芯片。

 

今年的 GTC 之所以万众瞩目,是因为过去一年英伟达在 AI 领域的财务业绩方面取得了巨大成功。从 Volta V100 GPU 系列到最新的 Ampere A100 和 Hopper H100 芯片,该公司一直问鼎 AI 芯片之王。

 

GPU 家族再添“新丁”,全新 Blackwell 架构芯片炸场

 

在本届 GTC 大会开始之前,国外媒体就已经开始盛传:黄仁勋将在 GTC 2024 上发布一款 GPU 家族的新品,果然,采用 Blackwell 架构的 B200 系列和 GB200 芯片如期而至。

 

据英伟达称,Blackwell 架构系列芯片是迄今为止功能最强大的 AI 芯片家族。

 

据老黄介绍,B200 拥有 2080 亿个晶体管(而 H100/H200 上有 800 亿个晶体管),采用台积电 4NP 工艺制程,可以支持多达 10 万亿个参数的 AI 模型,而 OpenAI 的 GPT-3 由 1750 亿个参数组成。它还通过单个 GPU 提供 20 petaflops 的 AI 性能——单个 H100 最多可提供 4 petaflops 的 AI 计算。

 

但值得注意的是,Blackwell B200 并不是传统意义上的单一 GPU。它由两个紧密耦合的芯片组成,这两个芯片通过 10 TB/s NV-HBI(Nvidia 高带宽接口)连接进行连接,以确保它们能够作为单个完全一致的芯片正常运行。

 

该 GPU 平台以数学家 David Harold Blackwell 的名字命名,继承了英伟达两年前推出的 Hopper 架构,基于该架构一系列产品使英伟达的业务及其股价飙升。

 

该架构在 AI 安全方面又向前迈进了重要一步。Blackwell 通过 100% 系统内自测试 RAS 服务和全性能加密提供安全的 AI,也就是说数据不仅在传输过程中安全,而且在静止状态和计算时也安全。

 


Blackwell 将被整合到英伟达的 GB200 Grace Blackwell 超级芯片中,该芯片将两个 B200 Blackwell GPU 连接到一个 Grace CPU。英伟达没有透露价格。

 

新芯片预计将于今年晚些时候上市。英伟达表示,AWS、戴尔科技、谷歌、Meta、微软、OpenAI 和特斯拉计划使用 Blackwell GPU。

 


“生成式人工智能是我们这个时代的决定性技术,”老黄在演讲时表示。“Blackwell GPU 是推动这场新工业革命的引擎。与世界上最具活力的公司合作,我们将实现人工智能对每个行业的承诺。”

 

英伟达还发布了 GB200 NVL72 液冷机架系统,其中包含 36 颗 GB200 Grace Blackwell 超级芯片,拥有 1440 petaflops(又名 1.4 exaflops)的推理能力,它内部有近两英里长的电缆,共有 5000 根单独的电缆。

 

英伟达表示,与用于推理用途的相同数量的 H100 Tensor Core 图形处理单元相比,GB200 NVL72 性能提升高达 30 倍。此外,该系统还可将成本和能耗降低多达 25 倍。

 


GB200 NVL72

 

例如,训练一个 1.8 万亿参数模型之前需要 8000 个 Hopper GPU 和 15 兆瓦的功率。如今,只需要 2000 个 Blackwell GPU 就可以做到这一点,而功耗仅为 4 兆瓦。

 

在具有 1750 亿个参数的 GPT-3 基准测试中,英伟达表示 GB200 的性能是 H100 的 7 倍,训练速度是 H100 的 4 倍。

 

此外,英伟达称还将推出一款名为 HGX B200 的服务器主板,它基于在单个服务器节点中使用 8 个 B200 GPU 和一个 x86 CPU(可能是两个 CPU)。每个 B200 GPU 可配置高达 1000W,并且 GPU 提供高达 18 petaflops 的 FP4 吞吐量,因此比 GB200 中的 GPU 慢 10%。

 

目前,企业客户可以通过 HGX B200 和 GB200(将 B200 GPU 与 英伟达的 Grace CPU 结合在一起)访问 B200。

 


全面升级软件服务

 

市场正在升温,硬件和软件方面的竞争都在加剧。在本次 GTC 中,英伟达不仅通过新的硬件创新来应对竞争,还展示了其 AI 软件战略如何帮助确定其在该领域的领导地位,以及未来几年将如何发展。

 

黄仁勋还着力推销其 AI 软件订阅服务包,这显然是在配合该公司向“以软件卖硬件”的新战略,也是在与过往的“以硬件卖软件”的战略彻底告别。

 

英伟达可以访问所有领域的大量模型,但他们认为对于企业来说它们仍然太难使用。他们推出了 Nvidia 推理微服务(NIM),将模型和依赖项整合到一个简洁的包中,根据用户的堆栈进行优化,并与易于使用的 API 连接。

 


经过打包和优化的预训练模型,可在 NVIDIA 的安装基础上运行,包含运行它所需的所有软件,CUDA 库、API 等。基本上都是容器化的 AI 软件包,针对 NV GPU 进行了优化,并带有一个简单的 API 来访问它们。

 

老黄指出:“这就是我们未来编写软件的方式”——通过组装一堆人工智能。

 


老黄我们介绍了英伟达如何使用英伟达推理微服务(NIM)创建一个内部聊天机器人,旨在解决构建芯片时遇到的常见问题。“我们需要一个模拟引擎,以数字方式为机器人呈现世界,”他说,这就是 Omniverse。 这些“微服务”将允许开发人员使用专有和自定义模型快速创建和部署“副驾驶”或人工智能助手。

 

他表示,机器人技术与人工智能和 Ominverse/Digital Twin 工作一起成为英伟达的关键支柱,所有这些都共同努力以充分利用公司的系统。

 

据悉,Omniverse 是一个专为构建和操作 Metaverse 应用程序而设计的平台,本质上是人们可以交互、工作和创建的共享虚拟世界。Omniverse 平台可以创建数字孪生和高级模拟。英伟达对 Omniverse 的愿景包括成为 Metaverse 的基础平台,创作者和企业可以在共享虚拟空间中进行协作。在 Omniverse 中创建的数字孪生可用于 Metaverse 中的各种应用,例如虚拟培训、产品设计和预测性维护。

 

老黄表示英伟达已经推出了数十种企业级生成式 AI 微服务,企业可以使用这些服务在自己的平台上制作应用程序,同时保留对其知识产权的完全所有权和控制权。

 

老黄还宣布将 Omniverse Cloud 流传输至 Apple Vision Pro 耳机。

 


他也表示,英伟达表示正认真考虑从根本上重新设计整个底层软件堆栈,希望借 AI 之力为人类生成更优质的代码。

 

之所以会有这样的想法,原因非常简单:几十年来,整个世界一直受制于围绕 CPU 发展出的传统计算框架,即由人类编写应用程序以检索数据库中准备好的信息。

 

黄仁勋在发布会上指出,“我们今天的计算方式,首先需要确定信息是由谁编写、由谁创建的,也就是要求信息先要被记录下来。”

 

而英伟达的 GPU 为加速计算开辟出一条通往算法化计算的新路,可以依托创造性推理(而非固有逻辑)来确定相关结果。

 

此外,英伟达希望通过发布另一个新的 API 集合 Project GROOT 来推动人形机器人的开发。

 

Project GROOT 是一个人形机器人模型,英伟达与 Jetson Thor 一起生产,Jetson Thor 是一款 SoC,也是 Nvidia Isaac 的升级版。英伟达表示,GROOT 机器人将理解自然语言并模仿人类动作来学习灵活性。Jetson Thor 运行基于 Blackwell 的 GPU,可在 8 位数据处理中提供 800 teraflops 的 AI 性能。

 


老黄透露,由该平台驱动的机器人将被设计为能够理解自然语言并模仿机器人的动作,观察人类行为。这使 GROOT 机器人能够快速学习协调性、灵活性和其他技能,以导航、适应现实世界并与之互动——并且绝对不会导致机器人叛乱。

 

“为通用人形机器人构建基本模型是我们当今人工智能领域能够解决的最令人兴奋的问题之一,”老黄说。“这些使能技术正在融合在一起,使世界各地领先的机器人专家能够在人工通用机器人领域取得巨大飞跃。”

 

对开发者的影响

 

根据专家预测,五年之后,文本、图像、视频和语音等形式的信息将全部被实时输入大语言模型(LLM)。届时计算机将直通所有信息源,通过多模态交互不断实现自我改进。

 

黄仁勋此前曾表示,“未来,我们将步入持续学习的时代。我们可以决定是否部署持续学习的成果,而且与计算机的交互不会再借助 C++。”

 

这就是 AI 技术的意义所在——人类可以在推理之后,要求计算机生成代码以实现特定目标。换句话说,未来人们可以用简单的语言、而非 C++或者 Python,与计算机实现顺畅交流。

 

“在我看来,编程本身的价值正在悄然跨过历史性的衰退拐点。”黄仁勋还补充称,AI 已经在弥合人类与技术之间的鸿沟。

 

“就在当下,约有上千万人凭借自己的计算机编程知识来谋取职位、赚得收益,而余下的 80 亿人则被他们远远甩在身后。未来的情况将有所改变。”

 

在黄仁勋看来,英语将成为最强大的编程语言,而个性化交互则是缩小技术鸿沟的关键因素。

 

生成式 AI 将成为一种宏观层面的操作系统,人类可以在其中用简单的语言指示计算机创建应用程序。黄仁勋表示,大语言模型将帮助人类通过计算机把自己的灵感转化为现实。

 

例如,人类已经可以要求大语言为特定领域的应用程序生成 Python 代码,且全部提示内容均使用简单英语编写而成。

 

“我们要如何让计算机按自己的想法做事?我们要如何在计算机上实现指令微调?这些问题的答案就是提示词工程,而且更多是种艺术、而非单纯的技术。”

 

也就是说人类将可以专注于领域专业知识,而生成式 AI 将补齐编程技能这块短板。黄仁勋认为这将彻底颠覆软件的开发格局。

 

黄仁勋此前曾将大语言模型比作经过预培训且头脑灵光的大学毕业生。英伟达正围绕大模型提供医疗保健与金融等领域的专业知识,借此为企业客户提供高效支持。

 

参考链接:

https://thenewstack.io/nvidia-wants-to-rewrite-the-software-development-stack/

https://hk.finance.yahoo.com/news/pattern-attend-nvidia-gtc-2024-220500892.html

https://thenewstack.io/nvidia-wants-to-rewrite-the-software-development-stack/

 

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2024-03-20 09:453902
用户头像
李冬梅 加V:busulishang4668

发布了 810 篇内容, 共 378.2 次阅读, 收获喜欢 998 次。

关注

评论 2 条评论

发布
用户头像
是一个技术进步,但是总的来说grok开源后证明了模型大并没太大提升,还是精炼的合适的尺寸才是王道,也许哪天算法破解了这个原理,一个单片机都能跑人工智能……
2024-03-20 09:50 · 北京
回复
也不是没可能
2024-03-21 10:22 · 北京
回复
没有更多了

GraphQL设计思想

Ryan Zheng

graphql

KubeCube开源:魔方六面,降阶Kubernetes落地应用

网易数帆

开源 Kubernetes 容器 KubeCube

区块链+物联网设备,能产生什么反应?

CECBC

来了!《中国移动2021智能硬件质量报告》正式发布

零基础入门:基于开源WebRTC,从0到1实现实时音视频聊天功能

JackJiang

音视频 WebRTC 即时通讯 IM

Golang:再谈生产者消费者模型

Regan Yue

协程 Go 语言 8月日更

国产接口调试工具ApiPost中的内置变量

Proud lion

大前端 测试 后端 Postman 开发工具

后Kubernetes时代的虚拟机管理技术之kubevirt篇

谐云

虚拟机 #Kubernetes#

🏆「作者推荐」Java技术专题-JDK/JVM的新储君—GraalVM和Quarkus

洛神灬殇

Java JVM GraalVM 8月日更

Go- 函数参数和返回值

HelloBug

函数 参数 返回值 Go 语言

以区块链为基础 通证经济是下一代互联网的数字经济

CECBC

使用mock.js给前端生成需要的数据

与风逐梦

大前端 后端 开发工具

没有7年经验你真学不会这份SpringCloud实战演练文档

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

Android模块化开发实践

vivo互联网技术

android 架构 开发 项目实战 模块

6种常用Bean拷贝工具一览

码农参上

8月日更 对象拷贝

Java NIO在接口自动化中应用

FunTester

Java nio 接口测试 测试开发

一分钟学会使用ApiPost中的全局参数和目录参数

CodeNongXiaoW

大前端 测试 后端 接口工具

云小课 | 详解华为云独享型负载均衡如何计费

华为云开发者联盟

负载均衡 华为云 弹性负载均衡 独享型ELB实例 独享型负载均衡

打造数字人民币的大运应用场景

CECBC

多样数字人民币钱包来袭,阻力与动力并存

CECBC

NameServer 核心原理解析

leonsh

RocketMQ 消息队列 NameServer

【虚拟机专栏】智能合约执行引擎的前世今生

趣链科技

最小二乘法,了解一下?

华为云开发者联盟

数据 数据处理 计算 最小二乘法 数学工具

带头撸抽奖系统,DDD + RPC 开发分布式架构!

小傅哥

DDD 小傅哥 架构设计 springboot 抽奖系统

从lowcode看下一代前端应用框架

百度Geek说

大前端 lowcode

传统到敏捷的转型中,谁更适合做Scrum Master?

华为云开发者联盟

Scrum 敏捷 团队 项目经理 Scrum Master

protocol buffer的高效编码方式

程序那些事

Java protobuf 程序那些事

在?进来看看新一季周边到底做点啥?【话题讨论】

气气

话题讨论

带你梳理Jetty自定义ProxyServlet实现反向代理服务

华为云开发者联盟

容器 k8s jetty Servlet引擎 ProxyServlet

web技术分析| 一篇前端图像处理秘籍

anyRTC开发者

大前端 音视频 WebRTC web技术分享

模块一作业

小智

架构实战营

英伟达正在开启AI芯片新纪元:重磅推出全新架构芯片,可支持10 万亿个参数模型_英伟达_李冬梅_InfoQ精选文章