快手、孩子王、华为等专家分享大模型在电商运营、母婴消费、翻译等行业场景的实际应用 了解详情
写点什么

英伟达 RTX 40 系显卡重磅来袭!性能实现巨大飞跃,卡皇冲上 12999 元

  • 2022-09-21
    北京
  • 本文字数:4696 字

    阅读完需:约 15 分钟

英伟达RTX 40系显卡重磅来袭!性能实现巨大飞跃,卡皇冲上12999元

北京时间 9 月 20 日晚间,英伟达 2022 秋季 GTC 上,英伟达首席执行官黄仁勋在线上主题演讲中,介绍了自然语言理解、虚拟世界、游戏与 AI 技术方面等领域的一系列最新进展。


“计算技术正以令人难以置信的速度向前挺进,而推动这枚火箭的引擎正是加速计算,燃料则是 AI”,黄仁勋表示。


黄仁勋在演讲中宣布,支持 AI 工作流的全新云服务与新一代 GeForce RTX GPU 发布,其中涉及一系列新的系统、芯片及软件成果。他认为,加速计算解开了长期困扰 AI 进步的枷锁,而 AI 又反过来影响到世界各地的诸多行业。


黄仁勋在演讲最后强调,此番公布的新技术、产品公告乃至用例宣讲,几十种不同元素的结合只为同一个目标 —— “今天,我们公布了新的芯片、平台进展,以及首次亮相的全新云服务。这些平台将推动 AI 技术的新突破、AI 技术的新应用,也将掀起 AI 在科学和工业领域的新发展。”

GeForce RTX 40 系列显卡,终于来了!

千呼万唤始出来。英伟达第三代 RTX 显卡 — GeForce RTX 40 终于来了!

最新显卡性能强劲

下一代 GeForce RTX 40 系列 GPU 由 Ada 架构提供支持。黄仁勋将其称为“量子飞跃”,号称能为决意模拟整个世界的创造者们铺平道路。



黄仁勋发布下一代 GeForce RTX 40 系列 GPU


Ada 的提升包含一个新的流式多处理器、一个具有双倍光线三角相交吞吐量的新 RT 核心,外加一个带有 Hopper FP8 Transformer 引擎与 1.4 万亿次张量算力的新型张量核心。


Ada 还引入了最新版本的英伟达 DLSS 3 技术,其使用 AI 将新帧与先前帧进行比较,据此生成更多新帧以体现场景变化情况。结果就是,与直接渲染相比,其游戏性能可提高 4 倍。


DLSS 3 已经得到多家世界领先游戏开发商的支持,目前超过 35 款游戏和应用程序宣布引入这项新技术。黄仁勋提到,“DLSS 3 是我们最伟大的神经渲染成果之一。”


与之前的 RTX 3090 Ti 相比,新的 GeForce RTX 4090 凭借上述创新带来了 4 倍的吞吐量处理能力。黄仁勋宣布,“这款新的旗舰级产品”起售为 1599 美元,计划于 10 月 12 日上市。


此外,新的 GeForce RTX 4080 将于 11 月推出,届时将提供两种配置选项。


其中 GeForce RTX 4080 16GB 起售价为 1199 美元,包含 9728 个 CUDA 核心与 16 GB 美光高速 GDDR6X 显存。在 DLSS 3 的支持下,其运行现有游戏的速度可达 GeForce RTX 3080 Ti 的两倍,甚至能够以更低的运行功耗带来超越 GeForce RTX 3090 Ti 的强劲表现。


GeForce RTX 4080 12GB 包含 7680 个 CUDA 核心和 12 GB 美光 GDDR6X 显存,在 DLSS 3 的支持下速度同样高于上代旗舰 GPU RTX 3090Ti。12GB 版本的起售价为 899 美元。

价格太贵了?


不过,英伟达的 RTX 40 系显卡在价格上却招来了不少吐槽。


不少人认为,在 RTX 30 系列推出 2 年多后,英伟达为下一代 GPU 收取了巨额溢价,而且采用了具有“欺骗性的命名,” 这令许多 PC 爱好者并不满意。


“到底发生了什么?4080, 12G 是 899(美元),那哪个是 4070?4080 16G 1200(美元),比上一代 xx80 贵 500 美元。这些价格太疯狂了。”一位 Redditor 感叹道


一位评论者回顾了 2018 年的 GeForce 20 系列的售价,对比之下,新一代显卡的价格确实显得


高昂。“最后两代已经失控了,即使在建议零售价上也是如此。多年来,x70 的价格是 329 美元,x80 是 499 美元,x80 Ti 是 700 美元,而专业一级(Titan、x90 等)的价格是 1199 美元。现在,他们把所有的价格都提高了一个级别”。


事实上,2018 年,英伟达就曾因 RTX 20 系列卡的定价比之前的 10 系列卡的价格高了整整一个“级别”而招致批评。例如,RTX 2070 的价格几乎与之前的高端 GTX 1080 一样多,尽管它不是旗舰卡。


现在来看,类似的价格层级跳现象仍在继续。


10GB RTX 3080 的建议零售价是 699 美元。如今英伟达发布的 16GB 的 RTX 4080,许多观察家认为它是最接近真正的 3080 的“继任者”,其价格高达 1199 美元,比上一代高出 500 美元。


而至于售价 899 美元的 12GB RTX 4080 ,一位网友评论说,“他们试图以 900 美元的价格卖给你一辆改头换面的 4070。”


有网友认为,12GB 的 RTX 4080 看起来只是名义上的“4080”,对于这款产品来说,“RTX 4070”会是一个更“诚实”的名称。因为,这款产品的性能明显较低,而且与 16GB 的 RTX 4080 相比,本质上,本质上是一张完全不同的卡。参考硬件规格,我们会发现 12 GB 版本 RTX 4080 所使用的芯片(「AD104」,只包含 7680 个着色器核心)与 16 GB 版本 RTX 4080(「AD103」,包含 9728 个核心)并不相同。


但在价格上,12GB 的 RTX 4080 的建议零售价仍为 899 美元,比 RTX 3070 的原始建议零售价 499 美元高出 400 美元。


而关于定价的考量,英伟达的一位发言人是这样回应的:


RTX 4090 的起价为 1599 美元。 相比之下,被 RTX 4090 取代的 RTX 3090 Ti 的上市价格为 1999 美元。RTX 4080 16GB 的性能是 RTX 3080 Ti 在下一代内容上的 3 倍,例如具有 RT Overdrive 模式的 Cyber​​punk 或 Racer RTX,价格相同,为 1199 美元。RTX 4080 12GB 售价 899 美元,是 RTX 3080 12GB 性能的 3 倍,价格便宜 100 美元。

最强自动驾驶汽车芯片 Thor 亮相

新一代自动驾驶计算芯片

在如今的汽车上,主动安全、驻车、驾驶员监控、智能后视镜、仪表盘和车载信息娱乐系统各自由不同的计算机驱动。黄仁勋认为,未来的发展方向应该由集中计算机统一运行,并随软件交付而持续改进。


为了达成这个目标,黄仁勋公布了 DRIVE Thor,一款将 Hopper transformer 引擎、Ada GPU 与 Grace CPU 相结合的强大解决方案。


新的 Thor 超级芯片可提供 2000 万亿次浮点运算性能,将取代 DRIVE 路线图中的 Atlan,并支持从当前 DRIVE Orin(性能为每秒 254 万亿次浮点运算)无缝过渡。


黄仁勋介绍称,Thor 将主要面向机器人、医疗器械、工业自动化和边缘 AI 系统等用例。

首发中国客户

英伟达汽车业务负责人 Danny Shapiro 表示,DRIVE Thor 将能够更换汽车中的大量芯片和电缆,并降低整体系统成本,但他没有给出具体的降本数字。“你可以想象在成本、减少布线、减轻重量、降低整体能耗方面节省了巨大的成本。”


英伟达为 DRIVE Thor 宣布的第一个客户是中国吉利旗下 (GEELY.UL) 的 ZEEKR。Shapiro 表示,DRIVE Orin 计算机系统将用于中国汽车公司 XPeng 的新智能 SUV 和中国自动驾驶初创公司 QCraft。


值得注意的是,近期由于美国禁止向中国出口英伟达两款用于数据中心的顶级计算芯片,人们担心中国客户能否继续使用英伟达的技术。


对此,Shapiro 回应称:“有很多公司做着伟大的工作,做着造福人类的事情,我们想支持他们。”“在我们为数据中心提供的产品受到出口限制的情况下,我们会与这些中国客户合作,提出一种合适的替代产品。”

助力大型语言模型发展

H100 GPU 已全面投产,为超大模型提供强大算力

黄仁勋在演讲中再次将系统和软件同广泛的技术发展趋势联系起来,并提到大型语言模型(LLM)和推荐系统已经成为当前最重要的两大 AI 应用场景。


推荐系统“主导整个数字经济”,为电子商务、娱乐以及广告等行业提供动力。可以说,推荐系统“是社交媒体、数字广告、电子商务和搜索业务背后的助推引擎”。


而基于 2017 年亮相的 Transformer 深度学习模型的各类大型语言模型,同样成为当前 AI 研究中最具活力的领域之一。它们已经能够在无监督或标注数据集的前提下,尝试理解人类语言。


黄仁勋指出,“单一预训练语言模型已经可以执行多种任务,例如问答、文档摘要、文本生成、翻译甚至软件编程。”


黄仁勋表示,配备 Hopper 的下一代 Transformer 引擎,英伟达 H100 张量核心 GPU 将为这些超大体量模型提供必要算力。这款新产品现已全面投入生产,预计未来几周内就将开始出货。“Hopper 现已全面投产,很快就会为世界上的各 AI 项目提供动力。”


H100 的系统构建合作伙伴包括 Atos、思科、戴尔科技、富士通、技嘉、HPE、联想和 Supermicro。从明年开始,亚马逊云科技、谷歌云、微软 Azure 和甲骨文云基础设施也将率先在云端部署基于 H100 的实例。


而 Grace Hopper,是将英伟达的 Arm 架构 Grace 数据中心 CPU 与 Hooper GPU 相结合,把高速内存容量增加到 7 倍,将给推荐系统带来“巨大飞跃”。搭载 Grace Hopper 的系统将于 2023 年上半年推出。

推出大型语言模型云服务,推进 AI 和数字生物学发展

大型语言模型(LLM)“是目前最重要的 AI 模型。”以 Transformer 架构为基础,这些大体量模型能够在无监督或标注数据集的前提下理解语言内容及含义,从而迸发出难以想象的能量。


为了让研究人员轻松将这种技术应用到自己的工作成果中,黄仁勋公布了 LLM Nemo 服务。这是一项由英伟达托管的云服务,可用于调整预训练 LLM 以执行特定任务。


为了加快药物和生物科学研究人员的工作进度,黄仁勋还公布了 BioNeMo LLM。这是一项 LLM 创建服务,生成的大型语言模型能够理解化学物质、蛋白质、DNA 及 RNA 序列。


黄仁勋宣布英伟达正与全球最大的人类基因组信息提供商 The Broad Institute 合作,在后者的 Terra Cloud 平台上提供英伟达 Clara 库,其中包含英伟达 Parabricks、基因组分析工具包以及 BioNemo 等服务选项。

打造元宇宙新方案

L40 数据中心 GPU 与元宇宙全面交融

互联网的下一波浪潮正是元宇宙,按照黄仁勋的解释,这波浪潮的核心就是 3D 化扩展。Omniverse 正是英伟达用于构建和运行元宇宙应用的基础平台。


黄仁勋还解释道,连接和模拟一个个元宇宙世界,必然需要更强大、更灵活的新型计算机。英伟达 OVX 服务器就是专门为横向扩展的元宇宙应用程序而生。


英伟达的第二代 OVX 系统将采用 Ada Lovelace L40 数据中心 GPU,目前这款 GPU 也已全面投产。

构建和运行工业元宇宙应用的 Omniverse Cloud 服务

黄仁勋还详尽介绍了英伟达 Omniverse Cloud,这是一种能够对接云端、本地或设备上 Omniverse 应用程序的基础设施即服务。


黄仁勋也带来了新的 Omniverswe 容器选项,在其支持下,用于合成数据生成的 Replicator、用于扩展渲染农场的 Farm、以及用于构建/训练 AI 机器人的 Isaac Sim 现在都可部署在云端。


Omniverse 已经得到广泛采用,黄仁勋在演讲中分享了几个客户案例及演示:


  • 拥有近 2000 家零售店的劳氏正使用 Omniverse 设计、构建并运营其实体门店的数字孪生副本;

  • 市值 500 亿美元的电信运营商 Charter,正与交互式数据分析供应商 HeavyAi 共同使用 Omniverse 为 Charter 4G/5G 网络创建数字孪生;

  • 通用汽车正在 Omniverse 为其密歇根设计工作室创建数字孪生,设计师、工程师和营销人员可以在这里开展协同。


计算机图形和 AI 特效技术新进展、新工具

目前全球大部分互联网流量均为视频,而用户生成的视频流也越来越多地得到了 AI 特效及计算机图形技术的增强。“数字化身将在云端实时接受计算机视觉、语音 AI、语言理解和计算机图形等技术的处理。”黄仁勋表示。


为了在实时图形、AI 和通信的交叉点上有所创新,他公布了英伟达构建的一系列加速库成果,包括 CV-CUDA、作为云运行时引擎的 UCF 统一计算框架、Omniverse ACE Avatar 云引擎,以及 Tokkio 客户服务化身应用。

发布微型机器人计算机 Jetson Orin Nano

从虚拟世界转向现实世界,机器人计算机可以说是“最新类型的计算机形态”。而此次发布的第二代机器人处理器 Orin,则被黄仁勋形容为这类技术的一记本垒打。


为了将 Orin 推向更多市场,英伟达发布了 Jetson Orin Nano。这款微型机器人计算机比之前大获好评的 Jetson Nano 快 80 倍。


Jetson Orin Nano 运行有英伟达 Isaac 机器人堆栈并搭载 ROS 2 GPU 加速框架,同时配备可在云端使用的英伟达 Isaac Sim 机器人模拟平台。


对于使用 AWS RoboMaker 的机器人开发者用户,黄仁勋也公布了登陆 AWS 市场的英伟达 Isaac 机器人开发平台容器。

350 万开发者,3000 个加速用例

黄仁勋宣布要把英伟达的系统/芯片以及加速计算优势,推广到全球各行各业。这是一个涵盖 350 万开发人员的软件生态系统,他们使用英伟达提供的 500 款软件开发套件(SDK)及 AI 模型,创建出约 3000 个加速用例。


参考链接:


https://blogs.nvidia.com/blog/2022/09/20/keynote-gtc-nvidia-ceo/


https://kotaku.com/pc-nvidia-rtx-4090-4080-gpu-card-prices-crypto-scalping-1849560018


2022-09-21 14:052384
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 527.2 次阅读, 收获喜欢 1974 次。

关注

评论

发布
暂无评论
发现更多内容

架构实战营作业 - 模块二

haibin369

「架构实战营」

直播预告|MobTech携手中国信通院共话数据治理建设实践

MobTech袤博科技

数据安全 火山引擎 信通院 MobTech袤博科技

微信朋友券的高性能复杂度

CityAnimal

架构实战营 #架构实战营 「架构实战营」

架构实战营 - 第 6 期 模块二课后作业

乐邦

「架构实战营」

微信朋友圈高性能复杂度

鱼恨水

PiFlow 发布企业级分布式关系型数据库 OceanBase 组件

OceanBase 数据库

oceanbase OceanBase 开源

微信朋友圈的高性能复杂度

大眼喵

「架构实战营」

模块二:微信朋友圈高性能复杂度分析

jiaoxn

「架构实战营」

有没有一件你认为是成功的,能让自己骄傲的事情?

石云升

职场经验 4月月更

分布式session之RedisSession的探索

Rubble

redis 4月日更 4月月更

架构训练营模块 2 作业

小马

「架构实战营」

使用和风天气 API 10分钟搭建天气预报数据看板

蒋川

API 天气api

一文简述:企业应用架构演进史

穿过生命散发芬芳

4月月更

在线SQL压缩工具

入门小站

工具

分析微信朋友圈的高性能复杂度

Kevin

「架构实战营」

Excelize 发布 2.6.0 版本,功能强大的 Excel 文档基础库

xuri

golang Excel Apache POI Go 语言 Excelize

Go服务错误堆栈收集降频策略

SFLYQ

后端 高并发 Go 语言 日志采集

Test

haibin369

linux之type命令

入门小站

Linux

带你了解元宇宙

CECBC

基于HiKariCP组件,分析连接池原理

HikariCP 连接池 数据库连接池

微信朋友圈架构复杂度分析

Trent

微信朋友圈的高性能复杂度分析

Geek_bc9c8d

在线计算两个时间相差多少秒,分钟,天

入门小站

工具

架构实战营-模块二作业

,lazy

#架构实战营 「架构实战营」

一文了解垃圾回收算法中的引用计数算法

宇宙之一粟

垃圾回收算法 引用计数 4月月更

模块二

Geek_5hnu3d

微信朋友圈的高性能复杂度

唐诗宋词

[Day11]-[动态规划]让字符串成为回文串的最少插入次数

方勇(gopher)

LeetCode 数据结构和算法

阿里二面:携程配置中心Apollo服务端是如何感知配置变化的

root

模块二作业:微信朋友圈高性能复杂度分析

杨波

「架构实战营」

英伟达RTX 40系显卡重磅来袭!性能实现巨大飞跃,卡皇冲上12999元_AI&大模型_刘燕_InfoQ精选文章