《HarmonyOS:领航者说》技术公开课来啦,大咖分享、实战解码,不容错过 了解详情
写点什么

AI 推理竞赛正在升温

  • 2024-09-11
    北京
  • 本文字数:3298 字

    阅读完需:约 11 分钟

大小:1.60M时长:09:18
AI 推理竞赛正在升温

虽然英伟达的 GPU 在 AI 训练领域的主导地位仍然难以撼动,但似乎有迹象表明,在 AI 推理方面,竞争对手正在迎头赶上这家科技巨头,尤其是在能效方面。然而,英伟达新推出的 Blackwell 芯片的卓越性能可能很难被超越。


最近,ML Commons 发布了最新的 AI 推理竞赛 ML Perf Inference v4.1 的成绩单。这一轮竞赛包括使用 AMD Instinct 加速器的团队、最新的谷歌 Trillium 加速器、来自多伦多初创公司 UntetherAI 的芯片以及英伟达最新发布的 Blackwell 芯片的首次试水。另外两家公司,Cerebras 和 FuriosaAI,也发布了最新的推理芯片,虽然没有提交给 MLPerf 进行评测。


就像奥林匹克运动会一样,MLPerf 也有许多类别和子类别。提交数量最多的是“封闭数据中心”类别。封闭类别(相对于开放类别)要求提交者在不进行重大软件修改的情况下按照原样运行推理任务。数据中心类别评估的是批量处理查询的能力,而边缘类别则侧重于降低延迟。



每个类别有 9 个不同的基准测试,针对不同类型的 AI 任务,包括一些流行的应用场景,如图像生成(例如 Midjourney)和 LLM 问答(例如 ChatGPT),以及同样关键但可能不那么引人注目的任务,比如图像分类、目标识别和推荐引擎。


本轮竞赛新增了一个叫作 Mixture of Experts 的基准测试。这是 LLM 部署方面的一个日益流行的趋势:一个语言模型被分解为几个较小的、独立的模型,每个子模型都针对特定任务进行微调,如常规对话、解决数学问题和协助编码。模型能够将每个查询定向到适当的子模型(或者叫“专家”模型)。这种方法使得每个查询使用更少的资源,从而降低成本并提升吞吐量。


在备受瞩目的封闭数据中心基准测试中,获胜者仍然是基于英伟达 H200 GPU 和 GH200 超级芯片(封装了 GPU 和 CPU)的参赛者。然而,如果深入分析性能数据,我们会发现情况远比表面看起来的复杂。一些参赛者部署了大量加速器芯片,而另一些则只使用了一片。如果我们将每个参赛者每秒处理的查询数量按使用的加速器数量进行标准化,并仅考虑每种加速器类型的最佳性能,一些有趣的细节便会浮出水面。(需要注意的是,这种分析方法并未考虑 CPU 和互连对性能的影响。)


以单个加速器为前提,英伟达的 Blackwell 芯片在其参与的唯一基准测试——LLM 问答任务中,性能比所有之前的芯片高出 2.5 倍。Untether AI 的 speedAI240 预览芯片在它参与的唯一任务——图像识别中,性能几乎与 H200 持平。谷歌的 Trillium 在图像生成任务上的性能大约是 H100 和 H200 的一半,而 AMD 的 Instinct 在 LLM 问答任务上的性能与 H100 大致相当。



强大的 Blackwell


英伟达 Blackwell 芯片取得成功的一个关键因素是它能够使用 4 位浮点精度运行 LLM。英伟达及其竞争对手一直在努力减少用于表示数据的位数,以此来提升计算速度。英伟达在 H100 中引入了 8 位数,而此次参赛在基准测试中首次展示了其 4 位数的运算能力。


英伟达产品营销总监 Dave Salvator 指出,使用低精度数字位的最大挑战在于保持模型的准确性。为了满足 MLPerf 评测所需的高精度标准,英伟达团队不得不在软件层面进行重大创新,他补充道。


Blackwell 芯片成功的另一个关键因素是其内存带宽的显著提升,达到了每秒 8 兆字节,几乎是 H200 芯片每秒 4.8 兆字节带宽的两倍。



英伟达 GB2800 Grace Blackwell 超级芯片


Blackwell 芯片虽然在竞赛中仅使用了单个芯片,但 Salvator 指出,该芯片是为了实现联网和伸缩性而设计的,在与英伟达的 NVLink 互连技术配合使用时将发挥最大效能。Blackwell GPU 支持多达 18 个 NVLink 连接,每个连接的速率为每秒 100 千兆字节,总带宽达到每秒 1.8 兆字节,大约是 H100 互连带宽的两倍。


Salvator 认为,随着大型语言模型的不断扩展,推理任务也将需要多 GPU 平台来满足日益增长的需求,而 Blackwell 芯片正是为了应对这一趋势而设计。Salvator 强调,“Blackwell 不仅仅是一个芯片,它还是一个平台”。


英伟达基于 Blackwell 芯片的基础系统参与了 MLPerf 的预览子类别,这表明该芯片尚未对外销售,但预计将在未来六个月内,即下一次 MLPerf 评测发布之前上市。


Untether AI 在功耗和边缘计算方面表现出色


对于 MLPerf 的每一项基准测试,都有相应的能源效率测试,以系统性地评估各系统在执行任务时的功耗。封闭数据中心能源类别只有 Nvidia 和 Untether AI 两家提交了测试结果。Nvidia 参与了所有基准测试,但 Untether AI 只参与图像识别环节。



Untether AI 通过所谓的“内存内计算”实现了卓越的能效。Untether AI 的芯片设计为由内存元素构成的网格,每个小处理器紧邻其旁。处理器采用并行处理方式,与邻近内存单元格中的数据同步工作,显著减少了模型数据在内存与计算核心间传输所需的时间和资源。


Untether AI 产品副总裁 Robert Beachler 表示:“我们发现,在 AI 工作负载中,大约 90% 的能耗仅用于将数据从 DRAM 传输到缓存,再传输到处理单元。因此,我们采取了相反的策略……不是将数据移至计算单元,而是将计算单元移到数据所在的地方。”


这种创新方法在 MLPerf 的“封闭边缘”子类别中取得了显著成效。这个类别专注于更贴近实际的应用场景,如工厂内的机器检查、引导视觉机器人和自动驾驶汽车等——Beachler 指出,在这些应用中,低能耗和快速处理至关重要。



在图像识别任务中,Untether AI 仍然是唯一提供评测结果的公司,它的 speedAI240 预览芯片在延迟性能方面是 NVIDIA L40S 的 2.8 倍,吞吐量(每秒处理的样本数)提升了 1.6 倍。这家初创公司还提交了功耗数据,但因为 Nvidia 没有提供相应的数据,因此很难进行直接比较。不过,Untether AI 的 speedAI240 预览芯片每个芯片的标称功耗为 150 瓦,而 Nvidia 的 L40s 为 350 瓦,这意味着在延迟性能提升的同时,功耗名义上降低了 2.3 倍。


Cerebras、Furiosa 没有参与 MLPerf 竞赛,但发布了新的芯片


Furiosa 的新芯片采用了一种独特且高效的手段来实现 AI 推理中的基本数学运算——矩阵乘法。


在近期斯坦福大学举办的 IEEE Hot Chips 大会上,Cerebras 公司推出了自己的推理服务。这家位于加州 Sunnyvale 的公司专注于制造大型芯片,利用尽可能大的硅片来避免芯片间的互连问题,并显著提升设备的内存带宽。这些设备主要用于训练大型神经网络。现在,Cerebras 已经升级了其软件栈,用于其最新的计算机 CS3 执行推理任务。



Furiosa 的新芯片以一种不同的、更有效的方式实现了 AI 推理最基本的矩阵乘法。


尽管 Cerebras 尚未参与 MLPerf 的评测,但该公司宣称其平台在每秒生成的 Token 数量比 Nvidia 的 H100 高出 7 倍,比竞争对手 AI 初创公司 Groq 的芯片高出 2 倍。Cerebras 首席执行官兼联合创始人 Andrew Feldman 表示:“我们正处在通用人工智能的拨号上网时代。这是因为受到内存带宽的限制。无论是 Nvidia 的 H100、MI 300 还是 TPU,它们都使用相同的外部内存,从而受到相同的限制。我们已经突破了这一限制,这得益于我们的晶圆级技术。”


在 Hot Chips 大会上,来自首尔的 Furiosa 公司也发布了第二代芯片——RNGD。Furiosa 芯片的独特之处在于它所采用的张量收缩处理器(TCP)架构。在 AI 工作负载中,矩阵乘法是一项基础操作,通常在硬件中以原语的形式实现。然而,矩阵的规模和形状(即张量)可以有极大的变化。RNGD 实现了这种更为通用的乘法版本作为原语。Furiosa 创始人兼首席执行官 June Paik 在 Hot Chips 大会上解释说:“在推理过程中,批次大小差异显著,因此充分利用张量形状的固有并行性和数据重用至关重要。”


虽然 Furiosa 没有向 MLPerf 提交 RNGD 芯片的评测数据,但该公司已在内部将 RNGD 芯片在 MLPerf 的 LLM 摘要基准测试中的性能与 Nvidia 的边缘计算芯片 L40S 进行了比较。结果显示,在功耗仅为 185 瓦的情况下,RNGD 芯片的性能与功耗为 320 瓦的 L40S 相当。June Paik 表示,随着软件优化的进一步深入,芯片的性能有望得到进一步提升。


IBM 还发布了他们为满足企业生成式 AI 工作负载需求而设计的新款 Spyre 芯片,并计划于 2025 年第一季度推向市场。


至少,在可预见的未来,AI 推理芯片市场的买家们将不会感到乏味。


原文链接:


https://spectrum.ieee.org/new-inference-chips


声明:本文由 InfoQ 翻译,未经许可禁止转载。


2024-09-11 17:465875

评论

发布
暂无评论
发现更多内容

阿里云联合鼎捷软件发布云上数字工厂解决方案,实现云MES系统本地化部署

阿里云弹性计算

数字化转型 MES系统 中小企业 云盒

ECSM隐私协议

潇潇雨歇

天翼云推荐新人返好礼,最高返利千元

天翼云开发者社区

5.26直播预告|《观见话题》第一期:跨境组网与加速上云的硬核解法

观测云

kafka集群搭建

阿呆

Kafk

springboot集成activiti整套方案()

金陵老街

Vue ERP Activiti spring-boot

All in ONE!博睿数据重磅推出一体化智能可观测平台

博睿数据

博睿数据 IT运维 ONE平台

关于 WordPress 你了解多少?

海拥(haiyong.site)

WordPress 5月月更

计算机网络概述

工程师日月

计算机网络 5月月更

dfs专项练习题

工程师日月

DFS 5月月更

4月券商App行情刷新及交易体验评测报告,7家券商入围领导者象限

博睿数据

性能测试 系统运维 博睿数据 券商排行

青藤入选信通院“数据安全推进计划”成员单位

青藤云安全

数据安全 信通院

SysAK 应用抖动诊断篇—— eBPF又立功了! | 龙蜥技术

OpenAnolis小助手

Linux 工具 内核 ebpf 龙蜥技术

英特尔庄秉翰:推动5G释放数字经济潜能,拥抱“银发时代”美好生活

科技之家

先是IPV6,再是WI-FI7你都清楚这是什么吗?

郑州埃文科技

ipv6 IP地址

极速调取客户保单,YRCloudFile 助力保险存储架构升级

焱融科技

AI 存储 NAS 数字金融

【高并发】什么是ForkJoin?看这一篇就够了!

冰河

并发编程 多线程 高并发 协程 异步编程

Authing 被世界经济论坛评选为 2022 技术先锋企业

Authing

身份云 科技 Idaas 科技企业

【刷题第14天】两个链表的第一个公共节点

白日梦

5月月更

源码解读预告 |TiFlash DeltaTree 引擎设计及实现解析!

TiDB 社区干货传送门

七、云原生日志审计

穿过生命散发芬芳

日志 5月月更

宜搭5月更新:跨应用数据读写能力升级,AI组件内测开放

一只大光圈

AIRIOT物联网低代码平台如何配置OPC UA驱动?

AIRIOT

【活动报名】TiDB 社区天津站 Meetup 要来啦!

TiDB 社区干货传送门

Authing 身份云招聘:增长黑客

Authing

招聘 科技

生命科学领域下的医药研发通过什么技术?冷冻电镜?分子模拟?IND?

GPU算力

520特别企划 | Z世代进入婚恋市场,婚恋交友行业会有什么变化?​

易观分析

Z世代

论道原生:走进可观测性

Daocloud 道客

云原生 可观测性 OpenTelemetry

OceanBase 源码解读(十一):Location Cache 模块浅析

OceanBase 数据库

oceanbase 源码解读

普渡科技宣布成立“PUDU-X”创新基金,为青年工程师筑梦未来

极客天地

美团二面:为什么Redis会有哨兵?

Java全栈架构师

Java 数据库 redis 程序员 面试

AI 推理竞赛正在升温_芯片&算力_Dina Genkina_InfoQ精选文章