写点什么

Turing GPU、Xavier 芯片系统在 MLPerf 基准测试中成绩第一,英伟达 AI 推理加速

  • 2019-11-11
  • 本文字数:2651 字

    阅读完需:约 9 分钟

Turing GPU、Xavier芯片系统在MLPerf基准测试中成绩第一,英伟达AI推理加速

相信很多关注 AI 的人都知道,NVIDIA GPU 曾于  去年12月今年7月两度树立了数据中心神经网络训练的性能标杆。11月6日发布的行业基准测试结果显示,NVIDIA 引领着数据中心内部与外部 AI 网络的趋势。


NVIDIA Turing GPU 和Xavier 芯片系统在首个独立 AI 推理基准测试 ——MLPerf Inference 0.5 中取得第一名。由于推理一直是 AI 市场中最大、同时也是最具竞争力的领域,业内此前一直希望能够有一套客观的推理性能测试指标。


在参与此次测试的十二家公司中,只有 NVIDIA AI 平台提交了 MLPerf的全部五项推理测试成绩(MLPerf 是一个于 2018 年 5 月成立的行业基准测试小组)。这证明了 NVIDIA CUDA-X AITensorRT软件的成熟程度。它们让用户能够更加轻松地将所有的 NVIDIA GPU 应用于数据中心、边缘等领域。


MLPerf 定义了五项推理基准,涵盖了三个现有的人工智能应用:图像分类、目标检测和翻译。每项基准分为四个场景:与数据中心应用关联性最高的服务器和离线场景,以及用于满足边缘设备地芯片系统需求的单流和多流场景。



NVIDIA 在两个数据中心场景(离线和服务器)的全部五项基准测试中均排在第一位,Turing GPU 被评为市面上单处理器性能最高的 GPU。



离线场景中具有代表性的场景有图像标记等,该场景下所有数据可在本地使用;而服务器场景代表性场景有在线翻译服务等,此场景下会突然或间歇性随机出现数据和请求工作。


Xavier 在两个边缘场景(单流和多流)中被评为市面上性能最佳的边缘和移动芯片系统。


工业检测相机主要被用来在快速移动的生产线上发现不合格品,这是一种典型的单流任务。多流场景则是测试芯片能够处理多少个数据源 —— 该性能对于一辆可能需要使用 6 台以上摄像机的自动驾驶汽车而言,是一项关键的能力。



该结果显示了 NVIDIA CUDA 和 TensorRT 软件的性能。它们为用户提供了一个通用平台,使用户可以在多个产品和应用中取得领先结果,而这正是 NVIDIA 所独有的能力。


在数据中心场景中,NVIDIA 的两款 GPU 还出现了相互竞争的场面。NVIDIA TITAN RTX 展示了 Turing 级 GPU 的巨大潜力,尤其是在各种要求苛刻的任务中,比如运行用于语言翻译的 GNMT 模型等。


功能丰富、应用广泛的NVIDIA T4 Tensor Core GPU 在多个场景取得了优秀的成绩。这个功耗仅为 70 瓦的 GPU 能够轻松安装到任何带有 PCIe 槽的服务器中,使用户能够根据需要扩展其计算力,进而大幅扩展其推理工作。


MLPerf 已经获得行业和学术界的广泛支持。其成员包括 Arm、Facebook、Futurewei、通用汽车、Google、哈佛大学、Intel、MediaTek、微软、NVIDIA 及 Xilinx。值得一提的是,相比于之前的两次训练比赛,此次基准测试吸引了更多的参与者。


NVIDIA 此次共采用了三款产品,共计四种配置参加此次测试,并提交了全部 20 个场景中的 19 个场景的成绩,以此表明公司对这项工作的支持。NVIDIA 的合作伙伴 Dell EMC,以及 NVIDIA 的客户阿里巴巴同样使用 NVIDIA GPU 提交了成绩。相比于其他参与者,NVIDIA 与合作伙伴和客户一同向用户全面地展示了 NVIDIA 产品组合的潜力。

全新的视角与产品

推理指的是在实时生产系统中,通过运行AI模型,从大量数据中筛选出可执行洞察的过程。这是一项仍处于发展中的新兴技术,而 NVIDIA 也在该领域中不断前进,未曾停止脚步。


今天,NVIDIA 发布了用于 MLPerf 测试的 Xavier 芯片系统低功耗版本——Jetson Xavier NX ,其最大功率仅为 15 瓦,却具有最高 21 TOPS 的性能。它将为那些对性能要求高、但功率有限的新一代机器人、无人机和其他自主设备提供驱动力。


除了新的硬件之外,NVIDIA 还发布了在 MLPerf 基准测试中所使用的最新TensorRT 6 优化,并在 GitHub 上以开源方式为用户提供该软件。用户可以在MLPerf 开发者博客中了解更多关于这些优化的信息。NVIDIA 不断地对该软件进行升级,使用户可以从日益增加的 AI 自动化与性能中获益。

让推理变得更简单

MLPerf 测试还说明了一个结论,那就是推理很困难。例如,在实际工作负载中,由于推理还需要大量预处理和后处理步骤,那么在实际工作负载中其对推理性能的需求甚至比基准测试更高。


NVIDIA 创始人兼首席执行官黄仁勋在去年 GTC 大会的主题演讲中就曾将这种复杂性概括为一个词:PLASTER。他表示,现代 AI 推理对可编程性(Programmability)、延迟性(Latency)、准确性(Accuracy)、模型大小(Accuracy)、吞吐量(Throughput)、能效(Energy efficiency)和学习率(Rate of Learning)的要求很高。


这就是为何用户越来越喜欢使用高性能的 NVIDIA GPU 和软件来处理各种要求苛刻的推理工作,其中就包括:BMW、Capital One、思科、Expedia、John Deere、微软、PayPal、Pinterest、宝洁、Postmates、Shazam、Snap、Shopify、Twitter、Verizon 和沃尔玛等极具远见的公司。


上周,全球最大的邮政服务系统——美国邮政,也加入了此行列,使用 NVIDIA GPU 进行 AI 训练和推理。


硬盘制造商希捷希望通过在 NVIDIA GPU 上运行的 AI 推理将生产量提高 10%。该公司预计,通过提高效率和质量,其将获得高达 300%的投资回报。Pinterest 依靠 NVIDIA GPU 训练和评估其识别模型并对其 1750 亿条 Pin 贴文执行实时推理。Snap 使用 NVIDIA T4 加速器在谷歌云平台上执行推理。相比于仅采用了 CPU 的系统,这提高了其广告的效果,同时降低了成本。


Twitter 发言人就这一趋势表示:“GPU 的使用不仅大大缩短了训练时间,还让我们在推理时能够实时了解直播视频,让我们可以在自己的平台上了解各媒体。”

AI 对话:关于推理

未来,会话式AI将带来大量的机会以及技术方面的挑战。NVIDIA 在这一领域具有领先优势。


NVIDIA 已经为会话式AI服务提供了经过优化的参照设计,比如自动语音识别、文本-语言转换和自然语言理解等。NVIDIA 们的BERTGNMT 和Jasper 等 AI 模型开源优化帮助开发者实现顶尖推理性能。


NVIDIA 的客户和合作伙伴中包括有会话式 AI 领域的一流公司,比如 Kensho、微软、Nuance、Optum 等。


目前,MLPerf 小组已经开始致力于改进其当前的 0.5 推理测试。


注:


1. MLPerf v0.5 数据中心服务器外型因素以及线下和服务器场景推理结果来自 www.mlperf.org,日期:2019 年 11 月 6 日,条目:Inf-0.5-15、Inf-0. 5-16、Inf-0.5-19、Inf-0.5-21、Inf-0.5-22、Inf-0.5-23、Inf-0.5-25、Inf-0.5-26、Inf-0.5-27。通过将主要的总性能指标除以报告的加速器数量计算出单处理器性能。


2. MLPerf v0.5 边缘外型因素以及单流和多流场景推理结果来自 www.mlperf.org,日期:2019 年 11 月 6 日,条目:Inf-0.5-24、Inf-0.5-28、Inf-0.5-29。


2019-11-11 11:461950
用户头像
刘燕 InfoQ高级技术编辑

发布了 1123 篇内容, 共 605.3 次阅读, 收获喜欢 1982 次。

关注

评论

发布
暂无评论
发现更多内容

一份深入解析Java虚拟机HotSpot手册,让我卷成美团架构师

程序知音

Java JVM java架构师 hotspot Java进阶

一站式开发平台 加速企业数字化发展

力软低代码开发平台

不想做架构师的Gopher不是好程序员

王中阳Go

Docker 高效工作 学习方法 面试题 Go 语言

喜讯!索信达荣获CCSA TC601年度“优秀成员单位”

索信达控股

华为云发布多项场景化解决方案助力制造业企业加速上云

IT科技苏辞

软件测试/测试开发丨如何开始webView 性能测试

测试人

软件测试 性能测试 自动化测试 测试开发

如何过好4000周:关于重新校准人生时间的建议

宇宙之一粟

时间管理

阿里巴巴内网 Java 面试 2000 题解析(2023 最新版

三十而立

文献管理软件:EndNote 20 v20.5激活版

真大的脸盆

Mac Mac 软件 文献管理 文献管理工具

大模型高效开发的秘密武器:大模型低参微调套件MindSpore PET

华为云开发者联盟

人工智能 华为云 大模型 华为云开发者联盟 企业号 4 月 PK 榜

如何用 YonBuilder 构建线索管理应用?

YonBuilder低代码开发平台

面试官:说一说mysql的varchar字段最大长度?

程序员小毕

MySQL 数据库 程序员 面试 架构师

探索网络世界的核心:TCPIP协议四层模型解析

Java 计算机网络 网络协议 TCP/IP

华为云开源项目OpenTiny的TinyNG组件库的设计理念是什么?

英勇无比的消炎药

前端 开源项目 OpenTiny UI组件库

狂刷《Java 权威面试指南(阿里版)》,冲击“金三银四”有望了

三十而立

阿里P8架构师20年经验总结成微服务设计企业架构转型之道笔记

程序知音

Java 微服务 java架构 Java进阶 后端技术

真下饭!字节技术官DDD(领域驱动设计)手册,拆解业务代码首选

Java 架构 领域驱动设计 DDD

读懂一个项目的研发效能 之 项目人效

思码逸研发效能

研发效能 功能更新

构建系列之前端脚手架vite

江湖修行

Vue vite cli

云原生:驱动企业数字化新模式

北京好雨科技有限公司

云原生 数字化 rainbond 企业号 4 月 PK 榜

Apifox:API 接口自动化测试完全指南

Apifox

测试 自动化测试 测试工具 接口工具免费 免费工具

制造企业如何解决数据分散和管理困难的问题,实现数字化转型?

IT科技苏辞

[翻译]反生产力宣言

宇宙之一粟

人生 时间管理 高效能

有关TCP协议,这是我看过讲的最清楚的一篇文章了!

三十而立

联想超融合加入龙蜥社区,多产品完成与 Anolis OS 适配

OpenAnolis小助手

开源 操作系统 龙蜥社区 龙腾计划 联想超融合

成都开发者Meetup|聚焦云原生开源,点亮企业创新活力

阿里巴巴云原生

阿里云 容器 微服务 云原生

详解事务模式和Lua脚本,带你吃透Redis 事务

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 4 月 PK 榜

智能汽车主题 Meetup 线下报名开启!IoTDB X EMQ 为智慧车联和智能制造打造数据基础设施平台

Apache IoTDB

智能汽车 IoTDB Apache IoTDB

软件测试/测试开发丨H5性能分析实战

测试人

软件测试 性能测试 自动化测试 H5 W3C

2023年最强手机远程控制横测:ToDesk、向日葵、Airdroid三款APP免Root版本

陈橘又青

远程连接

Turing GPU、Xavier芯片系统在MLPerf基准测试中成绩第一,英伟达AI推理加速_AI&大模型_Terry_InfoQ精选文章