NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

Turing GPU、Xavier 芯片系统在 MLPerf 基准测试中成绩第一,英伟达 AI 推理加速

  • 2019-11-11
  • 本文字数:2651 字

    阅读完需:约 9 分钟

Turing GPU、Xavier芯片系统在MLPerf基准测试中成绩第一,英伟达AI推理加速

相信很多关注 AI 的人都知道,NVIDIA GPU 曾于  去年12月今年7月两度树立了数据中心神经网络训练的性能标杆。11月6日发布的行业基准测试结果显示,NVIDIA 引领着数据中心内部与外部 AI 网络的趋势。


NVIDIA Turing GPU 和Xavier 芯片系统在首个独立 AI 推理基准测试 ——MLPerf Inference 0.5 中取得第一名。由于推理一直是 AI 市场中最大、同时也是最具竞争力的领域,业内此前一直希望能够有一套客观的推理性能测试指标。


在参与此次测试的十二家公司中,只有 NVIDIA AI 平台提交了 MLPerf的全部五项推理测试成绩(MLPerf 是一个于 2018 年 5 月成立的行业基准测试小组)。这证明了 NVIDIA CUDA-X AITensorRT软件的成熟程度。它们让用户能够更加轻松地将所有的 NVIDIA GPU 应用于数据中心、边缘等领域。


MLPerf 定义了五项推理基准,涵盖了三个现有的人工智能应用:图像分类、目标检测和翻译。每项基准分为四个场景:与数据中心应用关联性最高的服务器和离线场景,以及用于满足边缘设备地芯片系统需求的单流和多流场景。



NVIDIA 在两个数据中心场景(离线和服务器)的全部五项基准测试中均排在第一位,Turing GPU 被评为市面上单处理器性能最高的 GPU。



离线场景中具有代表性的场景有图像标记等,该场景下所有数据可在本地使用;而服务器场景代表性场景有在线翻译服务等,此场景下会突然或间歇性随机出现数据和请求工作。


Xavier 在两个边缘场景(单流和多流)中被评为市面上性能最佳的边缘和移动芯片系统。


工业检测相机主要被用来在快速移动的生产线上发现不合格品,这是一种典型的单流任务。多流场景则是测试芯片能够处理多少个数据源 —— 该性能对于一辆可能需要使用 6 台以上摄像机的自动驾驶汽车而言,是一项关键的能力。



该结果显示了 NVIDIA CUDA 和 TensorRT 软件的性能。它们为用户提供了一个通用平台,使用户可以在多个产品和应用中取得领先结果,而这正是 NVIDIA 所独有的能力。


在数据中心场景中,NVIDIA 的两款 GPU 还出现了相互竞争的场面。NVIDIA TITAN RTX 展示了 Turing 级 GPU 的巨大潜力,尤其是在各种要求苛刻的任务中,比如运行用于语言翻译的 GNMT 模型等。


功能丰富、应用广泛的NVIDIA T4 Tensor Core GPU 在多个场景取得了优秀的成绩。这个功耗仅为 70 瓦的 GPU 能够轻松安装到任何带有 PCIe 槽的服务器中,使用户能够根据需要扩展其计算力,进而大幅扩展其推理工作。


MLPerf 已经获得行业和学术界的广泛支持。其成员包括 Arm、Facebook、Futurewei、通用汽车、Google、哈佛大学、Intel、MediaTek、微软、NVIDIA 及 Xilinx。值得一提的是,相比于之前的两次训练比赛,此次基准测试吸引了更多的参与者。


NVIDIA 此次共采用了三款产品,共计四种配置参加此次测试,并提交了全部 20 个场景中的 19 个场景的成绩,以此表明公司对这项工作的支持。NVIDIA 的合作伙伴 Dell EMC,以及 NVIDIA 的客户阿里巴巴同样使用 NVIDIA GPU 提交了成绩。相比于其他参与者,NVIDIA 与合作伙伴和客户一同向用户全面地展示了 NVIDIA 产品组合的潜力。

全新的视角与产品

推理指的是在实时生产系统中,通过运行AI模型,从大量数据中筛选出可执行洞察的过程。这是一项仍处于发展中的新兴技术,而 NVIDIA 也在该领域中不断前进,未曾停止脚步。


今天,NVIDIA 发布了用于 MLPerf 测试的 Xavier 芯片系统低功耗版本——Jetson Xavier NX ,其最大功率仅为 15 瓦,却具有最高 21 TOPS 的性能。它将为那些对性能要求高、但功率有限的新一代机器人、无人机和其他自主设备提供驱动力。


除了新的硬件之外,NVIDIA 还发布了在 MLPerf 基准测试中所使用的最新TensorRT 6 优化,并在 GitHub 上以开源方式为用户提供该软件。用户可以在MLPerf 开发者博客中了解更多关于这些优化的信息。NVIDIA 不断地对该软件进行升级,使用户可以从日益增加的 AI 自动化与性能中获益。

让推理变得更简单

MLPerf 测试还说明了一个结论,那就是推理很困难。例如,在实际工作负载中,由于推理还需要大量预处理和后处理步骤,那么在实际工作负载中其对推理性能的需求甚至比基准测试更高。


NVIDIA 创始人兼首席执行官黄仁勋在去年 GTC 大会的主题演讲中就曾将这种复杂性概括为一个词:PLASTER。他表示,现代 AI 推理对可编程性(Programmability)、延迟性(Latency)、准确性(Accuracy)、模型大小(Accuracy)、吞吐量(Throughput)、能效(Energy efficiency)和学习率(Rate of Learning)的要求很高。


这就是为何用户越来越喜欢使用高性能的 NVIDIA GPU 和软件来处理各种要求苛刻的推理工作,其中就包括:BMW、Capital One、思科、Expedia、John Deere、微软、PayPal、Pinterest、宝洁、Postmates、Shazam、Snap、Shopify、Twitter、Verizon 和沃尔玛等极具远见的公司。


上周,全球最大的邮政服务系统——美国邮政,也加入了此行列,使用 NVIDIA GPU 进行 AI 训练和推理。


硬盘制造商希捷希望通过在 NVIDIA GPU 上运行的 AI 推理将生产量提高 10%。该公司预计,通过提高效率和质量,其将获得高达 300%的投资回报。Pinterest 依靠 NVIDIA GPU 训练和评估其识别模型并对其 1750 亿条 Pin 贴文执行实时推理。Snap 使用 NVIDIA T4 加速器在谷歌云平台上执行推理。相比于仅采用了 CPU 的系统,这提高了其广告的效果,同时降低了成本。


Twitter 发言人就这一趋势表示:“GPU 的使用不仅大大缩短了训练时间,还让我们在推理时能够实时了解直播视频,让我们可以在自己的平台上了解各媒体。”

AI 对话:关于推理

未来,会话式AI将带来大量的机会以及技术方面的挑战。NVIDIA 在这一领域具有领先优势。


NVIDIA 已经为会话式AI服务提供了经过优化的参照设计,比如自动语音识别、文本-语言转换和自然语言理解等。NVIDIA 们的BERTGNMT 和Jasper 等 AI 模型开源优化帮助开发者实现顶尖推理性能。


NVIDIA 的客户和合作伙伴中包括有会话式 AI 领域的一流公司,比如 Kensho、微软、Nuance、Optum 等。


目前,MLPerf 小组已经开始致力于改进其当前的 0.5 推理测试。


注:


1. MLPerf v0.5 数据中心服务器外型因素以及线下和服务器场景推理结果来自 www.mlperf.org,日期:2019 年 11 月 6 日,条目:Inf-0.5-15、Inf-0. 5-16、Inf-0.5-19、Inf-0.5-21、Inf-0.5-22、Inf-0.5-23、Inf-0.5-25、Inf-0.5-26、Inf-0.5-27。通过将主要的总性能指标除以报告的加速器数量计算出单处理器性能。


2. MLPerf v0.5 边缘外型因素以及单流和多流场景推理结果来自 www.mlperf.org,日期:2019 年 11 月 6 日,条目:Inf-0.5-24、Inf-0.5-28、Inf-0.5-29。


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-11-11 11:461172
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 494.1 次阅读, 收获喜欢 1967 次。

关注

评论

发布
暂无评论
发现更多内容

虎啸龙吟之国产数据库风云榜-2022年01月

墨天轮

数据库 国产数据库

2022 福虎芯旺 | 旺链科技新春线上年会回顾

旺链科技

区块链 产业区块链 年会

深入浅出 Apache Pulsar(5)Pulsar Connectors

云智慧AIOps社区

Java kafka 云原生 消息中间件 Apache Pulsar 消息系统

学生管理系统架构设计

孙强

架构实战营

写给Android开发者的芯片知识

轻口味

人工智能 android 行业资讯 芯片 1月月更

鸿蒙轻内核源码分析:Newlib C

华为云开发者联盟

鸿蒙 内核 LiteOS-M Newlib C Newlib

再获认可 | 优麒麟荣获“最佳技术社区运营”奖

优麒麟

Linux InfoQ 2022 优麒麟

ReactNative进阶(三十三):Mac 下 homebrew 的安装和 brew 命令的使用

No Silver Bullet

homebrew React Native 1月月更

Spark性能调优-RDD算子调优

五分钟学大数据

spark 1月月更

【架构训练营模块一作业】微信业务架构图 & 学生管理系统

yhjhero

架构实战营

SQL基于时间的盲注过程

喀拉峻

网络安全

书单 | 致敬计算机视觉领域经典著作!

博文视点Broadview

Think in Mingdao——人人都是全栈工程师

明道云

多协议接入框架 xRPC 发布在即,为你解读更多 APISIX 生态细节

API7.ai 技术团队

后端开发 api 网关 后端技术 后端数据

微信业务架构 & 学生管理系统架构设计

王大胖

在线TOML转YAML工具

入门小站

工具

云平台和云管平台的三大区别详细解析-行云管家

行云管家

云计算 云服务 云平台 云管平台

WGCLOUD和zabbix、prometheus(普罗米修斯)有什么区别

王逅逅

服务器部署 运维平台 zabbix Prometheus linux security

源码深度剖析:Eureka与Ribbon是怎么做服务发现的?

碌碌无为小码农

Java 架构 程序人生 编程语言 经验分享

10倍!BoostKit鲲鹏全局缓存3大创新技术助力Ceph性能提升

华为云开发者联盟

Ceph 鲲鹏 BoostKit鲲鹏全局缓存技术 BoostKit 全局缓存

Linux之grep命令

入门小站

Linux

2022年运维工程师必备利器-云管平台

行云管家

云计算 运维 云管平台 2022

超赞:不愧是“阿里内部Redis学习笔记”从头到尾,全是精华

碌碌无为小码农

Java 面试 程序人生 编程语言 经验分享

Java自定义DNS解析器三种实践

FunTester

Java 性能测试 DNS FunTester 自定义DNS

做了5年后端研发,靠着这份面试题跟答案,我从12K变成了30K

碌碌无为小码农

Java 架构 程序人生 编程语言 经验分享

你会几种读取/加载 properties配置文件方法

华为云开发者联盟

Java 开发 ClassLoader properties 配置文件

恒源云(GPUSHARE)_【Object Detection 20年】小结

恒源云

深度学习 计算机视觉 目标检测

kafka 原理深度剖析系列|调优策略

云智慧AIOps社区

Java kafka 架构 消息队列 消息中间件

Hive窗口函数/分析函数详解

五分钟学大数据

hive 1月月更

剖析CWE视图的层次定义和解析方式

华为云开发者联盟

存储 视图 cwe CWE节点 CWE视图

☕【Java深层系列】「并发编程系列」让我们一起探索一下CountDownLatch的技术原理和源码分析

洛神灬殇

Java 并发编程 jdk8 1月月更

Turing GPU、Xavier芯片系统在MLPerf基准测试中成绩第一,英伟达AI推理加速_AI&大模型_Terry_InfoQ精选文章