相信很多关注AI的人都知道，NVIDIA GPU曾于去年12月和今年7月两度树立了数据中心神经网络训练的性能标杆。11月6日发布的行业基准测试结果显示，NVIDIA引领着数据中心内部与外部AI网络的趋势。

NVIDIA Turing GPU和Xavier 芯片系统在首个独立AI推理基准测试 ——MLPerf Inference 0.5中取得第一名。由于推理一直是AI市场中最大、同时也是最具竞争力的领域，业内此前一直希望能够有一套客观的推理性能测试指标。

在参与此次测试的十二家公司中，只有NVIDIA AI平台提交了 MLPerf的全部五项推理测试成绩（MLPerf是一个于2018年5月成立的行业基准测试小组）。这证明了NVIDIA CUDA-X AI和TensorRT软件的成熟程度。它们让用户能够更加轻松地将所有的NVIDIA GPU应用于数据中心、边缘等领域。

MLPerf定义了五项推理基准，涵盖了三个现有的人工智能应用：图像分类、目标检测和翻译。每项基准分为四个场景：与数据中心应用关联性最高的服务器和离线场景，以及用于满足边缘设备地芯片系统需求的单流和多流场景。

NVIDIA在两个数据中心场景（离线和服务器）的全部五项基准测试中均排在第一位，Turing GPU被评为市面上单处理器性能最高的GPU。

离线场景中具有代表性的场景有图像标记等，该场景下所有数据可在本地使用；而服务器场景代表性场景有在线翻译服务等，此场景下会突然或间歇性随机出现数据和请求工作。

Xavier在两个边缘场景（单流和多流）中被评为市面上性能最佳的边缘和移动芯片系统。

工业检测相机主要被用来在快速移动的生产线上发现不合格品，这是一种典型的单流任务。多流场景则是测试芯片能够处理多少个数据源 —— 该性能对于一辆可能需要使用6台以上摄像机的自动驾驶汽车而言，是一项关键的能力。

该结果显示了NVIDIA CUDA和TensorRT软件的性能。它们为用户提供了一个通用平台，使用户可以在多个产品和应用中取得领先结果，而这正是NVIDIA所独有的能力。

在数据中心场景中，NVIDIA的两款GPU还出现了相互竞争的场面。NVIDIA TITAN RTX 展示了Turing级 GPU的巨大潜力，尤其是在各种要求苛刻的任务中，比如运行用于语言翻译的GNMT模型等。

功能丰富、应用广泛的NVIDIA T4 Tensor Core GPU 在多个场景取得了优秀的成绩。这个功耗仅为70瓦的GPU能够轻松安装到任何带有PCIe槽的服务器中，使用户能够根据需要扩展其计算力，进而大幅扩展其推理工作。

MLPerf已经获得行业和学术界的广泛支持。其成员包括Arm、Facebook、Futurewei、通用汽车、Google、哈佛大学、Intel、MediaTek、微软、NVIDIA及Xilinx。值得一提的是，相比于之前的两次训练比赛，此次基准测试吸引了更多的参与者。

NVIDIA此次共采用了三款产品，共计四种配置参加此次测试，并提交了全部20个场景中的19个场景的成绩，以此表明公司对这项工作的支持。NVIDIA的合作伙伴Dell EMC，以及NVIDIA的客户阿里巴巴同样使用NVIDIA GPU提交了成绩。相比于其他参与者，NVIDIA与合作伙伴和客户一同向用户全面地展示了NVIDIA产品组合的潜力。

全新的视角与产品

推理指的是在实时生产系统中，通过运行AI模型，从大量数据中筛选出可执行洞察的过程。这是一项仍处于发展中的新兴技术，而NVIDIA也在该领域中不断前进，未曾停止脚步。

今天，NVIDIA发布了用于MLPerf测试的Xavier芯片系统低功耗版本——Jetson Xavier NX ，其最大功率仅为15瓦，却具有最高21 TOPS的性能。它将为那些对性能要求高、但功率有限的新一代机器人、无人机和其他自主设备提供驱动力。

除了新的硬件之外，NVIDIA还发布了在MLPerf基准测试中所使用的最新TensorRT 6 优化，并在GitHub上以开源方式为用户提供该软件。用户可以在MLPerf 开发者博客中了解更多关于这些优化的信息。NVIDIA不断地对该软件进行升级，使用户可以从日益增加的AI自动化与性能中获益。

让推理变得更简单

MLPerf测试还说明了一个结论，那就是推理很困难。例如，在实际工作负载中，由于推理还需要大量预处理和后处理步骤，那么在实际工作负载中其对推理性能的需求甚至比基准测试更高。

NVIDIA创始人兼首席执行官黄仁勋在去年GTC大会的主题演讲中就曾将这种复杂性概括为一个词：PLASTER。他表示，现代AI推理对可编程性（Programmability）、延迟性（Latency）、准确性（Accuracy）、模型大小（Accuracy）、吞吐量（Throughput）、能效（Energy efficiency）和学习率（Rate of Learning）的要求很高。

这就是为何用户越来越喜欢使用高性能的NVIDIA GPU和软件来处理各种要求苛刻的推理工作，其中就包括：BMW、Capital One、思科、Expedia、John Deere、微软、PayPal、Pinterest、宝洁、Postmates、Shazam、Snap、Shopify、Twitter、Verizon和沃尔玛等极具远见的公司。

上周，全球最大的邮政服务系统——美国邮政，也加入了此行列，使用NVIDIA GPU进行AI训练和推理。

硬盘制造商希捷希望通过在NVIDIA GPU上运行的AI推理将生产量提高10％。该公司预计，通过提高效率和质量，其将获得高达300％的投资回报。Pinterest依靠NVIDIA GPU训练和评估其识别模型并对其1750亿条Pin贴文执行实时推理。Snap使用NVIDIA T4加速器在谷歌云平台上执行推理。相比于仅采用了CPU的系统，这提高了其广告的效果，同时降低了成本。

Twitter发言人就这一趋势表示：“GPU的使用不仅大大缩短了训练时间，还让我们在推理时能够实时了解直播视频，让我们可以在自己的平台上了解各媒体。”

AI对话：关于推理

未来，会话式AI将带来大量的机会以及技术方面的挑战。NVIDIA在这一领域具有领先优势。

NVIDIA已经为会话式AI服务提供了经过优化的参照设计，比如自动语音识别、文本-语言转换和自然语言理解等。NVIDIA们的BERT、GNMT 和Jasper 等AI模型开源优化帮助开发者实现顶尖推理性能。

NVIDIA的客户和合作伙伴中包括有会话式AI领域的一流公司，比如Kensho、微软、Nuance、Optum等。

目前，MLPerf小组已经开始致力于改进其当前的0.5推理测试。

注：

1. MLPerf v0.5数据中心服务器外型因素以及线下和服务器场景推理结果来自 www.mlperf.org，日期：2019年11月6日，条目：Inf-0.5-15、Inf-0. 5-16、Inf-0.5-19、Inf-0.5-21、Inf-0.5-22、Inf-0.5-23、Inf-0.5-25、Inf-0.5-26、Inf-0.5-27。通过将主要的总性能指标除以报告的加速器数量计算出单处理器性能。

2. MLPerf v0.5 边缘外型因素以及单流和多流场景推理结果来自 www.mlperf.org，日期：2019年11月6日，条目：Inf-0.5-24、Inf-0.5-28、Inf-0.5-29。

创作场景

Turing GPU、Xavier 芯片系统在 MLPerf 基准测试中成绩第一，英伟达 AI 推理加速