芯片只是起点:英伟达如何应对加速计算变革?

阅读数:44 2019 年 12 月 23 日 11:30

芯片只是起点:英伟达如何应对加速计算变革?

12 月 18 日,GTC China 2019 现场,英伟达 CEO 黄仁勋回顾了英伟达在 2019 年发布的一系列高性能计算产品,并现场发布了 TensorRT 7 等新品。针对加速计算方面的革新,黄仁勋表示:加速计算需要完整的堆栈工具,而出色的芯片只是起点。为了更加深入了解英伟达在深度学习与加速计算方面的创新,InfoQ 在大会现场采访到了英伟达加速计算产品管理总监 Paresh Kharya、企业边缘计算总经理 Justin Boitano,以及负责 TensorRT 产品市场的 Siddarth Sharma。

Paresh Kharya 首先对今天的发布进行了简单的总结与回顾。

“在过去几年当中,AI 取得了各种长足的进展,应用种类越来越多。今天上午我们重点讲了两大类模型:会话式 AI 与推荐系统。

会话式 AI 是非常重要的一种技术,也是非常复杂的任务,因为它需要理解语音、文本和语言,并且还要把这些东西转化为语言再次表达出来。要想真正的实现会话式 AI,我们需要在毫秒级的时间段来完成这个非常复杂的过程,因为只有这样,会话式 AI 才会显得比较自然。随着 TensorRT 7 的发布,我们可以将这一系列的复杂模型进行加速计算,这也是我们第一次真正的实现实时会话式 AI,并且可以准确的处理中间复杂的流程。

推荐系统也是至关重要的一环,甚至已经成为了互联网最重要的引擎。人们现在面临的选择越来越多,网上的信息量呈现爆炸式增长,用户面临产品选择的数量可以达到数十亿的级别,可观看的网络视频数量也至少呈百万的级别,新闻领域更是每天都在产生海量的数据。因此需要英伟达的高性能计算平台来支撑承载这些数据的推荐系统。”

随后,记者就深度学习、算力、未来规划等多个问题向 Paresh Kharya 等人进行了提问。

Q:您如何看待深度学习当中多种处理器的共存?在面临其他加速器如:FPGA、TPU、NPU 等等产品时,GPU 的优势是什么?

Paresh Kharya:FPGA 从设计的时候就是为模拟而用的,但是在实际应用过程当中,它的表现反而可能没有那么好。实际上,要做好一个 FPGA,编程的时间就要几个月,还要在硬件层面对它进行再编程。而现在 AI 变化速度是非常快的,甚至更新是以分钟来计的,所以必须要在软件端实现高度灵活的可编程。GPU 是 AI 领域的专用芯片,它的指令集是非常有优势的,同时全可编程,且是软件定义的。

另外一个优势是,GPU 的架构是向前兼容的。当用户使用了一个编程框架之后,在未来如果使用新的硬件,可以帮助其缩短整个开发周期,也就是说:硬件可以随着软件不断更新适应,而且在软件库里就可以进行直接更新。同时,我们的平台在使用上是几乎可以在任何设备上使用的,无论是台式机、笔记本、服务器,还是很大型的外设,在数据中心、边缘或者是物联网上都可以使用。

Q:上一个版本的 TensorRT 6 是在 3 个月前发布的,在这么短的时间内就发布 TensorRT 7 是出于什么样的考虑?Tensor RT 整个研发升级的路线是怎么样的?

Siddarth Sharma:实际上这一点涉及到会话式 AI 的问题。我们做会话式 AI 的加速已经有好几个月的时间了,最开始的一个版本只涵盖了会话式 AI 当中的一部分,也就是语言理解的部分。整个过程是需要三个部分的:第一个是语音识别的部分,识别人所说的话并转为文字,然后理解这些文字,再转化成的文字、转化成语言说出来。随着我们不断发布新的版本,TensorRT 7 基本上可以完成上述三个完整的流程计算。从语音识别到语义理解再到语音输出。

会话式 AI 是非常难的领域,要想把会话式 AI 做得比较有用,要符合两个条件,首先是要在 300 毫秒内将整个三个部分完成,而且要完成的非常智能。在这个过程当中,有非常多复杂的模型需要计算,所以 Tensor RT 也是在不完善,现在可以覆盖整个流程。

Q:怎么看待现在一些企业去砍掉 GPU 当中的图形处理部分,去做纯 AI 加速的通用 GPU,以这样的一种方式去达到更快的 AI 加速能力更低的成本?

Paresh Kharya:英伟达在图象处理方面基础比较好,比如说 RT Core 能够加速图象处理,Tensor Core 做 AI 加速计算。我们提供了各种各样的产品来满足客户不同的需求,比如说应用于数据中心的 GPU 没有图像处理的部分,但是它有 Tensor Core 能够做 AI 加速计算。我们有一个比较大的优势:有统一的架构可以应用于各种工作负载当中来实现加速计算。这对我们来说都是商业机会,可以应用在不同市场和行业当中。像游戏、图像是一个很大的业务,高性能计算和 AI 对我们来说都是比较大的业务板块。所以各个业务板块我们都可以有很好的营收,这样我们可以进一步投入到我们的统一架构平台的研发当中。

Q:对于主流深度学习模型的支持是被动的,还是说在硬件进入更新之前和相关模型的开发人员做沟通然后共同做出调整?

Paresh Kharya:现在在市面上有成百上千、各种各样的深度学习模型,基本上每一个用户用例,包括每个客户都有自己的模型,他们用自己的数据来做训练,所以整个深度学习模型是高度多元化的,这也是为什么我们在做硬件的时候要做成可编程程度非常高的,这样才可以促进加速计算在这个领域的应用。

我们在做硬件设计的时候,也考虑了深度学习过程当中可能会出现一些共性的东西来做改善,比如 Tensor Core 支持多元化的深度学习模型。我们也一直在不断更新完善我们的软件堆栈,比如 Tensor RT 新的版本能够进一步提升推理的速度。当然有一些客户他们也希望提供一些现成的深度学习模型供他们使用,我们也有一些预训练好的模型供客户直接部署,或者通过转移学习的方式定制化自己想要的模型。我们也在不断更新和提供各种各样的堆栈让用户去创建训练和优化自己的模型。

Siddarth Sharma:补充一点,我们其实也是和开发者保持非常紧密的沟通和合作,比如说 TensorFlow 等,以保证这些开发框架和我们硬件紧密兼容,与此同时我们在各种软件功能和库上做沟通,以保证一些外部开发者可以充分利用这些东西。

评论

发布