阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

业界主流深度学习工具的基准评测

  • 2017-08-08
  • 本文字数:1889 字

    阅读完需:约 6 分钟

第六版论文中使用了不同的硬件平台、在三种不同类型的流行深度学习方法上对 GPU 加速工具的评估。根据基准评测结果,当存在 GPU 时,团队发现 Caffe 平台在全连接网络上表现更好,而 TensorFlow 在卷积神经网络和循环神经网络上都表现突出。GPU 内存是在 Caffe 等许多工具上运行大型网络的关键指标之一,CNTK 和 Torch 不能在 GTX 980(其有 4GB 内存)上运行 32 或更多个 mini-batch 大小的 ResNet-50,而 TensorFlow 在管理 GPU 内存上表现更好,并且其基本上可以在所有的配置情况下运行。cuBLAS 是一个高性能的 BLAS 库,但其 API 参数对实现好的结果来说是很重要的。在计算一些情况下的卷积运算时,FFT 是一个更好的选择。

在仅使用 CPU 的机器上,Caffe 在 CPU 并行上表现更好,TensorFlow 也在 CPU 资源利用上有很好的表现。在 CPU 并行机制上,使分配的线程等于 CPU 的核数可以得到更好的表现。

GTX 1080 有更高的基础时钟(1733 MHz)和更多 CUDA 内核,在大部分案例中也都获得了更好的结果。但是,Tesla K80 有更大的内存(12 GB),可以支持应用运行更大型的网络和更大的 mini-batch。此外,每一个 K80 卡还配备了 2 个 GPU 芯片,这可能能让其在运行并行程序时获得更好的表现,但在我们的基准评测中,它并没有得到充分的使用。

第六版时局限:团队没有测试跨多个 GPU 和多台机器的可扩展性,因为这种方法可能无法增强一些工具的主要特性。比如虽然 CNTK 支持跨多 GPU 和机器运行,但其它工具却不行。

论文第七版

深度学习已被证明是一种可成功用于许多任务的机器学习方法,而且它的广泛流行也将很多开源的深度学习软件工具开放给了公众。训练一个深度网络往往是一个非常耗时的过程。为了解决深度学习中巨大的计算难题,许多工具利用了多核 CPU 和超多核 GPU 这样的硬件特性来缩短训练时间。但是,在不同的硬件平台上训练不同类型的深度网络时,不同的工具会有不同的特性和运行性能,这让终端用户难以选择出合适的软件和硬件搭配。

在这篇论文中,团队的目标是对当前最先进的 GPU 加速的深度学习软件工具(包括:Caffe、CNTK、MXNet、TensorFlow 和 Torch)进行比较研究。团队将在两种 CPU 平台和三种 GPU 平台上使用三种流行的神经网络来评测了这些工具的运行性能。

团队做出了两方面的贡献:

  1. 对于深度学习终端用户,我们的基准评测结果可用于指导合适的软件工具和硬件平台的选择。
  2. 对于深度学习软件开发者,我们的深度分析为进一步优化训练的性能指出了可能的方向。

评测软件工具、算法

测试环境

对于数据并行的测试硬件:

单 CPU 卡评测结果

根据团队之前的研究,在 CPU 平台上测试特定的 mini-batch 大小 d 的实验能够获得最好的运行时间表现。不同网络使用的 mini-batch 的大小如表所示:

在单 GPU 卡的对比上,我们也展示了不同 mini-batch 大小的结果,从而演示 mini-batch 大小对表现的影响。

多 GPU 卡评测结果
FCN-R:在我们的测试中,mini-batch 的大小设置为 4096,结果如图 16 所示。在图 16(a) 中,我们可以看到 Caffe、CNTK 和 MXNet 的速度非常接近单 GPU 的情况;而在 TensorFlow 和 Torch 上的表现则相对好一点。当 GPU 数量翻倍时,CNTK 和 MXNet 的可扩展性最好,均实现了约 35% 的提速,Caffe 实现了大约 28% 的提速,而 Torch 和 TensorFlow 较差,只有约 10%。当我们把 GPU 数量从 2 个增加到 4 个时,TensorFlow 和 Torch 没有实现进一步的提速。

整体评测数据

  • fcn5

  • alexnet

结论

本次研究旨在对比现代深度学习软件工具的运行性能,测试它们在不同类型的神经网络和不同的硬件平台上的执行效率。团队通过实验结果表明,目前所有经过测试的工具都可以很好地利用 GPU,和使用 CPU 相比有着很大优势。然而,没有任何一个工具可以在所有方面胜过其他软件工具,这意味着也许存在进一步优化性能的方向。

在未来的研究中,首先,团队会将更多的深度学习软件工具(如百度的 Paddle)和硬件平台(如 AMD 的 GPU 和英特尔 XeonPhi)纳入这项基准研究。其次,团队计划评估在高性能 GPU 集群上这些工具的可扩展性。

附录
论文第二版
论文第三版,更新于 2016 年 9 月 3 日
论文第四版,更新于 2016 年 9 月 11 日
论文第五版,更新于 2016 年 9 月 19 日
论文第六版,更新于 2017 年 1 月 25 日
论文第七版
源代码下载地址


感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2017-08-08 19:004417
用户头像

发布了 50 篇内容, 共 27.4 次阅读, 收获喜欢 40 次。

关注

评论

发布
暂无评论
发现更多内容

如何找到数据资产入表的破局点,听听用友怎么说

用友BIP

数据资产入表

强大的录屏截图标注工具:CleanShot X激活最新版

胖墩儿不胖y

Mac软件 屏幕截图工具 屏幕录屏软件

低多边形植物模型法线贴图

3D建模设计

3D渲染 材质贴图 纹理贴图 材质纹理 材质编辑

深度解读 Cascades 查询优化器

KaiwuDB

KaiwuDB Cascades

Databend 开源周报第 123 期

Databend

上海国家会计学院第六届智能财务高峰论坛成功举办

用友BIP

智能财务

31 | 深度和广度优先搜索:如何找出社交网络中的三度好友关系

鲁米

2023年终盘点系列| 用友BIP持续迭代,进化发展

用友BIP

Mint Blockchain 2024 年发展路线图和开发计划

NFT Research

区块链 NFT Layer 2

云原生之旅:一年的变革、成长与启示

熬夜磕代码、

如何为3D模型导入材质贴图

3D建模设计

3D渲染 纹理贴图 材质编辑

app开发

Geek_8da502

功能有更新 | Bonree ONE 权限版本新增环境、资源域、角色概念

博睿数据

分布式基础概念-消息中间件[RabbitMQ]

派大星

Java 面试题

用友发布数智化转型成熟度评价体系,加速国有企业转型

用友BIP

企业数智化

落地设备备件按单采购,助力光伏单晶行业数智化管理

用友BIP

光伏单晶行业 数智化管理

入选首个开源贡献世纪榜,TDengine 亮相 FICC 开源计算机系统大会

TDengine

tdengine 时序数据库

软件测试/测试开发/人工智能丨人工智能是否会取代软件测试工程师

测试人

人工智能 软件测试

注册中心元数据的应用

姚秋实(Nacol)

Java 架构 配置中心 元数据 metadata

大算力与大模型的融合之力

百度开发者中心

nlp 大模型

人人都能用的AI编程助手 CodeGeeX

凌览

AI 前端 后端 AIGC

2023年度总结——我是如何利用AI高效完成学习与工作任务的

小王撤了

AI

浪潮云连续2年跻身中国分布式云市场领导者象限

浪潮云

云计算 数据云

优化大模型的关键策略

百度开发者中心

大模型 深度学习、

mac专业视觉特效包处理工具 FxFactory pro 8 激活最新版

mac大玩家j

Mac软件 视觉特效插件

3D模型材质丢失怎么办?

3D建模设计

3D渲染 材质贴图 材质编辑

新型生成式 AI 助手 Amazon Q 为 IT 专业人士与开发人员提供有力支持(预览版)

亚马逊云科技 (Amazon Web Services)

re:Invent Amazon EC2 生成式人工智能 Amazon Lambda Amazon Chatbot

Fine-tuning: 一种针对大模型的优化策略

百度开发者中心

nlp 大模型

802.11ac-802.11n-IPQ4019 and IPQ4018: Give your network devices a powerful boost

wifi6-yiyi

802.11ac ipq4029 wifi5

融合事项会计与用友BIP商旅及费控:提升企业运营效率和透明度

用友BIP

商旅费控 事项会计

Wireshark使用技巧

小齐写代码

业界主流深度学习工具的基准评测_语言 & 开发_麦克周_InfoQ精选文章