对话Hillery Hunter：IBM通过有效地扩展训练缩短了神经网络的训练时间-InfoQ

GTLC全球技术领导力峰会·上海站，首批讲师正式上线！了解详情 



 写点什么

2017 年 8 月，IBM 宣布其打破了图片识别功能的训练记录。

IBM Research 能够将其 ResNet-50 神经网络布局的训练时间缩短到只有 50 分钟。在另一个名为 ResNet-101 的网络布局上，他们获得了 33.8％的准确率新记录。他们利用 256 个 GPU，在 ImageNet-22K 数据集的 750 万张图片上训练其神经网络。相比之下，2017 年6 月，Facebook 宣布能够在一个小时内训练他们的模型，但其使用了较小的数据集和较小的神经网络。IBM 将其成果作为一篇论文发表在arXiv 上。

InfoQ 联系了 IBM Research 认知计算加速基础架构主管 Hillery Hunter，并提出了几个问题。

InfoQ：您可以先说说你们试图破解此记录时遇到的问题吗？你们的数据集有多大，其他人在使用同样的数据集时通常会遇到什么问题？

我们在 ResNet-101 训练中使用了 750 万张图片，当处理这么多数据时，计算花费的时间是一个重大挑战。如果在单台服务器上实施此训练，需要大约 16 天才能完成。今天很少有领域能容忍这么长的计算周转时间。所以我们想解决这个时间尺度的问题，将这一大量数据集的训练缩短到一天之内。

InfoQ： 256 多个 GPU 之间的通信在此成果中起到了非常重要的作用。您能说说你们做了什么以及它们如何帮助你们训练网络吗？

我们开发了一个自定义的通信库，可帮助系统中的所有学习单元（即 GPU）以非常接近最优的速度和带宽彼此进行通信。我们的库可以融入到任何深度学习框架（如 TensorFlow，Caffe 等）中，而不是被硬编码进深度学习软件包。当各个学习单元可以快速相互通信时，你便可以更有效地将更多学习单元添加到系统中，并更快完成训练。如果通信时间不够快，你就会遇到扩展瓶颈，并且无法应用更多的服务器 / GPU 来解决训练的问题。

InfoQ：您提到了扩展效率。之前的记录是 89％，但你们却达到了 95％。扩展效率究竟是什么，它与训练时间有何关系？

扩展效率可以衡量多台服务器共同有效地解决计算问题的能力。扩展效率越高，你就可以添加更多的服务器并加快解决问题的时间。95％的扩展效率意味着你不是只使用 1 台服务器来解决问题，而是使用 100 台服务器，所以它们解决问题的速度会快 95 倍。

InfoQ：在这种情况下，您使用 256 个 GPU 提供了 95％的扩展效率。如果我使用 10000 个 GPU，那么我的网络是不是能够加快 9500 倍的速度？换句话说：速度是线性扩展的吗？限制因素有哪些？

我们相信我们新的通信库与最优已经非常接近了，而且我们预计会继续实现更高的 GPU 加速。现在，深度学习研究界正在努力解决一个被称为“批量大小”的限制因素。这个因素目前会令 10,000 个 GPU 运行起来非常困难，但如果克服了这一问题，那么扩展更多 GPU 将成为可能。

InfoQ：除了打破记录之外，你们还将准确率从 29.8％提高到 33.8％。这纯粹是因为更高的“训练能力”，还是因为改变了网络布局？

我们并未为这项工作设计新的神经网络。我们使用了全同步训练（得益于我们的低延迟通信库），并且由于训练时间上的优势，我们对许多图片进行了可行的训练。

InfoQ：你们的模型是在哪个框架下开发的？

公告中描述了我们在 Torch（ResNet-50）和 Caffe（ResNet-101）上完成的工作。通过 PowerAI 技术预览程序，IBM 服务器团队也将我们的分布式深度学习技术提供给了 TensorFlow 的用户。

InfoQ：您能解释一下 PowerAI 平台是什么以及它能为开发人员做些什么吗？

PowerAI 是一套深度学习功能，包括框架（如 Caffe、Tensorflow、Torch、Chainer 等）、多服务器支持以及一些为受 GPU 加速的 IBM 服务器预编译和预优化过的用户工具。PowerAI 可帮助用户避免使用开源深度学习工具的麻烦、加快训练时间并提升自定义数据集的深度学习性能。任何人都可以在自己的服务器上或在 Nimbix 云端试用 PowerAI 功能。

InfoQ：你们有计划提高训练速度吗？您认为计算时间和准确度方面的限制是什么？

我们的分布式深度学习库在扩展效率方面已经非常接近最优了，但总体而言，我们相信深度学习的训练时间和准确性还能进一步提高。我们希望深度学习不只是停留在象牙塔中，而是要走出去。大型功能目前需要几周到一个月的时间才能到达客户手中，而客户仅需要在几分钟或几秒钟内就可以看到业务成果。

Hillery Hunter 简介：

Hillery Hunter 是 IBM Tats Watson 研究中心、加速认知基础设施团队的研究员和主管，该中心位于纽约 Yorktown Heights。她对跨学科技术课题包括硅到系统架构、采用新解决方案解决传统问题等较感兴趣。其团队致力于优化硬件协同、解决机器学习和深度学习等待时间的问题。其以前的工作主要在 DRAM 主存系统和嵌入式 DRAM 领域，其曾是 IBM 服务器和大型机 DDR3 的端对端存储器电源主管，拥有丰富的相关开发经验。2010 年，她在工程前沿研讨会上被美国国家工程院评为院士，她是美国获得此殊荣的顶尖年轻工程师之一。Hillery 博士拥有伊利诺伊大学厄巴纳 - 尚佩恩分校的电气工程博士学位，并且是 IBM 科技学院成员。2017 年她被任命为 IBM 研究员。

查看英文原文： https://www.infoq.com/news/2017/09/ibm-scale-neural-network-gpus

感谢罗远航对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ， @丁晓昀），微信（微信号： InfoQChina ）关注我们。

发布

暂无评论

创作场景

对话 Hillery Hunter：IBM 通过有效地扩展训练缩短了神经网络的训练时间

评论

【Elasticsearch 技术分享】—— Elasticsearch 存储一条数据， put 过程是什么样子的？

图解 K8s 核心概念和术语

USDT承兑商系统开发,USDT支付系统软件搭建

30万奖金等你拿！Apache Flink 极客挑战赛入门指南（附Demo）

对于三千万攀登者来说，云是安全绳，是登山杖，是趋顶之路

奈学：红黑树(RedBlackTree)的概述

调度选得好，下班回家早

架构师训练营第十一章作业

《黑神话：悟空》出圈背后，国产3A游戏的技术新机

源码解析 | 万字长文详解 Flink 中的 CopyOnWriteStateTable

深圳数字货币交易所开发商,币币撮合交易软件开发

区块链钱包系统开发服务商,区块链钱包应用搭建

java 是什么？作用是什么？

架构师课程第十一周总结

奈学：红黑树(RedBlackTree)的概述

架构师训练营第 11 周——练习

知乎李大海与阿里云贾扬清联合直播，AI大咖眼中的行业前景

XSKY S3 Console 为对象存储系统赋能

导致系统不可用的原因有哪些?

区块链技术可提高数据可信性和安全性

Week11总结

合约跟单APP开发模式,合约跟单系统源码搭建

安全&高可用架构

SpreadJS 纯前端表格控件应用案例：在线问卷系统

合同、封条、电梯……通通上链！

朱嘉明：新冠肺炎疫情如何改变社会成本观念和结构

Java二进制和位运算，这一万字准能喂饱你

架构师0期Week11作业2

LeetCode题解：20. 有效的括号，while循环replace，JavaScript，详细注释

不可用与高可用

架构师培训 -11 安全、高可用

创作场景

对话 Hillery Hunter：IBM 通过有效地扩展训练缩短了神经网络的训练时间

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载