写点什么

谷歌开源 GPipe 库,主要用于大规模深度学习模型的快速训练

作者:Anthony Alford

2019 年 4 月 23 日

谷歌开源GPipe库,主要用于大规模深度学习模型的快速训练

谷歌人工智能部门最近开源了GPipe,这是一个用于快速训练大规模深度学习模型的TensorFlow类库。


深层神经网络(DNN)主要用于解决自然语言处理和视觉目标识别等人工智能任务。以视觉识别为例,该领域的最新方法通常以ImageNet挑战赛的获胜方案为基准。每一届冠军的成绩都优于前一届;当然,模型的复杂度也会相应增加。2014 年的冠军GoogLeNet通过使用 400 万个模型参数达到了 74.8%的 top-1 准确率,而 2017 年的冠军Squeeze-and-Excitation Networks则使用了 1.458 亿个参数并达到了 82.7%的 top-1 准确率。


在训练神经网络的时候,模型大小的增加通常会引起问题。为了在合理的时间内完成训练,我们把大部分的计算任务委托给了加速器:诸如 GPU 和TPU之类的专用硬件。但是这些设备的内存有限,这也就限制了训练模型的大小。我们可以通过一些方法来减少模型对内存的依赖,比如将数据从加速器内存中置换出去,但这会大大减慢训练速度。另一种解决方案则是模型分区,这可以让模型同时在多个加速器中并行执行。对顺序性 DNN 来说,最好的策略是按层划分模型,然后由不同的加速器来训练不同的层。但是由于 DNN 的顺序性本质,有些时候可能只有一个加速器在工作,别的加速器则因为需要等待其它层的训练结果而闲置下来。


GPipe 通过进一步细化训练任务解决了这个问题,它将批量任务分解为更细小的“微批量”任务,并在每一层中管道化执行这些“微批量”任务。这样,下一层的加速器就可以优先处理上一层已完成的“微批量”任务结果,而不需要等待整个训练过程的结束。


通过使用 GPipe 以及 8 个 TPUv2(第二代 TPU 芯片),谷歌研究人员能够用 18 亿个参数来训练视觉目标识别模型:在使用 GPipe 的情况下,单个 TPUv2 可训练的参数量增加了 5.6 倍。通过此次训练的大规模模型,ImageNet 数据验证的准确率达到了 84.7%,超过了 2017 年夺冠时的 82.7%。


GPipe 的模型分区除了能支持更大的模型以外,它也允许多个加速器并行训练所指定的模型。研究报告称,使用 4 倍以上的加速器可以达到 3.5 倍的加速效果。


Gpipe 目前是Lingvo框架的一部分,该框架主要用来在 TensorFlow 中构建顺序神经网络模型。


查看英文原文Google Open-Sources GPipe Library for Faster Training of Large Deep-Learning Models


2019 年 4 月 23 日 08:015040
用户头像

发布了 36 篇内容, 共 16.1 次阅读, 收获喜欢 54 次。

关注

评论

发布
暂无评论
发现更多内容

第三周设计模式作业

架构师训练营第三周 - 总结

Larry

架构师训练营第三周学习总结

Bruce Xiong

架构师之面向对象的设计模式

彭阿三

区块链技术可简化房地产交易流程

CECBC区块链专委会

智能合约 区块链技术 房地产业

设计模式-单例与组合

ashuai1106

架构师 极客大学架构师训练营

一周信创舆情观察(6.15~6.21)

统小信uos

新基建 信创 matlab 舆情

架构师训练营第三周总结

架构师 极客大学架构师训练营

架构师训练营-第三周-20200624-单例模式和组合模式

丁亚宁

极客大学架构师训练营 课程作业

深入理解JVM垃圾回收机制 - 引用类型

WANDEFOUR

深入理解JVM 强引用 软引用 弱引用 虚引用

第三周作业:设计模式

Larry

第三周作业

架构师训练营 - 作业 -3- 设计模式

superman

极客大学架构师训练营

架构师训练营 -week3- 总结

Geek_5a6ca3

昆明全国领先打响“公共资源交易+区块链”新生态

CECBC区块链专委会

区块链技术 存证 昆易链

架构师训练营第三周总结

王鑫龙

组合模式实现树结构

新世界

架构师训练营-第三周-20200624-学习总结

丁亚宁

极客大学架构师训练营

我嗅到了数据开发工程师的危机

无箭的丘比特

大数据 数据仓库 数据分析 数据开发

总结03-代码重构

梦子说

极客大学架构师训练营 课程总结

奈学教育:“混沌工程”的基本理念和使用原则

古月木易

混沌工程

插入排序

wjchenge

插入排序

架构师训练营——第三周学习总结

jiangnanage

【总结】架构师的基本能力之-代码重构

魔曦

架构师 极客大学架构师训练营 代码重构

开源项目中的设计模式

dony.zhang

架构师训练营第三周学习总结:面向对象设计和设计模式

hifly

设计模式 极客大学架构师训练营 OOD SOLID 策略模式

代码重构总结

Lane

极客大学架构师训练营

架构师课程第三周总结

dongge

架构师训练营 -week3- 作业

Geek_5a6ca3

源自Google的招聘哲学:你真的了解招聘吗?

伴鱼技术团队

技术管理 技术人 文化 招聘 人才

课堂作业 week3

Dennis

演讲经验交流会|ArchSummit 上海站

演讲经验交流会|ArchSummit 上海站

谷歌开源GPipe库,主要用于大规模深度学习模型的快速训练-InfoQ