MIT研究人员警告:深度学习正在接近计算极限

2020 年 7 月 27 日

MIT研究人员警告:深度学习正在接近计算极限

本文最初发表于 venturebeat,由 InfoQ 中文站翻译并分享。


我们正在接近深度学习的计算极限。这是根据麻省理工学院、MIT-IBM Watson AI Lab、安德伍德国际学院(Underwood International College)和巴西利亚大学(University of Brasilia)的研究人员 最新的一项研究中发现的。


深度学习领域的进步在“很大程度上”依赖于计算机的发展。他们断言,深度学习要实现持续的进步,将需要“戏剧性的”提高更有计算效率的方法,要么通过改变现有技术,要么通过新的、尚未发现的方法。


“我们的研究表明,深度学习的计算开销并不是偶然的,而是经过设计的。这种灵活性使它在建模各种现象方面表现出色,并且优于专家模型,同时也使它的计算开销显著增加。”合著者写道,“尽管如此,我们发现深度学习模型的实际计算负担比理论(已知)下限增长得更快,这表明实质性的改进是有可能的。


深度学习是机器学习的一个子领域,研究受大脑结构和功能启发的算法。这些算法被称为人工智能网络,它由层层排列的函数(神经元)组成,它们将信号传递给其他神经元。这些信号是输入到网络中的数据的产物,从一层传递到另一层,并对网络进行缓慢的“调整”,实际上是在调整每个连接的突触强度(权重)。通过数据集中提取特征并识别交叉样本的趋势,网络最终学会做出预测。



研究人员分析了预印本服务器 Arxiv.org 以及其他基准源的 1058 篇论文,以了解深度学习性能和计算之间的联系,特别关注包括图像分类、对象检测、问答系统、命名实体识别和机器翻译等领域。他们对计算需求进行了两次单独分析,反映可用信息的两种类型:


  • 每次网络传递的计算量 ,或给定深度学习模型中,一次通过(即权重调整)所需的浮点运算操作数。

  • 硬件负担 ,或用于训练模型的硬件的计算能力,计算方法是处理器数乘以计算速度和时间。(研究人员承认,虽然这是一种不精确的计算方法,但在他们分析的论文中,这种方法的报道比其他基准要广泛得多。)


合著者报告说,除了从英语到德语的机器翻译之外,所有基准测试都有“高度统计学意义”的斜率和“强大的解释能力”,在这种情况下,使用的计算能力几乎没有变化。特别是对象检测、命名实体识别和机器翻译显示出硬件负担的大幅增加,而结果的改善相对较小,在流行的开源 ImageNet 基准测试中,计算能力解释了图像分类正确率的 43% 的差异。


研究人员估计,三年的算法改进相当于计算能力的 10 倍增长。他们写道:“总体而言,我们的研究结果清楚地表明,纵观深度学习的许多领域,训练模型的进步依赖于计算能力的大幅提高。另一种可能性是,要想在算法上有所改进,可能本身就需要在计算能力上进行互补性的提高。”


在研究过程中,研究人员还对这些预测进行了推断,以了解达到理论基准所需的计算能力,以及相关的经济和环境成本。即使是最乐观的计算,在 ImageNet 上降低图像分类错误率也需要 105 次以上的计算。



就他们的观点而言,一份 同步报告估计,华盛顿大学的 Grover 假新闻检测模型在大约两周内训练成本为 2.5 万美元。据报道,OpenAI 花了 1200 万美元来训练 GPT-3语言模型,而 Google 花费了大约 6912 美元来训练 BERT,这是一种双向 Transformer 模型,重新定义了 11 种自然语言处理任务的最新水平。


在去年 6 月的另一份报告中,马萨诸塞大学阿默斯特分校(University of Massachusetts at Amherst)的研究人员得出结论,训练和搜索某种模型所需的能源涉及大约 62.6 万磅的二氧化碳排放量。这几乎相当于全美国汽车平均寿命排放量的 5 倍。


“我们没有预料到,目标所隐含的计算要求…… 硬件、环境和财务成本会高得令人望而却步。”研究人员写道,“以一种经济的方式实现这一目标,需要更高效的硬件、更高效的算法,或其他改进,以使净效果就是如此巨大的收益。”


研究人员指出,在算法层面上进行深度学习的改进是有历史先例的。他们指出,像 Google 的张量处理单元(TPU)、现场可编程逻辑门阵列(FPGA)和专用集成电路(ASIC)这样的硬件加速器,以及通过网络压缩和加速技术来降低计算复杂性的尝试。他们还引用了神经架构搜索和元学习,它们使用优化来找到在一类问题上保持良好性能的架构,作为提高计算效率方法的途径。


事实上,OpenAI 的一项 研究表明,自 2012 年以来,人工智能模型在 ImageNet 中进行图像分类所需的计算量每 16 个月就会减少 2 倍。Google 的 Transformer架构超越了之前最先进的模型——seq2seq,也是由 Google 开发的,在推出 seq2seq 推出三年后,计算量减少了 61 倍。而 DeepMind 的 AlphaZero,是一个从零开始自学如何掌握国际象棋、将棋和围棋的系统。在一年后,比它的前身 AlphaGoZero 的改进版本减少了 8 倍的计算量。


“用于深度学习模型的计算能力的爆炸式增长结束了人工智能冬天,并为各种任务的计算机性能设定了新的基准。然而,深度学习对计算能力的巨大需求,也限制了它在当前形势下提高性能的程度,尤其是在硬件性能改进速度正在放缓的时代。”研究人员写道,“这些计算限制的可能影响是迫使机器学习朝着比深度学习更高效的技术方向发展。”


作者介绍:


Kyle Wiggers,技术记者,现居美国纽约市,为 VentureBeat 撰写有关人工智能的文章。


原文链接:


https://venturebeat.com/2020/07/15/mit-researchers-warn-that-deep-learning-is-approaching-computational-limits/


2020 年 7 月 27 日 07:001164
用户头像
刘燕 InfoQ记者

发布了 470 篇内容, 共 146.9 次阅读, 收获喜欢 829 次。

关注

评论

发布
暂无评论
发现更多内容

架构师训练营第三章作业

饶军

区块链+医疗,能否有效避免问题疫苗?

CECBC区块链专委会

区块链技术 溯源 疫苗

聊聊设计模式——上篇

Jerry Tse

随笔 极客大学架构师训练营 作业 23种设计模式

双帆与雾洋:腾讯TAD Sim 2.0的仿真大航海

脑极体

第三周学习总结

冯凯

构架师训练营-第3周命题作业

Dawn

设计模式 极客大学架构师训练营

架构师训练营 - 学习笔记 - 第三周

小遵

week3作业一

任鑫

架构

Lesson 3 设计模式 心得笔记

edd

架构师 0 期 | 面向对象的设计模式

刁架构

极客大学架构师训练营

第三周作业

倪惠华

单例与组合模式代码实现

Lane

极客大学架构师训练营

模式和重构-学习心得

蒜泥精英

架构师训练营第三周作业

Geek_2dfa9a

架构师训练营 第三周作业

孙有能希

极客大学架构师训练营 组合模式

第三周作业

冯凯

面向对象编程

Arthur

手写单例模式

GalaxyCreater

设计模式

了解概率知识,概率作为机器学习的底层逻辑

奈学教育

概率

第三周设计模式命题作业

石印掌纹

架构师训练营第三周总结

Geek_2dfa9a

程序员的晚餐 | 6 月 24 日 微甜的毛豆

清远

美食

了解概率知识,概率作为机器学习的底层逻辑

古月木易

概率

使用了 iOS 14 发布的翻译工具,觉得还差点儿意思

神经星星

apple 机器翻译 翻译软件 WWDC2020 语音识别

创业白皮书 - 开场篇留给情怀

阿甜

创业 重新理解创业 创业心态 创业者

作业-组合模式和单例模式

蒜泥精英

架构师训练营第三周作业

Geek_2dfa9a

架构师训练营--第三周作业

_MISSYOURLOVE

极客大学架构师训练营 第三周

第三周·作业一·命题作业

刘璐

架构师训练营week03作业

小高

第三周设计模式总结

石印掌纹

MIT研究人员警告:深度学习正在接近计算极限-InfoQ