写点什么

机器学习三个时代的计算趋势

  • 2022-04-13
  • 本文字数:1237 字

    阅读完需:约 4 分钟

机器学习三个时代的计算趋势

决定现代机器学习发展的三个基础是计算、数据和算法进化 (ML,机器学习),本文着眼于最易量化的元素的趋势。


在 2010 年之前,训练计算的发展与摩尔定律同步,每两年一翻;自 2010 年代初,引入深度学习以来,训练计算的速度已经加快,大约每六个月增加一倍;2015 年末,出现了一种新的趋势。

 

基于这些观察,机器学习的计算历史被划分为三个时代——前深度学习时代深度学习时代大规模时代。本文总结了用于训练高级机器学习系统快速增长的计算需求。

趋势


比较是在一个由 123 个里程碑式的机器学习系统组成的数据集上进行的,并标注了训练它们所需的计算量。在深度学习起步之前,有一段进展缓慢的时间,这种趋势在 2010 年加速,此后一直没有放缓。另外,在 2015 年和 2016 年,出现了大规模模型的新趋势,以比上一个时代快两个数量级的速度扩张。

 


来源: https://arxiv.org/pdf/2202.05924.pdf


过渡到深度学习


在深度学习出现之前和之后,人们注意到了两种不同的趋势机制。


此前,训练机器学习算法所需的算力是每 17 至 29 个月翻一番。之后,整体趋势加快速,每 4 到 9 个月翻一番。


根据摩尔定律,晶体管密度每两年翻一番(Moore,1965 年),通常简化为计算性能每两年翻一番——基本上符合前深度学习时代的趋势。目前尚不清楚深度学习时代何时开始,从前深度学习到深度学习时代的过渡没有明显的间断。此外,无论深度学习时代始于 2010 年还是 2012 年,结果几乎都不会改变。

 

来源:https://arxiv.org/pdf/2202.05924.pdf


大规模深度时代的趋势


数据显示,大规模型模型的新趋势始于 2015-2016 年,这种新趋势始于 2015 年底的 AlphaGo,一直持续到现在,大规模模型是由大公司训练的,更高的训练预算可能是打破先前的趋势的原因。

 

另外,常规规模模型受欢迎的程度并未受到影响,这一趋势在 2016 年之前和之后是相同的速度,每 5 到 6 个月翻一番,如下表所示。大规模模型的计算量增加的趋势明显放缓,每 9 到 10 个月翻一番。由于这些模型的数据有限,明显放缓可能是噪声的结果。


这一发现与 Amodei & Hernandez (2018) 和 Lyzhov (2021) 形成对比,前者发现 2012 年至 2018 年的倍增期为 3.4 个月,后者发现 2018 年至 2020 年的倍增期超过 2 年。以前的评估无法区分这两个独立的模式,因为大规模的趋势是最近才发展起来的。

 


来源:https://arxiv.org/pdf/2202.05924.pdf

结论


研究结果与早期研究一致,这显示了训练计算更适度的规模。1952 年到 2010 年有 18 个月的倍增时间,2010 年到 2022 年有 6 个月的倍增时间,从 2015 年末到 2022 年的大规模新趋势,快了 2 到 3 个数量级,倍增时间为 10 个月。

 

总而言之,在前深度学习时代,计算进展缓慢,随着 2010 年进入深度学习时代,这种趋势加速了。在 2015 年底,企业开始生产优于趋势的大规模模型,如 AlphaGo,标志着大规模时代的开始。然而,这并不能确定区分大规模和常规规模的模型而形成模式。

 

在计算机教学中,硬件基础设施和工程师的作用越来越大,凸显了两者的战略必要性。获得巨大的计算预算或计算集群,以及应用它们的专业知识,已经成为前沿机器学习研究的代名词。


原文链接:This Research Paper Explain The Compute Trends Across Three Eras Of Machine Learning

2022-04-13 10:562554

评论

发布
暂无评论
发现更多内容

牛掰!阿里大佬刷了四年LeetCode才总结出来的数据结构和算法手册

Java~~~

Java 架构 面试 算法 数据结构与算法

开发者实践丨盲水印插件:用户端的实时视频溯源保护

声网

开发者实践 RTE大赛

开源demo | 快速搭建在线自习室场景

anyRTC开发者

音视频 在线教育 视频直播 在线自习室

10年IT老兵亲述SpringCloud开发从入门到实战文档

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

阿里资深专家分享程序员三门课:技术精进架构修炼、管理探秘文档

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

IT运维审计系统是什么?有推荐的吗?

行云管家

云计算 堡垒机 IT运维 数据审计 运维审计

为联邦学习互信提供“技术解”,星云Clustar荣获FTL-IJCAI 21 最佳应用论文奖

星云Clustar

联邦学习 论文 IJCAI 纵向联邦学习 联邦学习互信

三个月学完阿里数位架构师总结的281页架构宝典PDF终入蚂蚁

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

拍乐云Pano 两周年啦!砥砺前行,踏浪潮头,做全行业的实时音视频专家

拍乐云Pano

WebRTC RTC

LeetCode刷题14-简单-最长公共前缀

ベ布小禅

8月日更

快手基于 Flink 构建实时数仓场景化实践

Apache Flink

flink 解决方案 实时数仓架构 快手

云小课 | 区块链关键技术之一:共识算法

华为云开发者联盟

区块链 区块链技术 共识机制 共识算法

java布道者耗尽20年的功力整理完结java实战第2版文档

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

什么样的架构师修炼之道文档,能帮助大家修炼成为出色的架构师?

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

数字货币交易所自动刷量机器人介绍|开发交易所去中心化量化机器人

量化系统19942438797

谈谈Go的固定时长定时器和周期性时长定时器

Regan Yue

协程 Go 语言 8月日更

springboot整合activiti自带在线流程编辑器,整个程序源码,请假审批

金陵老街

大前端 工作流 ERP Activiti spring-boot 2.5.4

一起来养猪APP开发

游戏开发_软件开发

小程序云开发 游戏开发 2D APP开发 3D

SmartNews:基于 Flink 加速 Hive 日表生产的实践

Apache Flink

flink hive airflow

数字货币交易所自动刷量机器人介绍|开发交易所去中心化量化机器人

Geek_23f0c3

市值管理机器人系统开发 自动刷量机器人 炒币机器人

48W字?GitHub上下载量破百万的阿里:图解Java、网络、算法笔记

Java~~~

Java 架构 面试 算法 JVM

Ubuntu Server 20.04 搭建Nacos集群

玏佾

nacos 部署 搭建

SQL 是产品经理必会技能

蒋川

数据库 sql 产品 后端

如何高效工作,享受品质生活?看看少数派的经验总结吧

博文视点Broadview

MySQL基于GTID复制实现的工作原理

Java MySQL 数据库 面试 后端

阿里资深专家整理的Redis5设计与源码分析宝典终于横空出世

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

6年Java经验,4面阿里定级P7,多亏阿里13万字+脑图+源码面试笔记

Java~~~

Java spring 架构 面试 高并发

如何用3分钟搭建一个属于自己的网站?

百度开发者中心

最佳实践 开发者 方法论

【架构实战营】--第一次作业

Geek_d18264

架构实战营

技术盘点:Unity SDK 开发中有哪些大坑?

环信

制作第三方库时,我们的资源到底在哪?

fuyoufang

ios swift 8月日更

机器学习三个时代的计算趋势_AI&大模型_Annu Kumari_InfoQ精选文章