写点什么

机器学习三个时代的计算趋势

  • 2022-04-13
  • 本文字数:1237 字

    阅读完需:约 4 分钟

机器学习三个时代的计算趋势

决定现代机器学习发展的三个基础是计算、数据和算法进化 (ML,机器学习),本文着眼于最易量化的元素的趋势。


在 2010 年之前,训练计算的发展与摩尔定律同步,每两年一翻;自 2010 年代初,引入深度学习以来,训练计算的速度已经加快,大约每六个月增加一倍;2015 年末,出现了一种新的趋势。

 

基于这些观察,机器学习的计算历史被划分为三个时代——前深度学习时代深度学习时代大规模时代。本文总结了用于训练高级机器学习系统快速增长的计算需求。

趋势


比较是在一个由 123 个里程碑式的机器学习系统组成的数据集上进行的,并标注了训练它们所需的计算量。在深度学习起步之前,有一段进展缓慢的时间,这种趋势在 2010 年加速,此后一直没有放缓。另外,在 2015 年和 2016 年,出现了大规模模型的新趋势,以比上一个时代快两个数量级的速度扩张。

 


来源: https://arxiv.org/pdf/2202.05924.pdf


过渡到深度学习


在深度学习出现之前和之后,人们注意到了两种不同的趋势机制。


此前,训练机器学习算法所需的算力是每 17 至 29 个月翻一番。之后,整体趋势加快速,每 4 到 9 个月翻一番。


根据摩尔定律,晶体管密度每两年翻一番(Moore,1965 年),通常简化为计算性能每两年翻一番——基本上符合前深度学习时代的趋势。目前尚不清楚深度学习时代何时开始,从前深度学习到深度学习时代的过渡没有明显的间断。此外,无论深度学习时代始于 2010 年还是 2012 年,结果几乎都不会改变。

 

来源:https://arxiv.org/pdf/2202.05924.pdf


大规模深度时代的趋势


数据显示,大规模型模型的新趋势始于 2015-2016 年,这种新趋势始于 2015 年底的 AlphaGo,一直持续到现在,大规模模型是由大公司训练的,更高的训练预算可能是打破先前的趋势的原因。

 

另外,常规规模模型受欢迎的程度并未受到影响,这一趋势在 2016 年之前和之后是相同的速度,每 5 到 6 个月翻一番,如下表所示。大规模模型的计算量增加的趋势明显放缓,每 9 到 10 个月翻一番。由于这些模型的数据有限,明显放缓可能是噪声的结果。


这一发现与 Amodei & Hernandez (2018) 和 Lyzhov (2021) 形成对比,前者发现 2012 年至 2018 年的倍增期为 3.4 个月,后者发现 2018 年至 2020 年的倍增期超过 2 年。以前的评估无法区分这两个独立的模式,因为大规模的趋势是最近才发展起来的。

 


来源:https://arxiv.org/pdf/2202.05924.pdf

结论


研究结果与早期研究一致,这显示了训练计算更适度的规模。1952 年到 2010 年有 18 个月的倍增时间,2010 年到 2022 年有 6 个月的倍增时间,从 2015 年末到 2022 年的大规模新趋势,快了 2 到 3 个数量级,倍增时间为 10 个月。

 

总而言之,在前深度学习时代,计算进展缓慢,随着 2010 年进入深度学习时代,这种趋势加速了。在 2015 年底,企业开始生产优于趋势的大规模模型,如 AlphaGo,标志着大规模时代的开始。然而,这并不能确定区分大规模和常规规模的模型而形成模式。

 

在计算机教学中,硬件基础设施和工程师的作用越来越大,凸显了两者的战略必要性。获得巨大的计算预算或计算集群,以及应用它们的专业知识,已经成为前沿机器学习研究的代名词。


原文链接:This Research Paper Explain The Compute Trends Across Three Eras Of Machine Learning

2022-04-13 10:562410

评论

发布
暂无评论
发现更多内容

太强了!阿里p8大佬干了半个月总结的《Alibaba分布式系统速成笔记》正式开源

Geek_0c76c3

Java 数据库 开源 程序员 架构

谷歌也开始裁员!谷歌CEO说出理由让人惊叹

雨果

裁员 谷歌 互联网裁员

Java面试题大全(整理版)1000+面试题附答案详解最全面看完稳了

钟奕礼

Java 面试 java; Java 面试题

一台“厉害”的打印机

华为云开发者联盟

云计算 后端 物联网 企业号九月金秋榜

react hook 源码完全解读

flyzz177

React

开发者有话说|我的前端开发感悟

言程序

个人成长 程序人生

一文带你全面了解什么是颠覆时代的Web3.0未来互联网

echeverra

Web3.0

基于 Apache Hudi 极致查询优化的探索实践

华为云开发者联盟

大数据 后端 华为云 企业号九月金秋榜

隐私计算唯一代表厂商!洞见科技入选《爱分析·数据智能厂商全景报告》

洞见科技

深圳大数据培训哪家教的好

小谷哥

Flowable 流程部署与删除

江南一点雨

Java springboot flowable

HMS Core上新啦!

HarmonyOS SDK

HMS Core

如何通过C#/VB.NET代码将Excel工作表拆分为单独的文件

在下毛毛雨

C# .net Excel 拆分

ESP32-C3入门教程 网络 篇(三、 MQTT 协议基础介绍及测试)

矜辰所致

mqtt ESP32-C3 9月月更

【荣耀帐号服务】手把手教你快速Android应用接入

荣耀开发者服务平台

开发者 服务 安卓 应用 honor

java培训学习应该注意什么?

小谷哥

交付有价值的产品,先澄清用户故事吧!

敏捷开发

产品 项目管理 敏捷开发 软件开发 用户故事

React Context源码是怎么实现的呢

flyzz177

React

详解JS中 call 方法的实现

华为云开发者联盟

Java 前端 企业号九月金秋榜

N1盒子openwrt+dogcom实现大学校园网的自动登录开启路由

知识浅谈

9月月更

牛客网扫地僧开源出来的《Java面试无敌流笔记》,Github上线两天就爆火

Geek_0c76c3

Java 数据库 开源 程序员 架构

web前端培训机构怎么选择比较好呢

小谷哥

开发者有话说|我的前端开发感悟

言程序

个人成长

大数据开发培训周期和方法

小谷哥

《DevOps工具链的国产化之道》直播报名开始啦!

嘉为蓝鲸

DevOps IT 工具链 研发

Python基础(五) | 函数及面向过程编程详解

timerring

Python Monad 9月月更

从0到1带你搭建一个vue3.0项目(vue-cli脚手架版)

言程序

前端 vue3.0 9月月更

前端线下培训学习适合哪些人群

小谷哥

阿里顶配版 Spring 全家桶高级笔记+学习路线图+硬核资料库,跪着啃完了。。。

Geek_0c76c3

Java 数据库 开源 程序员 架构

美团 3 面 (Java 后台):NIO+BIO+Zookeeper+ 线程池 +Redis+kafka

钟奕礼

Java 面试 java;

100 行代码在微信公众号里集成地图搜索功能

汪子熙

html 微信 web开发 微信开发 9月月更

机器学习三个时代的计算趋势_AI&大模型_Annu Kumari_InfoQ精选文章