2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

机器学习三个时代的计算趋势

  • 2022-04-13
  • 本文字数:1237 字

    阅读完需:约 4 分钟

机器学习三个时代的计算趋势

决定现代机器学习发展的三个基础是计算、数据和算法进化 (ML,机器学习),本文着眼于最易量化的元素的趋势。


在 2010 年之前,训练计算的发展与摩尔定律同步,每两年一翻;自 2010 年代初,引入深度学习以来,训练计算的速度已经加快,大约每六个月增加一倍;2015 年末,出现了一种新的趋势。

 

基于这些观察,机器学习的计算历史被划分为三个时代——前深度学习时代深度学习时代大规模时代。本文总结了用于训练高级机器学习系统快速增长的计算需求。

趋势


比较是在一个由 123 个里程碑式的机器学习系统组成的数据集上进行的,并标注了训练它们所需的计算量。在深度学习起步之前,有一段进展缓慢的时间,这种趋势在 2010 年加速,此后一直没有放缓。另外,在 2015 年和 2016 年,出现了大规模模型的新趋势,以比上一个时代快两个数量级的速度扩张。

 


来源: https://arxiv.org/pdf/2202.05924.pdf


过渡到深度学习


在深度学习出现之前和之后,人们注意到了两种不同的趋势机制。


此前,训练机器学习算法所需的算力是每 17 至 29 个月翻一番。之后,整体趋势加快速,每 4 到 9 个月翻一番。


根据摩尔定律,晶体管密度每两年翻一番(Moore,1965 年),通常简化为计算性能每两年翻一番——基本上符合前深度学习时代的趋势。目前尚不清楚深度学习时代何时开始,从前深度学习到深度学习时代的过渡没有明显的间断。此外,无论深度学习时代始于 2010 年还是 2012 年,结果几乎都不会改变。

 

来源:https://arxiv.org/pdf/2202.05924.pdf


大规模深度时代的趋势


数据显示,大规模型模型的新趋势始于 2015-2016 年,这种新趋势始于 2015 年底的 AlphaGo,一直持续到现在,大规模模型是由大公司训练的,更高的训练预算可能是打破先前的趋势的原因。

 

另外,常规规模模型受欢迎的程度并未受到影响,这一趋势在 2016 年之前和之后是相同的速度,每 5 到 6 个月翻一番,如下表所示。大规模模型的计算量增加的趋势明显放缓,每 9 到 10 个月翻一番。由于这些模型的数据有限,明显放缓可能是噪声的结果。


这一发现与 Amodei & Hernandez (2018) 和 Lyzhov (2021) 形成对比,前者发现 2012 年至 2018 年的倍增期为 3.4 个月,后者发现 2018 年至 2020 年的倍增期超过 2 年。以前的评估无法区分这两个独立的模式,因为大规模的趋势是最近才发展起来的。

 


来源:https://arxiv.org/pdf/2202.05924.pdf

结论


研究结果与早期研究一致,这显示了训练计算更适度的规模。1952 年到 2010 年有 18 个月的倍增时间,2010 年到 2022 年有 6 个月的倍增时间,从 2015 年末到 2022 年的大规模新趋势,快了 2 到 3 个数量级,倍增时间为 10 个月。

 

总而言之,在前深度学习时代,计算进展缓慢,随着 2010 年进入深度学习时代,这种趋势加速了。在 2015 年底,企业开始生产优于趋势的大规模模型,如 AlphaGo,标志着大规模时代的开始。然而,这并不能确定区分大规模和常规规模的模型而形成模式。

 

在计算机教学中,硬件基础设施和工程师的作用越来越大,凸显了两者的战略必要性。获得巨大的计算预算或计算集群,以及应用它们的专业知识,已经成为前沿机器学习研究的代名词。


原文链接:This Research Paper Explain The Compute Trends Across Three Eras Of Machine Learning

2022-04-13 10:562714

评论

发布
暂无评论
发现更多内容

openEuler 全栈式 AI 推理方案 使能 AI 普惠千行百业,推动企业实现数智化转型

极客天地

扫码联网系统(源码+文档+讲解+演示)

深圳亥时科技

获取字节火山DeepSeek系列 API完整教程及超多实用玩法!

火山引擎开发者社区

用友BIP供应网络计划发布,驱动10000+节点的全球一张网智能运营

用友BIP

AI 数智化 用友BIP 数智采购 供应网络计划

ERP 价值化国产替代白皮书正式发布!

用友BIP

AI 数智化 用友BIP ERP价值化国产替代

利用FinClip优化小程序支付链路的事件分析

xuyinyin

原生APP和混合APP的开发成本

北京木奇移动技术有限公司

软件外包公司 APP外包 APP开发公司

反向海淘代购系统平台总被骂"二次收费"?搭建者必看的5大自检清单与解决方案

代码忍者

图解「模型上下文协议(MCP)」:从与传统 API 的比较入手

Baihai IDP

AI agent LLM MCP 模型上下文协议

城市综合治理系统(源码+文档+讲解+演示)

深圳亥时科技

专家管理系统(源码+文档+讲解+演示)

深圳亥时科技

替代 Airtable / 飞书表格?用零代码构建多对多关系的任务管理系统

NocoBase

开源 低代码 零代码 表格 任务管理系统

火山引擎云上实战:QwQ-32B 大模型快速部署

火山引擎开发者社区

来看看现在go开发岗10k的面试强度

王中阳Go

Go 面试 后端 中小厂

理解文字识别:一文读懂OCR商业化产品的算法逻辑

合合技术团队

人工智能 算法 文字识别 OCR #大数据

超级人工智能、具身智能与大世界模型:AI的未来之路

测试人

人工智能

原生APP和混合APP在性能方面的比较

北京木奇移动技术有限公司

APP开发 软件外包公司 APP外包

借助淘宝拍立淘API,打造超便捷商品识别引擎

tbapi

淘宝API接口 淘宝图片搜索接口 淘宝拍立淘接口

给Web开发者的HarmonyOS指南02-布局样式

苏杰豪

鸿蒙 前端

【GreatSQL优化器-18】GROUP_INDEX_SKIP_SCAN

GreatSQL

2025南京软件产业博览会(南京软博会)

AIOTE智博会

软件展 软博会 南京软博会

依赖腾讯云的音视频服务能力,构建一个高可用的在线直播平台

为自己带盐

腾讯云 直播

DeepSeek 3FS 架构分析和思考(上篇)

火山引擎开发者社区

什么是最小权限原则?

运维有小邓

最小权限管理 零信任模型 AD域管理

智能制造:物联网和自动化之间的关系

积木链小链

数字化 智能制造 工业自动化

手把手教你用Java爬虫抓取淘宝商品信息(附完整代码)

代码忍者

淘宝API接口

数据驱动进化:AI Agent如何重构手机交互范式?

数据堂

人工智能 数据采集 数据集 大模型 AI Agent

给Web开发者的HarmonyOS指南01-文本样式

苏杰豪

鸿蒙 前端 HarmonyOS NEXT

和鲸科技医疗智能体上线联想擎天平台:赋能医疗服务效率与质量

ModelWhale

中油燃气集团与用友战略签约,深入企业AI合作,打造行业智能化标杆

用友BIP

数智化 用友BIP 企业AI

DistilQwen2.5-R1发布:知识蒸馏助推小模型深度思考

阿里云大数据AI技术

人工智能 知识蒸馏 模型推理 PAI DistilQwen2.5

机器学习三个时代的计算趋势_AI&大模型_Annu Kumari_InfoQ精选文章