写点什么

为什么大型机器学习模型必须缩小 ?

  • 2021-05-12
  • 本文字数:1387 字

    阅读完需:约 5 分钟

为什么大型机器学习模型必须缩小 ?

更大的规模不一定更适合机器学习。但是,随着研究人员相互竞争追求最先进的基准,深度学习模型和训练它们的数据集不断扩展。不管它们如何突破,更大的模型都会对预算和环境产生严重的影响。


比如 GPT-3,一个在去年夏天推出的大受欢迎的自然语言处理模型,据说花了1200 万美元用于训练。更有甚者,马萨诸塞大学阿默斯特分校(UMass Amherst)的研究人员发现,训练大型人工智能模型所需的计算能力能够产生 60 多万磅的二氧化碳排放——是普通汽车寿命周期排放量的 5 倍。


目前,没有迹象表明,以机器学习行业的发展速度,计算密集型工作将会放缓。OpenAI 的研究显示,深度学习模型的计算能力在 2012 到 2018 年间增长了惊人的 30 万倍,超过了摩尔定律。这个问题不仅仅是训练这些算法,而是要在生产环境下运行它们,或者说在推理阶段。对很多团队而言,由于纯粹的成本和资源的限制,深度学习模型的实际应用仍然遥不可及。


幸好,研究人员发现了一些新的方法来缩小深度学习模型,并通过更智能的算法来优化训练数据集,使得模型在生产环境下运行得更快,计算量也更少。就连业界的一个峰会也专门讨论低功耗、微型机器学习。剪枝(Purning)、优化(Quantization)和迁移学习(Transfer Learning)就是三种具体的技术。这些技术可以让那些无法投资数百万美元把模型转换成生产环境的组织实现机器学习的民主化。对“边缘”用例来说,这一点尤为重要,因为大型专用人工智能硬件在物理上并不切实际。


第一种技术,即剪枝,是近几年来研究的热点之一。包含“深度压缩”(Deep Compression)和“彩票假说”(Lottery Ticket Hypothesis)在内的高引用文献表明,可以在不损失正确性的情况下消除神经网络中“神经元”之间一些不必要的连接,有效地使模型更小、更容易在资源有限的设备上运行。最新的论文进一步验证并完善了早期的技术,以开发出更小的模型,使其达到更高的速度和正确度。对某些模型,比如ResNet,可以在不影响正确性的情况下剪枝 90% 左右。


第二种技术,即优化,也正在逐步普及。优化涉及许多不同的技术,它们可以将大的输入值转换为小的输出值。换句话来说,在硬件上运行神经网络可以产生上百万次乘和加运算。减少这些数学运算的复杂性有助于减少内存需求和计算成本,这将大大提高性能。


最后,虽然这不是一种缩小模型的技术,但是迁移学习能够在有限的数据中帮助训练一个新模型。迁移学习以预训练模型作为起点。通过有限的数据集,模型的知识可以“迁移”到一个新的任务中,而无需从头再来训练原始模型。在训练模型时,这是一种减少计算能力、能源和资金的重要方法。


最重要的启示是,模型可以(也应该)尽可能地优化,使其在较少的计算量下运行。在不牺牲性能和正确性的情况下,寻找减小模型大小和相关计算能力的方法将是机器学习的下一大突破。


如果能有更多人在生产环境中低成本地使用深度学习模型,我们就能真正看到现实世界中创新的新应用。这些应用可以在任何地方运行,甚至是在最小的设备上,以达到做出即使决定所需的速度和正确性。或许,小型模型最好的效果是整个行业能够减少其环境硬件,而不是每六年增加 30 万倍。


作者介绍:


Sasa Zelenovic,Neural Magiic 团队成员,帮助数据科学家发现开源、廉价的硬件加速器替代品,以实现深度学习性能。


原文链接:


https://www.datasciencecentral.com/profiles/blogs/honey-i-shrunk-the-model-why-big-machine-learning-models-must-go

2021-05-12 10:001697
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 583.4 次阅读, 收获喜欢 1981 次。

关注

评论

发布
暂无评论
发现更多内容

Apache SeaTunnel 用户征稿计划启动!分享数据集成实践经验,赢社区荣誉!

Apache SeaTunnel

PB 级大数据新势力!Apache SeaTunnel 亮相 Cloudberry 杭州 Meetup(附报名)

Apache SeaTunnel

告别数据难题:淘宝商品评论API带来高效解决方案

tbapi

淘宝API 淘宝商品评论采集 淘宝商品评论API 天猫商品评论API

Java 开发中的 AI 黑科技:如何用 AI 工具自动生成 Spring Boot 项目脚手架?

飞算JavaAI开发助手

java spingboot #程序员

实战经验深度解析 | 博睿数据制造行业精选案例集发布!

博睿数据

BeeWorks Meet:为企业打造专属的私有化线上会议系统

BeeWorks

即时通讯 即时通讯IM 私有化部署 企业级应用 局域网视频软件

国产化不是选择题,而是必答题

TiDB 社区干货传送门

伟大的德比:皇家贝蒂斯与塞维利亚对阵史

新消费日报

“PO高阶精进课程” 5月10-11日 · A-CSPO认证【提前报名特惠】

ShineScrum

Dify基于TiDB的数据架构重构实践

TiDB 社区干货传送门

无需公网IP聚水潭ERP远程调用仓库监控,贝锐花生壳只需简单3步

贝锐

内网穿透 ERP

数字藏品(NFT)项目的上线流程

北京木奇移动技术有限公司

软件外包公司 音乐NFT 体育NFT

AI口语练习APP的运营

北京木奇移动技术有限公司

软件外包公司 AI口语练习 AI英语学习

MySQL遇到AI:字节跳动开源 MySQL 虚拟索引 VIDEX

字节跳动开源

虚拟索引技术 解耦架构 可扩展接口 生产验证 多形态部署

Fabric8 Kubernetes 教程——job、service、ingress、statefulSet、daemonSet

FunTester

做定时任务,一定要用这个神库!!

Immerse

JavaScript node.js 定时

智能制造:数字化转型的五大陷阱

积木链小链

数字化转型 制造业 智能制造

技术管理者,首先应该学会预期管理

老张

团队管理 职场成长

Web3可能是为AI Agents(代理)构建的

PowerVerse

AGI #Web3 AI Agents

MES系统助力漆包线工厂,轻松攻克生产管理难点

万界星空科技

数字化 mes 漆包线mes 漆包线 制造业工厂

深度解析:通过 AIBrix 多节点部署 DeepSeek-R1 671B 模型

火山引擎开发者社区

AI时代的数据底座:火山引擎多模态数据湖的设计与实践

火山引擎开发者社区

AI口语练习APP的开发

北京木奇移动技术有限公司

软件外包公司 AI口语 AI口语练习APP

YashanDB出席胶东CIO十周年峰会 自研数据管理方案驱动智造升级

极客天地

让企业沟通更顺畅,BeeWorks Meet局域网视频软件的五大优势

BeeWorks

音视频 即时通讯 IM 私有化部署 局域网视频软件

为什么大模型在 OCR 任务上表现不佳?

Baihai IDP

程序员 AI OCR LLMs Baihai IDP

“从PMO到VMO价值交付管理” — Agile VMO业务敏捷CVP认证 | 7月5-6日 · 北京线下面授周末班

ShineScrum

PMO 企业转型 VMO

【开始报名啦】4 月 12 日 TiDB 社区活动在南京!传统技术栈替换和 AI 浪潮正当时,面向未来的国产数据库怎么选择?转发海报参与新款双肩包抽奖!

TiDB 社区干货传送门

Karmada Dashboard 首个版本发布!开启多云编排可视化新篇章

华为云原生团队

云计算 容器 云原生

数字藏品(NFT)项目的线上运营

北京木奇移动技术有限公司

软件外包公司 音乐NFT 体育NFT

JimuReport 积木报表 v1.9.5发布,免费的可视化报表

JEECG低代码

报表 可视化数据 报表打印 数据报表

为什么大型机器学习模型必须缩小 ?_AI&大模型_Sasa Zelenovic_InfoQ精选文章