为什么大型机器学习模型必须缩小？_AI&大模型_Sasa Zelenovic

更大的规模不一定更适合机器学习。但是，随着研究人员相互竞争追求最先进的基准，深度学习模型和训练它们的数据集不断扩展。不管它们如何突破，更大的模型都会对预算和环境产生严重的影响。

比如 GPT-3，一个在去年夏天推出的大受欢迎的自然语言处理模型，据说花了1200 万美元用于训练。更有甚者，马萨诸塞大学阿默斯特分校（UMass Amherst）的研究人员发现，训练大型人工智能模型所需的计算能力能够产生 60 多万磅的二氧化碳排放——是普通汽车寿命周期排放量的 5 倍。

目前，没有迹象表明，以机器学习行业的发展速度，计算密集型工作将会放缓。OpenAI 的研究显示，深度学习模型的计算能力在 2012 到 2018 年间增长了惊人的 30 万倍，超过了摩尔定律。这个问题不仅仅是训练这些算法，而是要在生产环境下运行它们，或者说在推理阶段。对很多团队而言，由于纯粹的成本和资源的限制，深度学习模型的实际应用仍然遥不可及。

幸好，研究人员发现了一些新的方法来缩小深度学习模型，并通过更智能的算法来优化训练数据集，使得模型在生产环境下运行得更快，计算量也更少。就连业界的一个峰会也专门讨论低功耗、微型机器学习。剪枝（Purning）、优化（Quantization）和迁移学习（Transfer Learning）就是三种具体的技术。这些技术可以让那些无法投资数百万美元把模型转换成生产环境的组织实现机器学习的民主化。对“边缘”用例来说，这一点尤为重要，因为大型专用人工智能硬件在物理上并不切实际。

第一种技术，即剪枝，是近几年来研究的热点之一。包含“深度压缩”（Deep Compression）和“彩票假说”（Lottery Ticket Hypothesis）在内的高引用文献表明，可以在不损失正确性的情况下消除神经网络中“神经元”之间一些不必要的连接，有效地使模型更小、更容易在资源有限的设备上运行。最新的论文进一步验证并完善了早期的技术，以开发出更小的模型，使其达到更高的速度和正确度。对某些模型，比如ResNet，可以在不影响正确性的情况下剪枝 90% 左右。

第二种技术，即优化，也正在逐步普及。优化涉及许多不同的技术，它们可以将大的输入值转换为小的输出值。换句话来说，在硬件上运行神经网络可以产生上百万次乘和加运算。减少这些数学运算的复杂性有助于减少内存需求和计算成本，这将大大提高性能。

最后，虽然这不是一种缩小模型的技术，但是迁移学习能够在有限的数据中帮助训练一个新模型。迁移学习以预训练模型作为起点。通过有限的数据集，模型的知识可以“迁移”到一个新的任务中，而无需从头再来训练原始模型。在训练模型时，这是一种减少计算能力、能源和资金的重要方法。

最重要的启示是，模型可以（也应该）尽可能地优化，使其在较少的计算量下运行。在不牺牲性能和正确性的情况下，寻找减小模型大小和相关计算能力的方法将是机器学习的下一大突破。

如果能有更多人在生产环境中低成本地使用深度学习模型，我们就能真正看到现实世界中创新的新应用。这些应用可以在任何地方运行，甚至是在最小的设备上，以达到做出即使决定所需的速度和正确性。或许，小型模型最好的效果是整个行业能够减少其环境硬件，而不是每六年增加 30 万倍。

作者介绍：

Sasa Zelenovic，Neural Magiic 团队成员，帮助数据科学家发现开源、廉价的硬件加速器替代品，以实现深度学习性能。

原文链接：

https://www.datasciencecentral.com/profiles/blogs/honey-i-shrunk-the-model-why-big-machine-learning-models-must-go

发布

暂无评论

创作场景

为什么大型机器学习模型必须缩小？

评论

啃完阿里工程师的Java面试八股文，斩获腾讯等6家大厂offer！

绝艺学会打麻将,腾讯AI Lab提出全新策略优化算法ACH

超全MySQL笔记整理（面试题+笔记+思维导图），面试再也不怕被MySQL难倒了

如何在众筹中充分利用区块链技术？

猛肝《Java权威面试指南（阿里版）》，“金三银四”offer必有你的一份！

电子版产品手册如何制作？简单的方法来了

24小时无人自助洗车设备多少钱

自助共享洗车加盟都有什么条件

这个导航网站，是设计师福音！

小程序生态成为私域基建必选项

Laxcus 6.0正式发布，启航国产化分布式操作系统新征程

实时云渲染有哪些优势？

暴打力扣：王者级《数据结构与算法笔记》，一路绿灯进字节Java岗

免费ETL批量调度，数据仓库运维工具TASKCTL 8.0 环境使用安装

国产GPU芯片概述

渗透测试面试问题，内含大量渗透技巧

24小时智能洗车机多少钱一台

共建开源组件生态 2022 OpenHarmony组件大赛等你来

SIG 直播：如何使用 SMC-R 透明加速 TCP 应用？ | 第15期

智能家居新浪潮物联网潜力无限

自助洗车怎么加盟？加盟流程介绍

云原生环境下的日志采集、存储、分析实践

一起看看自助洗车机投放场地怎么选

云VR的未来发展方向

驱动现代金融发展的“元宇宙路径”

物联网+车载小程序进入发展快车道

数字经济多项技术突围元宇宙被赋予更多想象

这两个实用的导航网站，推荐给你！

FastDFS 海量小文件存储解决之道

低成本、快速造测试数据，这个造数工具我后悔推荐晚了！

iOS开发面试-如何打破30岁的中年危机

创作场景

为什么大型机器学习模型必须缩小 ？

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载

为什么大型机器学习模型必须缩小？