AI 年度盘点与2025发展趋势展望,50+案例解析亮相AICon 了解详情
写点什么

MIT CSAIL 彩票假想:大幅缩小神经网络规模但不牺牲预测精度,将对迁移学习产生影响

  • 2019-05-07
  • 本文字数:1680 字

    阅读完需:约 6 分钟

MIT CSAIL彩票假想:大幅缩小神经网络规模但不牺牲预测精度,将对迁移学习产生影响

近日,美国麻省理工学院计算机科学与人工智能实验室(MIT CSAIL)发表了一篇名为《彩票假想:寻找稀疏、可训练的神经网络》(The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks)的论文,详细解析了如何在保证精准度不打折扣的前提下缩小神经网络规模。经试验,这种方法最高可以将模型大小缩小 10 倍,甚至训练速度提高 3.5 倍,预测精度提高 3.5%。


深度神经网络是一种仿生物神经元的数学函数层,作为通用类型的 AI 架构,它们能够执行从自然语言处理到计算机视觉的各类任务。但这并不意味着它们无所不能。深度神经网络通常需要非常庞大和合适的大型语料库,即使是用最昂贵的专用硬件,也需要数天才能进行训练。


但这种情况可能将有所改变。麻省理工学院计算机科学与人工智能实验室(CSAIL)的科学家在一项新研究《彩票假想:寻找稀疏、可训练的神经网络”》中表示,深度神经网络包含的子网络可以缩小 10 倍,同时训练之后预测精度保持同等水平,甚至在某些情况下比原始网络速度更快。


这项成果将在新奥尔良举行的国际学习代表大会(ICLR)上发表,从大约 1,600 份提交论文中脱颖而出,被评为该会议两篇最佳论文之一。


“首先,如果不想初始网络那么大,为什么不能在一开始就创建一个大小适中的网络呢?”博士生和论文合著者 Jonathan Frankle 在一份声明中说。“通过神经网络,你可以对这个庞大的结构进行随机初始化,在经过对大量数据进行训练之后,它神奇地起作用了。这种大型结构就像你买了一大包彩票,但其中只有少量门票实际上会让你发财。然而,我们仍然需要一种技术,在不知道中奖号码之前找到中奖的幸运儿。“



上图:在神经网络中查找子网 图片来源:麻省理工学院 CSAIL

规模缩小 10 倍,速度提高 3.5 倍,精度提高 3.5%

这里,我们将彩票假设应用于 CIFAR10 上的卷积网络,增加了学习问题的复杂性和网络的规模。我们考虑使用图 2 中的 Conv-2,Conv-4 和 Conv-6 架构,它们是 VGG 家族的缩小变体(Simonyan&Zisserman,2014)。网络有两个、四个或六个卷积层,后面是两个完全连接的层;每两个卷积层发生最大池化。这些网络范围广泛,包括将近到完全连接到传统卷积网络的类型,Conv-2 中卷积层的参数不到 1%,Conv-6.3 中的参数近三分之二。



寻找中奖彩票。上图中的实线表示来自每层修剪速率的 Conv-2(蓝色),Conv-4(橙色)和 Conv-6(绿色)的迭代彩票实验。


Lenet:随着网络被修剪,与原始网络相比,它学得更快,测试准确度也提高了。在这种情况下,结果更加明显。中奖彩票验证损失率达到最低,Conv-2 快 3.5 倍(Pm = 8.8%),Conv-4 快 3.5 倍(Pm = 9.2%),Conv-6 为 2.5x(Pm = 15.1%)。在精度度上,Conv-2 最高提高了 3.4%(Pm = 4.6%),Conv-4 提高 3.5%(Pm = 11.1%),Conv-6 提高 3.3%(Pm = 26.4%)。当 Pm> 2%时,所有三个网络都保持在其原始平均测试精度之上。


研究人员使用的方法涉及消除功能(或神经元)之间不必要的连接,使其适应低功率设备,这一过程通常称为修剪。(他们特别选择了具有最低“权重”的连接,这表明它们的重要性最低。)接下来,他们在没有修剪连接的情况下训练网络并重置权重,在修剪其他连接后,他们确定了可以在不影响模型预测能力的情况下删除多少连接。


在不同条件、不同网络上重复该过程数万次之后,报告显示他们的 AI 模型始终比其完全连接的母网络的规模小 10%到 20%。


“令人惊讶的是,重新设置一个表现良好的网络通常会带来更好的结果,”共同作者兼助理教授 Michael Carbin 说。“这表明,第一次的成果都不是最完美的,模型学会自我改进的空间还很大。”


Carbin 和 Frankle 指出,他们只考虑以较小数据集为中心和以视觉为中心的分类任务,未来,他们将探讨为什么某些子网特别擅长学习以及快速发现这些子网的方法。另外,他们认为这个结果可能对迁移学习产生影响,迁移学习技术可以训练针对某一任务的网络对另其他任务同样适用。


参考链接:https://arxiv.org/pdf/1803.03635.pdf


https://venturebeat.com/2019/05/06/mit-csail-details-technique-that-shrinks-the-size-of-neural-networks-without-compromising-accuracy/


2019-05-07 11:174262
用户头像

发布了 98 篇内容, 共 64.4 次阅读, 收获喜欢 285 次。

关注

评论

发布
暂无评论
发现更多内容

WMS系统与电商平台快速拉通库存数量

RestCloud

自动化 零代码 wms APPlink

语音数据集:智能驾驶中车内语音识别技术的基石

来自四九城儿

Gas Hero Common Heroes NFT 概览与数据分析

Footprint Analytics

区块链游戏 NFT

软件测试学习笔记丨APP自动化测试-Appium环境安装

测试人

软件测试 测试 自动化测试 测试开发 appium

服装企业的配补调系统:从传统到智能的转型

第七在线

语音数据集在智能驾驶中的关键作用与应用

来自四九城儿

掌握 Robot Wramework:高效进行接口自动化

Liam

Jmeter 自动化测试 接口测试 测试工具 Robot Wramework

软件测试学习笔记丨微信小程序自动化测试

测试人

小程序 软件测试 自动化测试 测试开发

基于volcano实现节点真实负载感知调度

快乐非自愿限量之名

架构 Volcano 负载测试

质量保障工作的核心Roadmap

老张

软件测试 质量保障

【Swift专题】聊聊Swift中的属性

珲少

电影级特效:SideFX Houdini mac破解安装教程 附注册机 支持M1/M2

南屿

Paste for Mac破解版(剪切板管理神器) 绿色安全无广告

南屿

免费好用的电子阅读神器MarginNote 3 for Mac

南屿

macos图标素材 macos big sur 软件icons图标大全(新增至2719枚大苏尔风格图标)

南屿

业界声音|PolarDB最值得关注的技术创新有哪些?

阿里云瑶池数据库

数据库 云计算 阿里云 云原生 polarDB

c4d r21中文破解版下载 C4D三维动画设计制作软件

南屿

分库分表已成为过去式,使用分布式数据库才是未来

不在线第一只蜗牛

数据库 源码 分布式 TiDB

京东广告算法架构体系建设--高性能计算方案最佳实践 | 京东零售广告技术团队

京东科技开发者

API接口的艺术:如何巧妙获取商品数据

Noah

OurBMC社区官网正式上线,邀您一起共建社区

OurBMC

ourBMC 官网上线 共建社区

颠覆传统API集成:幂简集成的“集采分离”革新理念

幂简集成

API API Hub

苹果电脑 MacBooster 8 Pro Mac软件 删除Mac恶意软件和病毒

南屿

JDK17 Groovy Caffeine 模块化报错分享

FunTester

Apple 发布 iMovie、Final Cut Pro、Compressor、Motion 的更新

南屿

雷霆游戏加入鸿蒙“朋友圈”,《问道》手游启动鸿蒙原生应用开发

最新动态

多平台Java安装程序构建器 install4j for Mac v10.0.7中文激活版

南屿

Mac软件精选壁纸软件:Backgrounds for Mac(桌面动态壁纸)

南屿

如何在不敲代码情况下用ChatGPT开发一个App

Geek_2305a8

荣耀时刻,「第5届天池全球数据库大赛」圆满收官

科技热闻

Parallels Desktop 虚拟机提示“由于临界误差,不能启动虚拟机”怎么办

南屿

MIT CSAIL彩票假想:大幅缩小神经网络规模但不牺牲预测精度,将对迁移学习产生影响_AI&大模型_KYLE WIGGERS_InfoQ精选文章