【AICon】探索八个行业创新案例,教你在教育、金融、医疗、法律等领域实践大模型技术! >>> 了解详情
写点什么

MIT CSAIL 彩票假想:大幅缩小神经网络规模但不牺牲预测精度,将对迁移学习产生影响

  • 2019-05-07
  • 本文字数:1680 字

    阅读完需:约 6 分钟

MIT CSAIL彩票假想:大幅缩小神经网络规模但不牺牲预测精度,将对迁移学习产生影响

近日,美国麻省理工学院计算机科学与人工智能实验室(MIT CSAIL)发表了一篇名为《彩票假想:寻找稀疏、可训练的神经网络》(The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks)的论文,详细解析了如何在保证精准度不打折扣的前提下缩小神经网络规模。经试验,这种方法最高可以将模型大小缩小 10 倍,甚至训练速度提高 3.5 倍,预测精度提高 3.5%。


深度神经网络是一种仿生物神经元的数学函数层,作为通用类型的 AI 架构,它们能够执行从自然语言处理到计算机视觉的各类任务。但这并不意味着它们无所不能。深度神经网络通常需要非常庞大和合适的大型语料库,即使是用最昂贵的专用硬件,也需要数天才能进行训练。


但这种情况可能将有所改变。麻省理工学院计算机科学与人工智能实验室(CSAIL)的科学家在一项新研究《彩票假想:寻找稀疏、可训练的神经网络”》中表示,深度神经网络包含的子网络可以缩小 10 倍,同时训练之后预测精度保持同等水平,甚至在某些情况下比原始网络速度更快。


这项成果将在新奥尔良举行的国际学习代表大会(ICLR)上发表,从大约 1,600 份提交论文中脱颖而出,被评为该会议两篇最佳论文之一。


“首先,如果不想初始网络那么大,为什么不能在一开始就创建一个大小适中的网络呢?”博士生和论文合著者 Jonathan Frankle 在一份声明中说。“通过神经网络,你可以对这个庞大的结构进行随机初始化,在经过对大量数据进行训练之后,它神奇地起作用了。这种大型结构就像你买了一大包彩票,但其中只有少量门票实际上会让你发财。然而,我们仍然需要一种技术,在不知道中奖号码之前找到中奖的幸运儿。“



上图:在神经网络中查找子网 图片来源:麻省理工学院 CSAIL

规模缩小 10 倍,速度提高 3.5 倍,精度提高 3.5%

这里,我们将彩票假设应用于 CIFAR10 上的卷积网络,增加了学习问题的复杂性和网络的规模。我们考虑使用图 2 中的 Conv-2,Conv-4 和 Conv-6 架构,它们是 VGG 家族的缩小变体(Simonyan&Zisserman,2014)。网络有两个、四个或六个卷积层,后面是两个完全连接的层;每两个卷积层发生最大池化。这些网络范围广泛,包括将近到完全连接到传统卷积网络的类型,Conv-2 中卷积层的参数不到 1%,Conv-6.3 中的参数近三分之二。



寻找中奖彩票。上图中的实线表示来自每层修剪速率的 Conv-2(蓝色),Conv-4(橙色)和 Conv-6(绿色)的迭代彩票实验。


Lenet:随着网络被修剪,与原始网络相比,它学得更快,测试准确度也提高了。在这种情况下,结果更加明显。中奖彩票验证损失率达到最低,Conv-2 快 3.5 倍(Pm = 8.8%),Conv-4 快 3.5 倍(Pm = 9.2%),Conv-6 为 2.5x(Pm = 15.1%)。在精度度上,Conv-2 最高提高了 3.4%(Pm = 4.6%),Conv-4 提高 3.5%(Pm = 11.1%),Conv-6 提高 3.3%(Pm = 26.4%)。当 Pm> 2%时,所有三个网络都保持在其原始平均测试精度之上。


研究人员使用的方法涉及消除功能(或神经元)之间不必要的连接,使其适应低功率设备,这一过程通常称为修剪。(他们特别选择了具有最低“权重”的连接,这表明它们的重要性最低。)接下来,他们在没有修剪连接的情况下训练网络并重置权重,在修剪其他连接后,他们确定了可以在不影响模型预测能力的情况下删除多少连接。


在不同条件、不同网络上重复该过程数万次之后,报告显示他们的 AI 模型始终比其完全连接的母网络的规模小 10%到 20%。


“令人惊讶的是,重新设置一个表现良好的网络通常会带来更好的结果,”共同作者兼助理教授 Michael Carbin 说。“这表明,第一次的成果都不是最完美的,模型学会自我改进的空间还很大。”


Carbin 和 Frankle 指出,他们只考虑以较小数据集为中心和以视觉为中心的分类任务,未来,他们将探讨为什么某些子网特别擅长学习以及快速发现这些子网的方法。另外,他们认为这个结果可能对迁移学习产生影响,迁移学习技术可以训练针对某一任务的网络对另其他任务同样适用。


参考链接:https://arxiv.org/pdf/1803.03635.pdf


https://venturebeat.com/2019/05/06/mit-csail-details-technique-that-shrinks-the-size-of-neural-networks-without-compromising-accuracy/


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-05-07 11:174003
用户头像

发布了 98 篇内容, 共 62.5 次阅读, 收获喜欢 285 次。

关注

评论

发布
暂无评论
发现更多内容

会展云技术解读丨多重安全保障护航云上会展

京东科技开发者

云计算 云服务 云平台

零基础IM开发入门(三):什么是IM系统的可靠性?

JackJiang

网络编程 即时通讯 IM

真香!天天996进不去阿里?看5年苦逼程序猿怎么逆袭阿里P7

小Q

Java 学习 架构 面试 程序猿

DeFi流动性挖矿系统开发技术方案

薇電13242772558

区块链 defi

技术实践丨PostgreSQL开启Huge Page场景分析

华为云开发者联盟

数据库 管理 内存

如何获取变量token的值

测试人生路

软件测试 接口测试

刚从蚂蚁金服Java研发岗面试回来(三轮游),我总结的面试经历(附面试题+答案)

Java架构追梦

Java 架构 面试 蚂蚁金服

【高并发】导致并发编程频繁出问题的“幕后黑手”

冰河

并发编程 多线程 高并发 高性能 异步

在阿里内部,做Java到金字塔顶端的人平时都如何学习源码?

小Q

Java 学习 架构 面试 程序猿

十八般武艺玩转GaussDB(DWS)性能调优:总体调优策略

华为云开发者联盟

数据库 性能 调试

甲方日常 41

句子

工作 随笔杂谈 日常

架构师训练营 - 第二周课后练习

joshuamai

《Linux学习笔记》从常用命令、常用操作到网络管理、性能优化,无论是Java开发或是运维都可以学习!

Java架构之路

Java 程序员 架构 面试 编程语言

区块链将构建数字社会高效的全球网络

CECBC

数字经济 数字时代

架构师第一期作业(第 6 周)

Cheer

Netty源码解析 -- 零拷贝机制与ByteBuf

binecy

Netty 源码剖析

面试官问我:看过sharding-jdbc的源码吗?我吧啦吧啦说了一通!!

冰河

分布式事务 微服务 分布式数据库 系统架构 中间件

gRPC服务注册发现及负载均衡的实现方案与源码解析

网管

负载均衡 gRPC etcd 服务注册与发现 Go 语言

企业级RPC框架zRPC

万俊峰Kevin

RPC microser Go 语言

天呐!价值2980元Java成神面试题竟在Github开源了

996小迁

Java 学习 架构 面试

LeetCode题解:78. 子集,迭代+位运算,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

问题篇:附源码询问Pageable实现分页无法使用原生sql

小Q

Java 学习 架构 面试 springboot

Java程序员必须人手一本的《码出高效:Java 开发手册》,免费分享PDF文档

Java架构之路

Java 程序员 架构 面试 编程语言

Vidyo独特的互联网适应性

dwqcmo

音视频 集成架构 解决方案 智能硬件

区块链是连接传统经济和数字经济的桥梁

CECBC

区块链 数字经济

与其思考公司该为员工提供什么福利,不如思考有哪些 “福利” 不应该提供!

非著名程序员

个人成长 管理 福利

深度对比Apache CarbonData、Hudi和Open Delta三大开源数据湖方案

华为云开发者联盟

hadoop 开源 数据处理

解惑“高深”的Kafka时间轮原理,原来也就这么回事!

华为云开发者联盟

中间件 消息队列

JAVA稳定底层,快速开发首选,XJR智能化客户关系管理

Marilyn

敏捷开发 快速开发 软件架构 客户关系管理

测试悄然扩围 千万元红包搅活数字货币江湖

CECBC

数字人民币

【JSRC小课堂】Web安全专题(三)SRC漏洞挖掘技巧:三步走收集高质量信息

京东科技开发者

WEB安全

MIT CSAIL彩票假想:大幅缩小神经网络规模但不牺牲预测精度,将对迁移学习产生影响_AI&大模型_KYLE WIGGERS_InfoQ精选文章