阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

MIT CSAIL 彩票假想:大幅缩小神经网络规模但不牺牲预测精度,将对迁移学习产生影响

  • 2019-05-07
  • 本文字数:1680 字

    阅读完需:约 6 分钟

MIT CSAIL彩票假想:大幅缩小神经网络规模但不牺牲预测精度,将对迁移学习产生影响

近日,美国麻省理工学院计算机科学与人工智能实验室(MIT CSAIL)发表了一篇名为《彩票假想:寻找稀疏、可训练的神经网络》(The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks)的论文,详细解析了如何在保证精准度不打折扣的前提下缩小神经网络规模。经试验,这种方法最高可以将模型大小缩小 10 倍,甚至训练速度提高 3.5 倍,预测精度提高 3.5%。


深度神经网络是一种仿生物神经元的数学函数层,作为通用类型的 AI 架构,它们能够执行从自然语言处理到计算机视觉的各类任务。但这并不意味着它们无所不能。深度神经网络通常需要非常庞大和合适的大型语料库,即使是用最昂贵的专用硬件,也需要数天才能进行训练。


但这种情况可能将有所改变。麻省理工学院计算机科学与人工智能实验室(CSAIL)的科学家在一项新研究《彩票假想:寻找稀疏、可训练的神经网络”》中表示,深度神经网络包含的子网络可以缩小 10 倍,同时训练之后预测精度保持同等水平,甚至在某些情况下比原始网络速度更快。


这项成果将在新奥尔良举行的国际学习代表大会(ICLR)上发表,从大约 1,600 份提交论文中脱颖而出,被评为该会议两篇最佳论文之一。


“首先,如果不想初始网络那么大,为什么不能在一开始就创建一个大小适中的网络呢?”博士生和论文合著者 Jonathan Frankle 在一份声明中说。“通过神经网络,你可以对这个庞大的结构进行随机初始化,在经过对大量数据进行训练之后,它神奇地起作用了。这种大型结构就像你买了一大包彩票,但其中只有少量门票实际上会让你发财。然而,我们仍然需要一种技术,在不知道中奖号码之前找到中奖的幸运儿。“



上图:在神经网络中查找子网 图片来源:麻省理工学院 CSAIL

规模缩小 10 倍,速度提高 3.5 倍,精度提高 3.5%

这里,我们将彩票假设应用于 CIFAR10 上的卷积网络,增加了学习问题的复杂性和网络的规模。我们考虑使用图 2 中的 Conv-2,Conv-4 和 Conv-6 架构,它们是 VGG 家族的缩小变体(Simonyan&Zisserman,2014)。网络有两个、四个或六个卷积层,后面是两个完全连接的层;每两个卷积层发生最大池化。这些网络范围广泛,包括将近到完全连接到传统卷积网络的类型,Conv-2 中卷积层的参数不到 1%,Conv-6.3 中的参数近三分之二。



寻找中奖彩票。上图中的实线表示来自每层修剪速率的 Conv-2(蓝色),Conv-4(橙色)和 Conv-6(绿色)的迭代彩票实验。


Lenet:随着网络被修剪,与原始网络相比,它学得更快,测试准确度也提高了。在这种情况下,结果更加明显。中奖彩票验证损失率达到最低,Conv-2 快 3.5 倍(Pm = 8.8%),Conv-4 快 3.5 倍(Pm = 9.2%),Conv-6 为 2.5x(Pm = 15.1%)。在精度度上,Conv-2 最高提高了 3.4%(Pm = 4.6%),Conv-4 提高 3.5%(Pm = 11.1%),Conv-6 提高 3.3%(Pm = 26.4%)。当 Pm> 2%时,所有三个网络都保持在其原始平均测试精度之上。


研究人员使用的方法涉及消除功能(或神经元)之间不必要的连接,使其适应低功率设备,这一过程通常称为修剪。(他们特别选择了具有最低“权重”的连接,这表明它们的重要性最低。)接下来,他们在没有修剪连接的情况下训练网络并重置权重,在修剪其他连接后,他们确定了可以在不影响模型预测能力的情况下删除多少连接。


在不同条件、不同网络上重复该过程数万次之后,报告显示他们的 AI 模型始终比其完全连接的母网络的规模小 10%到 20%。


“令人惊讶的是,重新设置一个表现良好的网络通常会带来更好的结果,”共同作者兼助理教授 Michael Carbin 说。“这表明,第一次的成果都不是最完美的,模型学会自我改进的空间还很大。”


Carbin 和 Frankle 指出,他们只考虑以较小数据集为中心和以视觉为中心的分类任务,未来,他们将探讨为什么某些子网特别擅长学习以及快速发现这些子网的方法。另外,他们认为这个结果可能对迁移学习产生影响,迁移学习技术可以训练针对某一任务的网络对另其他任务同样适用。


参考链接:https://arxiv.org/pdf/1803.03635.pdf


https://venturebeat.com/2019/05/06/mit-csail-details-technique-that-shrinks-the-size-of-neural-networks-without-compromising-accuracy/


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-05-07 11:173999
用户头像

发布了 98 篇内容, 共 62.5 次阅读, 收获喜欢 285 次。

关注

评论

发布
暂无评论
发现更多内容

论现代科技发展趋势:停滞、减速 OR 蓄力?

老猿Python

发展 科技 软件技术

Linux之ls命令

入门小站

Linux

Java8 的时间库(1):介绍 Java8 中的时间类及常用 API

看山

Java 6月日更

【Flutter 专题】103 初识 Flutter Mixin

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 6月日更

用EasyRecovery“监控硬盘”功能检测硬盘问题的方法

淋雨

数据恢复 EasyRecovery 文件恢复

企业如何成功应用机器学习?看这四点就够了!

亚马逊云科技 (Amazon Web Services)

OpenVINO+微软黑客松比赛项目简介

IT蜗壳-Tango

IT蜗壳 6月日更

VS code常用插件推荐(总结整理篇)

孙叫兽

vscode 大前端 插件 Vue 3 引航计划

前端开发华为鸿蒙系统应用 OpenHarmony JS

孙叫兽

华为 鸿蒙 OpenHarmony 鸿蒙开发 引航计划

连续七年,我们持续领跑

浪潮云

密码学系列之:feistel cipher

程序那些事

加密解密 密码学 程序那些事

面试官问“你有什么问题要问我”,如何完美回答?

架构精进之路

6月日更

【21-8】PowerShell 输入输出

耳东@Erdong

PowerShell 6月日更

软件工程,其实没有任何工程而言

实力程序员

Python——字典的使用

在即

6月日更

请阐述vue的diff算法

法医

Vue 大前端 6月日更

JDK 工具大合集

看山

Java 6月日更

【Vue2.x 源码学习】第十五篇 - 生成 ast 语法树 - 构造树形结构

Brave

源码 vue2 6月日更

架构实战营模块六总结

竹林七贤

故事|订单系统中的补偿事务

悟空聊架构

故事 事务 6月日更 订单系统 补偿事务

Java包装类(Integer 详解 )

若尘

java编程 6月日更

一分钟开发一个表单

蛋先生DX

vue.js 表单 动态表单 6月日更

react源码解析13.hooks源码

全栈潇晨

React

百度的云图丹青

脑极体

「SQL数据分析系列」4. 过滤操作

数据与智能

数据库 SQL语言

云上 ARM 实例应用优化?现在带你读懂它!

亚马逊云科技 (Amazon Web Services)

建信金科大咖访谈:人脸识别技术的发展与应用

金科优源汇

MySQL基础之十三:约束

打工人!

MySQL 6月日更

🌏【架构师指南】总结分库分表的实现方案

洛神灬殇

分库分表 架构师 6月日更 实现方案

页面怎么布局,当然是Grid ԅ(¯﹃¯ԅ)

空城机

JavaScript 大前端 6月日更 页面布局

缓存的世界 Redis(二)-持久化

卢卡多多

redis redis持久化 配置文件持久化 6月日更

MIT CSAIL彩票假想:大幅缩小神经网络规模但不牺牲预测精度,将对迁移学习产生影响_AI&大模型_KYLE WIGGERS_InfoQ精选文章