AICon 上海站|日程100%上线,解锁Al未来! 了解详情
写点什么

专访 NeurIPS “新方向”奖得主:“负面结果”如何影响深度学习?

  • 2020-02-18
  • 本文字数:3306 字

    阅读完需:约 11 分钟

专访NeurIPS “新方向”奖得主:“负面结果”如何影响深度学习?

本文为 Robin.ly 授权转载,文章版权归原作者所有,转载请联系原作者。


Robin.ly 是立足硅谷的视频内容平台,服务全球工程师和研究人员,通过与知名人工智能科学家、创业者、投资人和领导者的深度对话和现场交流活动,传播行业动态和商业技能,打造人才全方位竞争力。


“杰出新方向论文奖”(Outstanding New Directions Paper Award)是今年 NeurIPS 大会特别增设的奖项,以此表彰在未来研究创新路径方面作出贡献的研究人员。该奖得主是来自卡耐基梅隆大学的博士生 Vaishnavh Nagarajan 和他的导师 J. Zico Kolter 教授。他们的论文“Uniform convergence may be unable to explain generalization in deep learning”另辟蹊径,通过证实过度依赖“一致收敛”工具的负面结果,引发了对深度学习研究方向和方法更高层面的思考。


Robin.ly 在大会现场特邀获得者 Vaishnavh Nagarajan 和 J. Zico Kolter 教授独家对话,分享他们在深度学习理论方面的研究成果和思考。Vaishnavh 是卡耐基梅隆大学计算机系 5 年级博士生,主要研究方向是机器学习与人工智能的算法及理论。J. Zico Kolter 是该系的副教授,同时兼任博世人工智能中心首席科学家。



Vaishnavh Nagarajan(右)和 J. Zico Kolter 教授(左)在 NeurIPS 2019 大会接受 Robin.ly 专访


大会评审推荐理由:“论文展示了一些负面结果,表明当前对深度学习算法基于范数的很多泛化边界描述方法并不能达到所声称的效果。论文提出,继续依赖双面一致收敛性的泛化边界描述方法无法获得预期的效果。虽然本论文没有解决,也并不意图解决深度神经网络中的泛化性问题,其结论仍然为整个领域指出了针对同一问题尝试其他方法的必要性。”


论文链接:


https://arxiv.org/abs/1902.04742

深度学习中的“泛化难题”

Margaret Laffan: 恭喜你们获得“杰出新方向论文奖”!能简单介绍一下这篇论文吗?


Vaishnavh Ganarajan:


在这篇论文中,我们研究了深度学习理论中最大的开放性挑战之一,“泛化难题(generalization puzzle)”。当前的很多深度网络模型拥有比训练数据点还要多的参数,包括标准输入在内的经典学习理论表明,这些模型在未经训练的数据集上的表现应该比较差。然而,我们通过实践观察到,这些模型在测试数据上获得了最高级的泛化性能。对这种违反直觉的行为的探究就是所谓的“泛化难题”。许多理论工作试图用“一致收敛(uniform convergence)”的特殊工具来揭开泛化难题的面纱。然而,尽管已经做了很多工作,我们仍然没有找到确切答案。于是在这项工作中,我们退后了一步思考,认为“一致收敛”的工具可能并不能真正帮助我们解开这个谜题。这是一个高层次的信息,我们也许应该尝试使用一致收敛之外的其他数学工具。


Margaret Laffan: 其他数学工具指的是什么?


Vaishnavh Ganarajan:


有很多,比如算法稳定性(Algorithmic stability),但目前还不清楚这些方法是否有效。我认为我们可能必须从零开始构建一个完全不同的工具。也许可以使用我们在论文中提供的一些反例,也就是一致收敛失败时的例子,从而获得一个完全不同的工具,甚至可以对一些现有的工具进行更巧妙的改进。



NeurIPS 2019“杰出新方向”论文奖,来源:NeurIPS 2019


Margaret Laffan: 泛化有哪些应用?


Vaishnavh Ganarajan:


泛化是机器学习或深度学习最基本的目标之一,即在一个训练数据集上训练一个模型,该模型在新的数据集也能有良好的表现。我们已经看到深度学习能够以某种方式实现这个目标。为了不断优化深度学习算法,我们需要理解这些算法在泛化方面究竟实现了什么样的功能。这就是这套工作的重要性所在,能够近一步增加我们对系统优化过程的基本理解。

“负面结果”的意义

Margaret Laffan: Zico,从你的角度来看,为什么你们的论文会获奖?这项研究最大的贡献是什么?


J Zico Kolter:


这项研究的重点在于,我们实际上得到的是一个负面的结果。我们看到有些方法是行不通的,这反而是件好事。因为现在人工智能正处于一个似乎万事都行得通的时代,但是我们仍然不明白其中涉及的很多基本数学原理。负面的结果也会推动一个领域向前发展,这就相当于提供了一个路标,可以引领深度学习社区向一个不同的方向迈进。对我来说,这篇论文最有趣的地方在于,它提供了改变研究方向以及改变我们如何思考问题的可能性,如此一来,也有可能改变我们理解深度学习的角度。


Margaret Laffan: Vaishnavh,你的同行如何看到你的这篇论文?


Vaishnavh Ganarajan:


我和读过这篇论文的人进行了很多激动人心的讨论,有些人持有不同意见,有些则对我们的研究结果感到很惊讶。包括我在内的很多人都在通过研究基于一致收敛的工具来理解泛化,我也发表过相关的论文。但是现在我们得到了一个负面结果,这可能有点令人困惑。但很多人也意识到,该结论给出了对当前工作推动作用的高层次想法。



图示:研究发现,来源:Vaishnavh Ganarajan

研究局限性

Margaret Laffan: 你目前的研究有什么局限性吗?对未来的研究有什么打算?


Vaishnavh Ganarajan:


我想强调两方面的局限性。首先,我们在某些环境设置中得到了负面的结果,但是并不能断言所有环境设置都会带来负面结果,但我们希望这至少可以表明该工具可能无法在一般情况下使用。


其次,我们实际上并没有解决这个难题或提供其他替代方案,而是提供了关于现有工具的负面结果。所以在未来,我们非常希望同行能利用我们论文中的知识开发新的学习工具来解答这个问题。在今后的工作中,我会努力跳出这个一致收敛的工具的限制来理解泛化难题。

深度学习的理论研究

Margaret Laffan: Vaishnavh,是什么让你对人工智能、深度学习、机器学习产生了兴趣?


Vaishnavh Ganarajan:


我最初的研究领域是经典学习理论,研究机器学习理论基础,但与此同时,深度学习正变得越来越受欢迎。深度学习真正吸引我的是当时理论层面存在的真空以及深度学习本身所能造成的影响。所以,从事深度学习理论方面的工作,不仅满足了我对理论研究的热爱,也会帮助我在这一方向上产生一些影响。


Margaret Laffan: Zico, 能和我们分享一下你和学生的研究方向和研究进展吗?


J Zico Kolter:


我认为关于深度学习最令人兴奋的事情之一,是存在广泛的理论性工作,这实际上正是深度学习所缺乏的。理论性研究与应用研究在机器学习中相互交织的,密不可分。我们开发的理论工具可以与应用研究很好的结合,共同推动这个领域向前发展。


我很高兴能带领一组学生攻克这些难题。一些学生可以关注更多的理论问题,重点分析深度学习背后的数学原理,而另一些可以专注于更多的应用问题,比如如何将研究结果用于智能能源系统?我有一个学生正在探索能否把研究结果应用到核聚变中。在博世人工智能中心,我们也一直在积极研究人工智能的潜在应用,如何使人工智能在现实世界中的鲁棒性更强,更容易部署。在这个领域的成熟过程中,我更希望看到更多理论方面的信息,并最终完成更多有实际应用的工作,获得成功和反馈,并催化新理论的诞生。



Vaishnavh Nagarajan(右)和 J. Zico Kolter 教授(左)在 NeurIPS 2019 大会接受 Robin.ly 专访

人工智能的发展方向

Margaret Laffan: Zico,从研究角度来看,你认为在接下来的几年里,人工智能这个领域会发展到什么程度?


J Zico Kolter:


我认为预测人工智能的未来是很难的。当深度学习革命发生时,我已经在机器学习领域站稳了脚跟,也从来没有想过我们会达到现在的水平。所以对于人工智能的问题我不敢做出任何断言。


如果让我猜测该领域的发展方向,我想我们正达到这样一个点:从深度学习获得的工具和经验越来越实用,并且能够应用于越来越多的结构化领域,也会更多地受到经典编程的影响。所以我们不应该继续把深度学习当作一个“黑盒子“ – 只是结合了很多线性运算符与非线性运算符,进行很多次迭代。我们应该更多的进行这样的思考:当通用程序只包含未知参数,我们要如何学习这些参数?当涉及到经典编程的结构互操作性,以及机器学习的灵活性和端到端数据驱动的本质时,我们如何将结构化编程与一些元数据结合在一起,从而在两个领域都获得最佳结果? 我认为这两件事在未来的机器学习工作中可以结合起来,也是我最期待能够进一步推进的。


本文转载自 Robinly 微信公众平台。


原文链接: https://mp.weixin.qq.com/s/CjFRHHVPtUPWnL67yDtIRA


2020-02-18 20:47712

评论

发布
暂无评论
发现更多内容

如何从Telegram下载一整套可爱的猫猫表情包?

彭宏豪95

GitHub 效率 社交 4月日更

一篇文章告诉你什么是EGG Network(阿凡提)以及什么是EFTalk

币圈那点事

Boss直聘转发超120W次Java全栈面试题!已帮我拿下5个Offer!

Java架构追梦

Java 面试 架构师 阿里巴巴面经总结

MapReduce优化

大数据技术指南

hadoop 4月日更

使用Composition API在Vue3中创建防抖搜索输入框

devpoint

vite Vue3 防抖

深圳龙华携手腾讯云 加快推进区块链先行试验区建设

CECBC

用OpenCV制作庆祝武汉重启一周年短视频

老猿Python

Python OpenCV 音视频 图形图像处理 引航计划

OpenHarmony 1.1.0 LTS 版本正式发布

开放原子开源基金会

开源 开放原子开源基金会 OpenHarmony

In-depth Java synchronized

0xABC

Java并发 并发编程 Monitor

如何引入TDD实践

顿晓

TDD 4月日更

spring的IOC使用以及原理

邱学喆

spring ioc 对象创建 属性注入

使用FFmpeg开发的那些事

Bob

音视频 ffmpeg 开源文化

和老大的相爱相杀中,让我终于搞懂了函数式接口

麦洛

Java 函数式接口 Lambda java8

【资深猎头分享】程序员面试如何避坑?

Java架构师迁哥

framework源码,Android学习路线指南,已整理成文档

欢喜学安卓

android 程序员 面试 移动开发

火爆火爆!最新分享给大家:Boss直聘转发超80W次的一套超全面试题总结

比伯

Java 架构 面试 程序人生 计算机

区块链技术驱动商业银行开展供应链金融业务的创新路径

CECBC

别当工具人了,手摸手教会你 Jenkins ! 码农很低调

比伯

Java 程序员 架构 计算机 技术宅

NA(Nirvana)Chain“以应用而生”如何强势突围

区块链第一资讯

读《非暴力沟通》

箭上有毒

读书笔记 4月日更

flutter开发环境搭建,京东面试真题解析,分享PDF高清版

欢喜学安卓

android 程序员 面试 移动开发

HBase三个重要机制

五分钟学大数据

HBase 4月日更

我是收藏一把好手

yes

学习

聊聊云厂商的指标监控组件

耳东@Erdong

Prometheus 4月日更 #Grafana

「开源免费」基于Vue和Quasar的前端SPA项目crudapi后台管理系统实战之动态表单设计器(五)

crudapi

Vue crud 动态表单 quasar cruapi

Dubbo 学习笔记(一) Hello,Dubbo

U2647

dubbo 4月日更

redis Redis缓存穿透解决方案

Sakura

4月日更

你看起来很美味?独家揭露视频推荐系统AI秘方

白洞计划

DEX领域第一个运用整合思维的DeFi协议 SumSwwap潜力巨大

币圈资讯

《几何代数计算入门(计算机视觉)》

计算机与AI

计算机视觉 计算机图形学

Linux mkdir 命令

一个大红包

4月日更

专访NeurIPS “新方向”奖得主:“负面结果”如何影响深度学习?_行业深度_Robin.ly_InfoQ精选文章