写点什么

专访 NeurIPS “新方向”奖得主:“负面结果”如何影响深度学习?

  • 2020-02-18
  • 本文字数:3306 字

    阅读完需:约 11 分钟

专访NeurIPS “新方向”奖得主:“负面结果”如何影响深度学习?

本文为 Robin.ly 授权转载,文章版权归原作者所有,转载请联系原作者。


Robin.ly 是立足硅谷的视频内容平台,服务全球工程师和研究人员,通过与知名人工智能科学家、创业者、投资人和领导者的深度对话和现场交流活动,传播行业动态和商业技能,打造人才全方位竞争力。


“杰出新方向论文奖”(Outstanding New Directions Paper Award)是今年 NeurIPS 大会特别增设的奖项,以此表彰在未来研究创新路径方面作出贡献的研究人员。该奖得主是来自卡耐基梅隆大学的博士生 Vaishnavh Nagarajan 和他的导师 J. Zico Kolter 教授。他们的论文“Uniform convergence may be unable to explain generalization in deep learning”另辟蹊径,通过证实过度依赖“一致收敛”工具的负面结果,引发了对深度学习研究方向和方法更高层面的思考。


Robin.ly 在大会现场特邀获得者 Vaishnavh Nagarajan 和 J. Zico Kolter 教授独家对话,分享他们在深度学习理论方面的研究成果和思考。Vaishnavh 是卡耐基梅隆大学计算机系 5 年级博士生,主要研究方向是机器学习与人工智能的算法及理论。J. Zico Kolter 是该系的副教授,同时兼任博世人工智能中心首席科学家。



Vaishnavh Nagarajan(右)和 J. Zico Kolter 教授(左)在 NeurIPS 2019 大会接受 Robin.ly 专访


大会评审推荐理由:“论文展示了一些负面结果,表明当前对深度学习算法基于范数的很多泛化边界描述方法并不能达到所声称的效果。论文提出,继续依赖双面一致收敛性的泛化边界描述方法无法获得预期的效果。虽然本论文没有解决,也并不意图解决深度神经网络中的泛化性问题,其结论仍然为整个领域指出了针对同一问题尝试其他方法的必要性。”


论文链接:


https://arxiv.org/abs/1902.04742

深度学习中的“泛化难题”

Margaret Laffan: 恭喜你们获得“杰出新方向论文奖”!能简单介绍一下这篇论文吗?


Vaishnavh Ganarajan:


在这篇论文中,我们研究了深度学习理论中最大的开放性挑战之一,“泛化难题(generalization puzzle)”。当前的很多深度网络模型拥有比训练数据点还要多的参数,包括标准输入在内的经典学习理论表明,这些模型在未经训练的数据集上的表现应该比较差。然而,我们通过实践观察到,这些模型在测试数据上获得了最高级的泛化性能。对这种违反直觉的行为的探究就是所谓的“泛化难题”。许多理论工作试图用“一致收敛(uniform convergence)”的特殊工具来揭开泛化难题的面纱。然而,尽管已经做了很多工作,我们仍然没有找到确切答案。于是在这项工作中,我们退后了一步思考,认为“一致收敛”的工具可能并不能真正帮助我们解开这个谜题。这是一个高层次的信息,我们也许应该尝试使用一致收敛之外的其他数学工具。


Margaret Laffan: 其他数学工具指的是什么?


Vaishnavh Ganarajan:


有很多,比如算法稳定性(Algorithmic stability),但目前还不清楚这些方法是否有效。我认为我们可能必须从零开始构建一个完全不同的工具。也许可以使用我们在论文中提供的一些反例,也就是一致收敛失败时的例子,从而获得一个完全不同的工具,甚至可以对一些现有的工具进行更巧妙的改进。



NeurIPS 2019“杰出新方向”论文奖,来源:NeurIPS 2019


Margaret Laffan: 泛化有哪些应用?


Vaishnavh Ganarajan:


泛化是机器学习或深度学习最基本的目标之一,即在一个训练数据集上训练一个模型,该模型在新的数据集也能有良好的表现。我们已经看到深度学习能够以某种方式实现这个目标。为了不断优化深度学习算法,我们需要理解这些算法在泛化方面究竟实现了什么样的功能。这就是这套工作的重要性所在,能够近一步增加我们对系统优化过程的基本理解。

“负面结果”的意义

Margaret Laffan: Zico,从你的角度来看,为什么你们的论文会获奖?这项研究最大的贡献是什么?


J Zico Kolter:


这项研究的重点在于,我们实际上得到的是一个负面的结果。我们看到有些方法是行不通的,这反而是件好事。因为现在人工智能正处于一个似乎万事都行得通的时代,但是我们仍然不明白其中涉及的很多基本数学原理。负面的结果也会推动一个领域向前发展,这就相当于提供了一个路标,可以引领深度学习社区向一个不同的方向迈进。对我来说,这篇论文最有趣的地方在于,它提供了改变研究方向以及改变我们如何思考问题的可能性,如此一来,也有可能改变我们理解深度学习的角度。


Margaret Laffan: Vaishnavh,你的同行如何看到你的这篇论文?


Vaishnavh Ganarajan:


我和读过这篇论文的人进行了很多激动人心的讨论,有些人持有不同意见,有些则对我们的研究结果感到很惊讶。包括我在内的很多人都在通过研究基于一致收敛的工具来理解泛化,我也发表过相关的论文。但是现在我们得到了一个负面结果,这可能有点令人困惑。但很多人也意识到,该结论给出了对当前工作推动作用的高层次想法。



图示:研究发现,来源:Vaishnavh Ganarajan

研究局限性

Margaret Laffan: 你目前的研究有什么局限性吗?对未来的研究有什么打算?


Vaishnavh Ganarajan:


我想强调两方面的局限性。首先,我们在某些环境设置中得到了负面的结果,但是并不能断言所有环境设置都会带来负面结果,但我们希望这至少可以表明该工具可能无法在一般情况下使用。


其次,我们实际上并没有解决这个难题或提供其他替代方案,而是提供了关于现有工具的负面结果。所以在未来,我们非常希望同行能利用我们论文中的知识开发新的学习工具来解答这个问题。在今后的工作中,我会努力跳出这个一致收敛的工具的限制来理解泛化难题。

深度学习的理论研究

Margaret Laffan: Vaishnavh,是什么让你对人工智能、深度学习、机器学习产生了兴趣?


Vaishnavh Ganarajan:


我最初的研究领域是经典学习理论,研究机器学习理论基础,但与此同时,深度学习正变得越来越受欢迎。深度学习真正吸引我的是当时理论层面存在的真空以及深度学习本身所能造成的影响。所以,从事深度学习理论方面的工作,不仅满足了我对理论研究的热爱,也会帮助我在这一方向上产生一些影响。


Margaret Laffan: Zico, 能和我们分享一下你和学生的研究方向和研究进展吗?


J Zico Kolter:


我认为关于深度学习最令人兴奋的事情之一,是存在广泛的理论性工作,这实际上正是深度学习所缺乏的。理论性研究与应用研究在机器学习中相互交织的,密不可分。我们开发的理论工具可以与应用研究很好的结合,共同推动这个领域向前发展。


我很高兴能带领一组学生攻克这些难题。一些学生可以关注更多的理论问题,重点分析深度学习背后的数学原理,而另一些可以专注于更多的应用问题,比如如何将研究结果用于智能能源系统?我有一个学生正在探索能否把研究结果应用到核聚变中。在博世人工智能中心,我们也一直在积极研究人工智能的潜在应用,如何使人工智能在现实世界中的鲁棒性更强,更容易部署。在这个领域的成熟过程中,我更希望看到更多理论方面的信息,并最终完成更多有实际应用的工作,获得成功和反馈,并催化新理论的诞生。



Vaishnavh Nagarajan(右)和 J. Zico Kolter 教授(左)在 NeurIPS 2019 大会接受 Robin.ly 专访

人工智能的发展方向

Margaret Laffan: Zico,从研究角度来看,你认为在接下来的几年里,人工智能这个领域会发展到什么程度?


J Zico Kolter:


我认为预测人工智能的未来是很难的。当深度学习革命发生时,我已经在机器学习领域站稳了脚跟,也从来没有想过我们会达到现在的水平。所以对于人工智能的问题我不敢做出任何断言。


如果让我猜测该领域的发展方向,我想我们正达到这样一个点:从深度学习获得的工具和经验越来越实用,并且能够应用于越来越多的结构化领域,也会更多地受到经典编程的影响。所以我们不应该继续把深度学习当作一个“黑盒子“ – 只是结合了很多线性运算符与非线性运算符,进行很多次迭代。我们应该更多的进行这样的思考:当通用程序只包含未知参数,我们要如何学习这些参数?当涉及到经典编程的结构互操作性,以及机器学习的灵活性和端到端数据驱动的本质时,我们如何将结构化编程与一些元数据结合在一起,从而在两个领域都获得最佳结果? 我认为这两件事在未来的机器学习工作中可以结合起来,也是我最期待能够进一步推进的。


本文转载自 Robinly 微信公众平台。


原文链接: https://mp.weixin.qq.com/s/CjFRHHVPtUPWnL67yDtIRA


2020-02-18 20:47744

评论

发布
暂无评论
发现更多内容

云原生技术 - 如何从代码到制作并发布一个 Helm 包?

孙健波

云原生 Helm

手把手教学直播:如何提交 PR 成为龙蜥社区贡献者? | 第 23 期

OpenAnolis小助手

开源 PR 龙蜥社区 龙蜥大讲堂 社区贡献

摆脱五彩斑斓的黑,成为七彩程序员!

禅道项目管理

详解Cache缓存与DB数据库一致性

分治实践

数据一致性 缓存Redis

InfoQ 极客传媒 15 周年庆征文|【Docker最佳实践】Windows上安装Docker及常见问题解决

迷彩

Docker 架构 运维 6月月更 InfoQ极客传媒15周年庆

java培训MyBatis动态SQL

@零度

mybatis JAVA开发

【Python技能树共建】pyspider框架的使用

梦想橡皮擦

Python 6月月更

Vone观点说|用DAO打造人类协作新形态

旺链科技

区块链 产业区块链 自组织协作

InfoQ 极客传媒 15 周年庆征文 | 跨系统数据一致性问题

架构精进之路

数据一致性 构架 InfoQ极客传媒15周年庆

Vue-11-条件渲染

Python研究所

6月月更

大数据培训Flink 运行架构

@零度

flink 大数据开发

NFT链游系统开发|NFT卡牌盲盒游戏

薇電13242772558

NFT 链游

四次蝉联中国容器云市场TOP5!为应用赋能

BoCloud博云

云原生 容器技术 容器云 博云

自主研发不断突破!索信达AI技术再获国家发明专利授权

索信达控股

PingCAP 与阿里云达成合作 云数据库 TiDB 上线阿里云心选商城

极客天地

支持 M3U8 格式播放的方法

CRMEB

企业知识管理就是信息化建设吗?

小炮

大数据培训Flink 简介与认知

@零度

flink 大数据开发

一个 Angular 程序员两年多的远程办公经验分享 | 社区征文

汪子熙

程序员 远程办公 Slack 6月月更 初夏征文

现场办公VS居家办公——我的2022居家办公经验分享| 社区征文

No Silver Bullet

经验分享 居家办公 6月月更 初夏征文

开源等于免费吗?

源字节1号

开源

JavaScript异步函数async/await

大熊G

JavaScript 前端 6月月更

【直播回顾】Hello HarmonyOS系列应用篇完美收官!

HarmonyOS开发者

HarmonyOS

华为云发布新伙伴体系,携手伙伴及开发者共建新生态,共创新价值

郝俸🦁好棒

华为云 生态

有了钉钉和企业微信,企业还需要专属IM吗?

BeeWorks

InfoQ 极客传媒 15 周年庆征文|uni-app 路由传参参数丢失问题解决方案探究

No Silver Bullet

前端 6月月更 InfoQ极客传媒15周年庆 路由传参

OpenHarmony 官网文档有哪些上新?下篇:设备开发文档上新

OpenHarmony开发者

Open Harmony

使用 Prometheus 监控 SAP ABAP 应用程序

汪子熙

云计算 Kubernetes 云原生 abap 6月月更

MySQL索引

龙空白白

索引 MySQL InnoDB

用 Golang 重写 rsync(3):C里面的谜之指针

百家饭隐私计算平台创业者

c

安全服务厂商安全狗加入龙蜥社区

OpenAnolis小助手

开源 网络安全 龙蜥社区 龙腾计划 安全狗

专访NeurIPS “新方向”奖得主:“负面结果”如何影响深度学习?_行业深度_Robin.ly_InfoQ精选文章