10 月,开发者不可错过的开源大数据大会-2021 WeDataSphere 社区大会深圳站 了解详情
写点什么

马腾宇:高效、可靠、可理解的深度学习

2020 年 4 月 09 日

马腾宇:高效、可靠、可理解的深度学习

毕业于清华 “姚班” 和普利斯顿大学的马腾宇是 AI 学界备受瞩目的青年翘楚。他目前在斯坦福大学计算机科学系与统计学系担任助理教授,专注于机器学习理论和算法研究,涉及非凸优化、深度学习、强化学习、表征学习等领域。马腾宇在 2018 年获得 ACM 最佳博士论文荣誉提名,并获得 COLT 2018 最佳论文奖和 NIPS 2016 最佳学生论文奖。


在本期 Robin.ly 独家专访中,马腾宇分享了他在 NeurIPS 2019 大会发表的论文亮点、ACM 获奖博士论文背后的研究工作、以及对 AI 未来研究方向的展望。



以下为完整访谈实录,点击“阅读原文”获取英文实录。


NeurIPS 2019 的论文亮点

Margaret Laffan(Robin.ly 主持人): 马博士,能跟我们介绍一下你目前的研究工作以及你在 这次 NeurIPS 2019 发表的五篇论文吗?


马腾宇:


我目前的研究重点是机器学习理论,尤其是深度学习理论,并致力于将理论知识转化为实际应用。在过去的两年中,我也一直在探索新的深度强化研究(Deep Reinforcement)。


这次 NeurIPS 大会接收的 5 篇论文中,有几篇探讨了深度学习算法的工作原理,以及如何利用理论研究改进算法的性能。


其中一篇名为 “Data-dependent Sample Complexity of Deep Neural Networks via Lipschitz Augmentation” 的论文重点介绍了为什么在存在大量参数的情况下,深度学习算法仍然可以泛化到从未见过的实例。这是目前深度学习领域的一个重要的开放研究方向,之前的一些常规理论在这些情况下并不适用。还有两篇论文是关于如何更快地训练算法以更好地进行泛化:一篇论文讨论了调整算法中学习速率/步长对泛化的重要性;另一篇是关于正则化 (Regularization) 的重要性和如何优化。



马腾宇博士(右)在 NeurIPS 2019 会场接受 Robin.ly 专访


另外一篇题为 “Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss” 的论文也特别值得一提。这篇文章是研究如何针对不均衡的数据集,利用理论知识来设计实用算法,以改进生活中实际应用。业界的许多数据集不如我们常用的基准数据集(如 ImageNet、CIFAR)那样均衡 – 在某些情况下数据量很大,而另一些罕见低频事件的数据则少的可怜。以无人车为例,遇到鹿横穿马路的数据非常少,但这种情况的安全隐患很大。我们有必要让算法在此类涉及到安全的关键事件上有良好的表现,确保算法不仅适用于常见事件,也适用于罕见事件。


当前的总体解决思路是设计正则化方法 (Regularization)以提高对罕见事件的泛化能力。现有工具重新采样和优化的方法能够解决罕见事件的数据训练问题,但是这些结果会导致过度拟合,无法很好地泛化。我们这项工作就在试图解决这个问题。我们成功地改进了一些先前的简化算法,并在罕见事件的泛化结果上取得了明显的进步。



ACM 获奖论文:非凸优化研究

Margaret Laffan: 你的博士论文获得了 ACM 荣誉提名奖,能分享一下其中最重要的贡献吗?


马腾宇:


我的博士论文 “Non-convex Optimization for Machine Learning: Design, Analysis, and Understanding” 主要关注的是非凸优化研究。在 2012 - 2013 年我刚开始读博士的时候,深度学习新一轮的浪潮才刚刚兴起,我们开始意识到深度学习会是下一个大趋势。


理解深度学习算法原理的瓶颈之一是如何优化损失函数 (Loss Function),使其变得非凸。但是大多数现有的优化理论都将重点放在优化凸函数上,这不一定适用于深度学习。这项研究的目的就是了解为何我们可以实现非凸函数的优化 – 人们通常认为这是一个非常棘手的问题。


我在论文中还描述了在实际应用中损失函数的不同特征。我们针对这些特征可以相应的设计新算法或改进现有算法,而不仅仅局限于凸函数优化。除此之外,我们还分析了非凸模型的可解释性。对线性模型的解释相对容易,但是对于非线性模型和非凸模型,解释起来就比较困难。因此,论文的第二部分是关于如何在自然语言处理领域 (NLP)理解和解释这些非凸模型。



马腾宇(左二)获得 ACM 荣誉提名奖,来源:Michael Freedman


AI 研究发展方向

Margaret Laffan: 你如何看待 AI 研究未来的发展方向?你认为下一个重大突破会是什么?


马腾宇:


AI 包含很多不同的领域,但是至少从理论研究的角度来说,我觉得越来越多的工作正致力于深入挖掘深度学习的理论,探索不同模型的可解释性和可靠性。我认为在不久的将来,至少在相对标准的环境中,我们可以更好地理解深度学习的泛化和潜在的实际应用。


当然,我的观点可能存在一些个人偏见,但我认为这方面的研究会是下一个比较大的趋势。现在已经出现了对相关研究潜在社会影响的普遍担忧。我们专注技术突破的同时,也必须确保所有的算法在实际应用中都是安全、可靠、可解释的。


本文转载自 Robinly 公众号。


原文链接:https://mp.weixin.qq.com/s/KqrnZ4ZFsLfqK5EDByBfiw


2020 年 4 月 09 日 15:52860

评论

发布
暂无评论
发现更多内容

GitHub不再支持密码验证解决方案:SSH免密与Token登录配置

zhoulujun

git GitHub SSH Token 免密登录

架构实战营 毕业设计:设计电商秒杀系统

Ahu

部署MinIO存储服务的四种方式

liuzhen007

8月日更

【前端 · 面试 】HTTP 总结(十二)—— URL 和 URI

编程三昧

面试 HTTP url 8月日更

梳理会在Scrum中是活动还是事件?——《Scrum指南》重读有感(6)

Bruce Talk

Scrum 敏捷 随笔 Agile

计算机组成原理——计算机的发展历史

普普通通程序员

【Vue2.x 源码学习】第三十五篇 - 组件部分 - Vue.component 实现

Brave

源码 vue2 8月日更

Android开发:Android Studio插件GsonFormat根据Json自动生成javabean的方法

三掌柜

8月日更 8月

毕业总结

Johnny

架构实战营

从0开始的TypeScriptの七:函数

空城机

typescript 前端 8月日更

字节跳动/百度Java后台开发面经:字节跳动面试真心奇怪

程序员改bug

Java 面试

前端之算法(四)快速排序

Augus

算法 8月日更

模式包括问题和解决方案

escray

学习 极客时间 如何落地业务建模 8月日更

阿里P8亲传Java面试指南,助我一路过关斩将,成功拿到大厂Offer

Java 编程 面试 程序人生 架构师

Git 应该用 fetch 还是 pull

HoneyMoose

占楼

IT蜗壳-Tango

8月日更

在线日期计算器

入门小站

工具

持久层Mybatis中对于SQL注入的问题,聊聊你的想法?

卢卡多多

SQL优化 8月日更

https 与 http 区别

一个大红包

8月日更

配置Flink流式应用(九)

数据与智能

flink Kubernetes YARN

阿里Java社招面试真题200+:缓存+分布式+JVM+高并发+NIO+框架

程序员改bug

Java 架构 面试 编程语言

【自驱型成长】——控制感

LeifChen

压力 控制感 8月日更 自驱型成长

Linux之rcp命令

入门小站

Linux

Web框架Gin | Gin 中间件

xcbeyond

Go gin gin-middleware 8月日更

有书香气的七夕节

箭上有毒

8月日更

QDS04 TensorFlow

耳东@Erdong

tensorflow 8月日更 qds

Linux从头学:所有编程语言中的栈操作,底层原理都在这里

Java 编程 架构 面试 架构师

计算机组成原理——计算机系统的层次结构

普普通通程序员

看完这篇博客,Python Django 你就学会一半了

梦想橡皮擦

8月日更

JavaScript继承的实现方式:原型语言对象继承对象原理剖析

zhoulujun

JavaScript

万字文肝Python基础知识

ベ布小禅

8月日更

马腾宇:高效、可靠、可理解的深度学习-InfoQ