Facebook人工智能负责人Yann LeCun谈深度学习的局限性_语言 & 开发_张天雷

限时领｜《AI 百问百答》专栏课+实体书（包邮）！了解详情 



 写点什么

6 月 7 日到 12 日，世界顶级的计算机视觉会议 CVPR 在美国波士顿召开，会议邀请了 Facebook 人工智能实验室主任、NYU 数据科学中心创始人、深度学习界的泰斗 Yann LeCun 做了题为“What’s Wrong with Deep Learning?”的主题报告。早在 20 世纪 80 年代末，Yann LeCun 就作为贝尔实验室的研究员开发出了卷积网络技术，并使用它大幅度提高了手写字符的识别能力，目前美国许多手写支票依然是采用他的方法在进行处理。上世纪末到本世纪初，当神经网络失宠，Yann LeCun 是少数几名一直坚持研究的科学家之一。他于 2003 年成为纽约大学教授，在 2013 年底加入 Facebook 负责新成立的人工智能实验室，并一直引领着深度学习的发展。

最近几年，深度学习在自然图像理解和语音识别等多个领域产生了深远的影响。2006 年，Geoffrey Hinton 提出了深度学习。受益于大数据的出现和大规模计算能力的提升，深度学习已然成为最活跃的计算机研究领域之一。深度学习的概念源于人工神经网络的研究。在Yann LeCun 的报告中，他首先回顾了人工神经网络的发展，也介绍了人工神经网络方法在字符识别、目标对象检测、语义分割等领域所取得的成功应用，但同时，他更多的指出了深度学习所面临的诸多的局限性。

首先，缺乏理论支持。对于深度学习架构，存在一系列的疑问，卷积神经网络为什么是一个好的架构（事实上其存在梯度散射等缺点），深度学习的结构需要多少隐层，在一个大的卷积网络中到底需要多少有效的参数（很多权重相互之间似乎都存在冗余），随机梯度下降方法优化权重得到一个局部最优值。虽然深度学习在很多实际的应用中取得了突出的效果，但这些问题一直困扰着深度学习的研究人员。深度学习方法常常被视为黑盒，大多数的结论确认都由经验而非理论来确定。不管是为了构建更好的深度学习系统，还是为了提供更好的解释，深度学习都还需要更完善的理论支撑。

其次，缺乏推理能力。深度学习技术缺乏表达因果关系的手段，缺乏进行逻辑推理的方法。解决这个问题的一种典型方法是将深度学习与结构化预测相结合。目前几个带有结构化预测模块的增强的深度学习系统已经被提出来用于OCR，身体姿态检测，和语义分割等任务中。总的来说，更多新的思路应该被提出以应用于需要复杂推理的任务中。尽管深度学习和简单推理已经应用于语音和手写字识别很长一段时间了，我们仍需要在大的向量上使用新的范式来代替基于规则的字符表达式操作。最终，那些结合了复杂推理和表示学习的系统将为人工智能带来巨大的进步。

第三，缺乏短时记忆能力。人类的大脑有着惊人的记忆功能，我们不仅能够识别个体案例，更能分析输入信息之间的整体逻辑序列。这些信息序列富含有大量的内容，信息彼此间有着复杂的时间关联性。例如在自然语言理解的许多任务（例如问答系统）中需要一种方法来临时存储分隔的片段，正确解释视频中的事件并能够回答有关它的问题需要记住的视频中发生的事件的抽象表示。包括递归神经网络在内的深度学习系统，都不能很好地存储多个时间序列上的记忆。这使得研究人员提出在神经网络中增加独立的记忆模块，如LSTM，记忆网络（Memory Networks），神经图灵机（Neural Turing Machines），和Stack 增强RNN（stack-Augmented RNN）。虽然这些方法很有意思，也取得了一定的成果，但在未来仍需要更多的新的思路。

最后，缺乏执行无监督学习的能力。无监督学习在人类和动物的学习中占据主导地位，我们通过观察能够发现世界的内在结构，而不是被告知每一个客观事物的名称。有趣的是，在机器学习领域，神经网络的复兴恰恰是在无监督学习取得不断进度的2000s 中期，虽然无监督学习可以帮助特定的深度网络进行“预训练”，但最终绝大部分能够应用于实践的深度学习方法都是使用纯粹的有监督学习。这并不能代表非监督学习在深度学习中没有作用，反而具有非常大的潜力，因为我们拥有的非标记数据比标记数据多得多，只是我们还没有找到很合适的非监督学习算法，非监督学习在未来存在巨大的研究空间。毫无疑问，今后计算机视觉的进步有赖于在无监督学习上取得突破，尤其是对于视频的理解。

深度学习可以让那些拥有多个处理层的计算模型来学习具有多层次抽象的数据的表示。这些方法在许多方面都带来了显著的改善，包括最先进的语音识别、视觉对象识别、对象检测以及许多其它领域，例如药物发现和基因组学等。当深度学习在业界掀起一片繁荣景象的时候， Yann LeCun 的报告在最恰当的时候为我们指出了深度学习当前所面临的局限性，同时也为大量深度学习的从业人员指明了未来需要攻克的方向。

值得补充的是，为纪念人工智能提出 60 周年，《Nature》杂志在 2015 年 5 月 28 日专门开辟了一个“人工智能 + 机器人”专题，发表多篇相关论文，其中包括了 Yann LeCun、Yoshua Bengio 和 Geoffrey Hinton 首次合作的综述性文章 “ Deep Learning ”。文章介绍了深度学习的基本原理和核心优势，最后谈到深度学习的未来方向：1）无监督学习；2）深度学习在机器视觉和自然语言理解上的突破；3）深度学习与复杂推理的结合。这也正好契合了 Yann LeCun 在报告中所谈到的深度学习所面临的局限性。

Yann LeCun 在 CVPR 2015 上关于深度学习局限性的报告见这里，你也可以在 Hacker News 上参与相关的讨论。

本文由黄立威、张天雷整理，感谢徐川对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ， @丁晓昀），微信（微信号： InfoQChina ）关注我们，并与我们的编辑和其他读者朋友交流（欢迎加入 InfoQ 读者交流群）。

发布

暂无评论

创作场景

Facebook 人工智能负责人 Yann LeCun 谈深度学习的局限性

评论

OHDC.2025 | Web与W3C标准分论坛：共商共建，共筑未来

数据仓库 vs 数据库：核心区别与应用场景全解析

东方通＆openEuler Meetup走进高校携手年轻开发者解锁云原生开发效率变革

直播APP的技术难点

OHDC.2025 | AI分论坛：探索开源鸿蒙AI无限可能

户外防水租赁LED显示屏报价与选择攻略

鸿蒙版微信小程序不可用，一文告诉你10分钟修复

论文解读 - 统一的多模态理解和生成模型综述（上）

纯前端实现图片伪3D视差效果

日本房产中介龙头为何放弃 Salesforce，转向开源平台 NocoBase？

联想个人云轻松打造私有云！贝锐花生壳内网穿透实现高速远程访问

直播APP的开发流程

百亿厂补 “粽”情钜惠捷途汽车端午大促活动限时开启

直播APP的开发框架

低代码开发模式下的应用交付效率优化：拖拽式交互机制研究

【 HGDD 荣耀开发者日】系列活动丨荣耀应用市场联合维科网，推动应用分发“数智化”赋能

【干货】手把手教你把Trae改造成你的专属AI写作助手

OHDC.2025 | 大屏生态分论坛：共建共享，共赢未来

OHDC.2025 | Watch生态分论坛：共绘腕间设备新蓝图

基于YOLOv8的路面缝隙精准识别项目【完整源码数据集+PyQt5界面+完整训练流程+开箱即用！】

618来袭！强性能、快散热、高颜值，搭载英特尔酷睿Ultra处理器的华硕笔记本带来非凡体验

观测云产品更新 | SIEM、监控、基础设施、异常追踪等

华为云云应用引擎CAE，重塑企业AI Agent最佳运行态

OHDC.2025 | 硬件生态分论坛：共筑开源鸿蒙硬件新生态

“全球金牌敏捷课程” · 6月10-12日CSM认证课程

KADC 2025，筑起行业智能化的算力屏障

im即时通讯软件BeeWorks：流程审批助力企业高效管理

ArkUI-X添加到现有Android项目中

2025 BOE(京东方)全球供应伙伴大会隆重举行共筑全球显示产业共生共赢新格局

BeeWorks：云盘存储与在线编辑，开启高效办公新时代

CST软件PCB热仿真2--直流热源（IR drop）+ 元件热源

创作场景

Facebook 人工智能负责人 Yann LeCun 谈深度学习的局限性

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载