我们先举个例子，假设你一辈子都在美国亚利桑那州凤凰城的公路上开车，然后突然去了纽约。你需要重新学习驾驶技术吗？很可能不需要。你只需要小心一点驾驶，让自己适应新的路况环境。

但对于深度学习算法而言就不是这样了，这个前沿的人工智能领域也是自动驾驶的主要组成部分。最近几年，深度学习及其底层依赖技术——深度神经网络，尽管推动了AI领域的发展，但是也存在着一些基本问题没有解决，这些问题阻碍它们学习到人类大脑的一些最基础的功能。

深度学习的这些挑战众所周知，并且越来越多的科学家承认这些问题可能对AI的未来产生强大的阻力。

在NeurIPS 2019（神经信息处理系统大会：Conference on Neural Information Processing Systems）大会上，深度学习三大先驱之一，Yoshua Bengio发表了一次主题演讲，这次演讲为让我们走向具有人类水平的AI提供了可能的方向。Bengio的演讲题目为“从一代深度学习系统到二代深度学习系统”，这篇演讲技术性非常强，并且介绍了他和其他人近几年做过的相关研究。

目前深度学习处于什么状态？

“有些人认为，把我们已有的技术和资源用起来，不断增加数据集大小、增加模型大小和计算机性能可能就足够了——只需要得到一个容量更大的大脑就可以了。”NeurIPS2019大会上Bengio的开场白如是说。

这句简单的句子代表着目前AI研究中的一个主要问题。在大型数据集中进行模式检测方面，人工神经网络已经证明是非常有效的。而且，这些网络能够以可伸缩的方式做到这点。大部分情况下，增加神经网络大小，在更大的标注数据集上进行训练将增加它们的精确度（尽管是以对数级的方式增加）。

神经网络的这个特点让大家以为“越大、越好”，使得一些AI研究人员通过创建越来越大的AI模型和数据集来获得改进和突破。

尽管我们可以说，大小是一个因素，但是，我们至今还没有一个神经网络的大小能够匹配人类大脑的1000亿神经元结构，目前AI系统的一些缺陷是不能够通过增加网络大小来解决的。

“我们有些机器学习算法从样本中学到的知识面非常窄。相比人类智慧，它们学习任务时就需要更多的样本。”Bengio说道。

例如，一个AI系统被训练用于玩棋类游戏或者视频游戏，那这个系统就没办法完成其他任务，甚至不能玩另一种稍微不同点的游戏。同样的，大部分情况下，深度学习算法需要数以百万的样例来学习如何完成任务。一个例子是OpenAI发明的玩Dota的神经网络，它需要45000年的游戏经验才能击败世界冠军，这比任何个人，或者十个人、一百个人一辈子玩游戏的时间还要长。艾伦人工智能研究所开发的一款AI系统Aristo，需要300GB科学文章和知识图，才能回答8年级的多项选择题。

最后，Bengio评论说当今的深度学习系统“会犯些愚蠢的错误”，并且“对分布的变化不是很鲁棒”。这是目前AI系统最关心的问题之一。神经网络容易受到对抗性样本的影响，这些样本会带来一些数据扰动，导致AI系统产生错误结果。

对抗性漏洞很难消除，它们会在一些对结果敏感的领域产生破坏性影响，在这些领域产生错误会带来致命后果。

从一代深度学习系统走向二代深度学习系统

尽管有局限性，目前的深度学习技术仍然复制了自然智力中的一个基本组成部分，Bengio称之为“一代系统”认知。

“一代系统是指我们凭直觉、不自觉地做着的事情，在行为方面，我们不能通过语言来解释那些习惯性的事情，”Bengio说道，“这是目前深度学习所擅长的。”

Bengio对深度学习扩展的定义和该领域其他的思想领袖不谋而合。“如果一个普通人只需花费1秒钟来思考一个事情，我们在现阶段或者不远的将来就很可能通过AI把这个过程自动化。”Coursera的联合创始人和百度AI以及谷歌大脑前任负责人Andrew Ng，在2016年《哈佛商业评论》的一篇文章中如此写道。

深度学习已经创建了许多有用的一代系统应用，特别是在计算机视觉领域。AI算法现在可以执行的任务包括：图像分类、物体检测和面部识别，而且精确度通常都超过人类。语音识别和语音文字转换是目前另外两个深度学习运行得很好的领域。

但是，一代系统也有局限性，甚至在深度学习取得实质性进展的领域也是如此。

Bengio这样解释一代系统和二代系统的差异：想象一下在附近熟悉的街道上驾驶。你在这些区域常常可以下意识地导航，因为这些街道上的视觉线索你已经看过了数百次。你不需要方向指引就能够知道走哪个方向。你甚至可以在驾驶时与其他乘客进行交谈，而不用太关注驾驶任务。

但是，当你去到一个新的区域，你不大认识这里的街道，街道上的标识对你来说也都是全新的，这时候你可能就会更多地关注街道上的标识，利用地图导航，从其他标记获取帮助来找到目的地。

后者场景正是二代系统认知发挥作用的地方。它能够帮助人类在新的环境里泛化之前获取的知识和经验。“在这个场景下，你以一种更加强大的方式进行泛化，并且是以一种可解释、有意识的方式来进行的。”Bengio在NeurIPS大会上说道。

“我们在二代系统里所做的事情包括编程。所以我们提出了算法、训练方法，我们可以计划、推理，使用逻辑，”Bengio说道。“如果要使用电脑来做这些事情，通常来说，这些事情做起来会非常慢。这些事情也是我们希望未来的深度学习能够很好完成的。”

并非回归符号AI方法

许多文档都很好地描述了深度学习的局限性和挑战。在过去的十几年里，这方面有过许多讨论，也有很多研究用来解决各种问题，包括创建可解释的、不那么依赖数据的AI系统。

这个领域的一些早期方法包括使用符号人工智能元素和基于规则的方法，在深度学习方法崛起之前，这些方法处于AI领域的主导地位。其中一个例子是神经元符号概念学习器（Neuro-Symbolic Concept：NSCL），这是MIT和IBM研究人员开发的一种混合AI系统。

但是，Bengio强调说他没有计划重新回到符号AI来进行研究。“一些人认为我们需要创造出全新的方法来应对这些挑战，可能要回到传统AI来处理诸如高级认知这样的问题。”Bengio说道，并补充道，“从我们现在的水平扩展深度学习能力，处理二代系统认知中的高级问题，是有一条途径的。”

Bengio坚定地认为不要回归到基于规则的AI方法。事实上，在演讲的某些环节中，他使用了“规则”这个词，然后又马上澄清他并不是说符号AI所使用的那种规则。在演讲最后，当一名与会者将Bengio的解决方案描述为一种AI“混合”方法时，他再一次澄清，他并不是要提出一种结合符号AI和联结主义AI的方法。

Bengio表达的想法与Martin Ford类似，Martin Ford是《智能建筑师》一书的作者，这本书汇集了对顶尖AI科学家的采访。“请注意，你的大脑都是神经网络。我们必须提出不同的架构和不同的训练框架，能够做传统AI尝试去做而未能做到的事情，比如推理，对你所看到的东西和计划做的事情推断出一种解释。”Bengio在2018年对Ford如是说。

在他的NeurIPS演讲中，Bengio阐述了为什么符号AI和混合系统不能帮助我们实现二代深度学习系统。

智能系统应该能够有效地、大规模地泛化。机器学习系统能够根据可用的计算资源和数据进行扩展。而符号AI要求人类工程师手动指定模型行为规则，这就成为了该方法一个严重的瓶颈。

它们还应当能够应对现实世界的不确定性和混乱，在这个方面，机器学习要优于符号AI。

实现二代深度学习系统有什么要求？

“当你学习一个新任务时，你一定想用非常少的数据来学习它，”Bengio说道。例如，当你戴上太阳镜时，你的视觉系统输入就会变得很不一样。但是，你很快就会适应，并处理输入信息。而目前的AI系统在环境出现轻微的改变时，却需要重新训练。

为了在AI系统中复制人类的这种行为，AI系统需要发现并处理数据和环境中的高级表示。“我们希望机器能够理解这个世界，建立优秀的世界模型，能够理解因果关系，能够通过在世界中行动来获取知识，”Bengio说道。

在Bengio的演讲中，他提供了指引，用来改进深度学习系统来实现二代系统能力。指引细节非常的技术化，并且引用了最近十几年的一些研究论文和项目。但是，在他的演讲中反复出现的一些主题，为我们提供了下一步行动的线索。

无序（Out of order：OOD）分布是未来深度学习的关键

图片来自：Depositphotos

目前的机器学习系统是基于独立同分布（Independently and Identically Distributed：IID）数据假设的。基本上，机器学习算法在训练数据集和测试数据集同分布时表现得最好。这个假设在一些简单的场景下体现得最好，如抛掷硬币和扔骰子。

但是现实世界是混乱的，分布几乎从来就不是统一的。这也就是为什么机器学习工程师通常会尽可能多地收集数据，并且打乱这些数据的顺序来确保数据分布均衡，然后再把它们分为训练集和测试集。

“当我们这样做时，我们就破坏了采集的数据中固有的分布变化信息，这些信息却是十分重要的，”Bengio说道。“相比破坏这些信息，我们应当利用它们的顺序来学习世界是如何变化的。”

智能系统应当能够泛化到不同的数据分布上，正如人类儿童能够学习来适应他们的身体以及周边环境发生的变化一样。“我们构建的系统要能够处理这些变化，能够持续学习，终生学习等等。”Bengio在他的NeurIPS演讲中说道。“这是机器学习的一个长期目标，但是我们现在还没有建立起一个解决方案。”

深度学习中的注意力机制及组合性

能够帮助AI系统获得更加一致行为的一个概念，就是它们是如何分解数据并找到那些重要成分的。人们在这个方向已经有了一些进展，Bengio参与了其中的一些工作。

人们在这个方向一个重要的贡献就是“注意力机制”技术，它能够让神经网络聚焦在相关信息上。注意力机制在自然语言处理（Natural Language Processing：NLP）方面具有非常重要的作用，自然语言处理是AI的一个分支，其处理的任务包括机器翻译和智能问答系统。

但是目前的神经网络结构运行注意力机制都基本上是基于向量运算。数据由定义特征的数值型数组表示。下一步就是要让神经网络能够基于名-值对来运行注意力机制并进行相应数据表示，这有点像基于规则程序中使用的变量表示方式。但是深度学习中的这种方式应当是更适用于深度学习表示的。

在迁移学习领域，这方面已经有了很大进展，这个领域的任务是将一个神经网络的参数映射到另一个神经网络。但是，更好的信息成分组合性能够让深度学习系统在其任务范畴内更好地提取和操作高级特征，并动态地适应新的环境，无需额外的调优及大量数据。有效的信息组合是迈向无序分布的重要一步。

具有因果结构的深度学习系统

众所周知，目前机器学习系统的主要短板之一是在因果关系的处理上，因果关系研究是围绕着寻找和匹配数据模式而展开的。Bengio认为，让深度学习系统能够组合和操作这些命名对象和语义变量，将有助于我们走向具有因果结构的人工智能系统。

“为了促进因果结构的学习，学习器应当尝试推断其中的干预措施发生在哪里，其中的变量正是因为这些干预而发生了变化。这是我们一直在研究的事情。”Bengio在NeurIPS的演讲上说道。

整场演讲包含了很多非常有价值的信息，比如意识、语言在智力中的作用以及神经领域和机器学习领域的结合。不幸的是，本篇博客不可能涵盖和展开介绍所有这些信息。我建议观看完整视频（观看两次）。

许多科学家试图推动人工智能领域向前发展，让机器向人类一样思考，而不是停留在预测和模式匹配上，Bengio就是这些科学家之一。让我们看看科学家们的这些努力将引领我们走向何处，这真的是非常有趣。

原文链接：

https://bdtechtalks.com/2019/12/23/yoshua-bengio-neurips-2019-deep-learning/

创作场景

深度学习先驱 Bengio 解读第二代深度学习系统：实现通用人工智能的下一步