深度学习的下一步是什么？

本文最初发布于亚马逊官方博客，由 InfoQ 中文站翻译并分享。

亚马逊副总裁兼著名科学家 Nikko Ström 认为，整合符号推理和从与世界的互动中有效地学习是尚待解决的两个主要挑战。

不久前人工智能发展协会（AAAI）举行了年度会议，其首次会议是在 1980 年举行的。但其人工智能渊源可以追溯到更早的时候：它第一任两位主席分别是 John McCarthy 和 Marvin Minsky，他们都参加了 1956 年达特茅斯夏季人工智能研究项目（Dartmouth Summer Research Project on Artificial Intelligence）。该项目使人工智能成为一个独立的研究领域。

和所有的人工智能大会一样，AAAI 也被深度学习革命所改变。许多人认为那可以追溯到2012年，当时 Alex Krizhevsky、Ilya Sutskever 和 Geoff Hinton 的深度网络 AlexNet 以比第二名低 40%的错误率赢得了 ImageNet 物体识别挑战。

在该论文发表 10 周年之际，并考虑到在漫长的历史中，AAAI 见证了人工智能研究趋势的来龙去脉，亚马逊科学认为，这可能是一个思考深度学习革命后时代的好时机。因此，我们邀请 Alexa AI 组织副总裁兼著名科学家 Nikko Ström 谈谈他的想法。

首先，Ström 对革命开始的时间提出了质疑。

“现代深度学习大约于 2010 年始于 Hinton 的实验室，“Ström 说。”语音是第一个应用。有一个提升准确性的阶梯函数，就像在图像处理中一样。那时的语音识别系统，错误率到下一年减少了 30%，因为他们开始使用这些方法。计算机视觉是一个比语音识别大一点的领域，将问题可视化是理解问题的一种简单方法。因此，也许这就是为什么像 ImageNet 或视觉任务这样的东西更容易入门的原因。”

其次，Ström 认为，“深度学习的下一步是什么”这个提法可能不是很好，因为为了吸纳人工智能领域的创新，深度学习的定义在不断演进。

“在 20 世纪 70 年代，Joel Moses 有一句关于 Lisp 的名言，”Ström 说。“‘Lisp 就像一个泥团。添加再多的东西，也仍然是一个泥团——看起来还是像 Lisp’。随着时间的推移，‘深度学习’这个名称已经被应用于许多不同类型的模型，它开始像一个积聚了所有 AI 成果的泥团。

“一开始，当我们从事语音和计算机视觉分类任务时，没有人真正想过GAN这样的生成式模型，所以这是一个非常不同的东西，虽然我们仍然称之为深度学习。AlphaGo 系统将深度学习与其他东西相结合，比如概率信念树。在国际象棋或围棋中，深度学习非常擅长评估棋盘位置，但也有前瞻性：如果我走这一步，棋盘就会变成那样。这个位置好吗？因此，这不仅仅是深度学习；它也在评估一棵树的所有分支。

“然后，将深度神经网络应用于强化学习变得十分重要。因此，人工智能有许多不同的方面被引入，现在我们全都称为深度学习。”

符号推理

人工智能研究的历史有时被描述为符号推理和机器学习这两种不同方法之间的拉锯战。在 AAAI 的第一个十年中，符号推理占主导地位，但机器学习在 20 世纪 90 年代开始崭露头角，随着深度学习革命的到来，它接管了这个领域。

但是，Ström 说，符号推理只是不断扩大的深度学习泥团最终可能会用到的另一套方法。

“转换网络有一种叫做注意力的东西，”Ström 说。“网络中有一个向量，我们可以让网络关注这个向量，而不是所有其他的信息。如果你有一个信息知识库，就可以用代表该知识库中事实的向量来预先填充它。然后，你可以让网络学会根据输入的内容来关注正确的知识片断。我们就是这样将结构化的世界知识与深度学习系统相结合。

“还有图神经网络，它可以表示关于世界的知识。该网络中有结点，结点之间有边，表示结点之间的关系。因此，举例来说，你可以用节点表示实体，然后是实体之间的关系。我们可以使用注意力来锁定知识图谱中对当前语境或问题来说比较重要的部分。

“在非常抽象的层面上，我觉得我们都知道，我们可以在一个图中表示所有的知识。只是，我们怎样才能以一种适合这项任务的、有效的方式来完成它？

“Hinton 很早以前就有这个想法；他把它称之为思想矢量。你的任何想法，我们都可以用一个向量来表示。有趣的是，我们可以在图中表示任何东西，其实，从另一方面讲，为了让它与深度学习模型相契合，我们也必须有个东西能用它表示任何东西。这恰好就是向量。所以我们可以在这两者之间进行映射。”

互动学习

Ström 说，深度学习范式可能还将继续吸纳其他计算方法，该范式的主要缺点就是学习效率低。毕竟，人类认识一种新的动物并不需要一百万个例子。

当学习过程是一组计算机对存储在自己硬盘上的数据进行几天或几周的处理时，这种低效率可能是可以接受的。但如果是一个人工智能代理试图从与世界的直接互动中学习，这就完全不切实际了。在 Ström 看来，这种互动学习是当今人工智能领域主要的研究挑战之一。

“深度学习系统不具备我们所有的先验知识，”Ström 解释说。“它不知道图像中的狗生活在一个可以旋转的三维世界中，而我们对它的另一侧有一个认知，因为我们认为它是对称的，诸如此类。

“当然，为了能够完成这些事情，网络会接受专门的训练——旋转狗，以便能看到它的后面。但我认为，在大多数情况下，它是从数据训练中学习的。如果你知道这种对称性，你可以使用 CGI 生成这些数据：你有一个狗的模型，把它旋转一下，并作为训练数据输入，系统将学习三维世界的概念和旋转的狗。

“这个领域可能需要一些算法上的创新。但我很乐观。它在进化：现在全世界有这么多人在研究这个问题，即使有点随机性，也会有人提出一些好的想法，把它们结合起来，最终我们就会得到一些东西。”

查看英文原文：

https://www.amazon.science/blog/whats-next-for-deep-learning

创作场景

深度学习的下一步是什么？

符号推理

互动学习