【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

深度学习先驱 Bengio 解读第二代深度学习系统:实现通用人工智能的下一步

无序分布是未来深度学习的关键

  • 2020-02-07
  • 本文字数:4596 字

    阅读完需:约 15 分钟

深度学习先驱Bengio解读第二代深度学习系统:实现通用人工智能的下一步

我们先举个例子,假设你一辈子都在美国亚利桑那州凤凰城的公路上开车,然后突然去了纽约。你需要重新学习驾驶技术吗?很可能不需要。你只需要小心一点驾驶,让自己适应新的路况环境。


但对于深度学习算法而言就不是这样了,这个前沿的人工智能领域也是自动驾驶的主要组成部分。最近几年,深度学习及其底层依赖技术——深度神经网络,尽管推动了 AI 领域的发展,但是也存在着一些基本问题没有解决,这些问题阻碍它们学习到人类大脑的一些最基础的功能。


深度学习的这些挑战众所周知,并且越来越多的科学家承认这些问题可能对 AI 的未来产生强大的阻力。


在 NeurIPS 2019(神经信息处理系统大会:Conference on Neural Information Processing Systems)大会上,深度学习三大先驱之一,Yoshua Bengio 发表了一次主题演讲,这次演讲为让我们走向具有人类水平的 AI 提供了可能的方向。Bengio 的演讲题目为“从一代深度学习系统到二代深度学习系统”,这篇演讲技术性非常强,并且介绍了他和其他人近几年做过的相关研究。


目前深度学习处于什么状态?

“有些人认为,把我们已有的技术和资源用起来,不断增加数据集大小、增加模型大小和计算机性能可能就足够了——只需要得到一个容量更大的大脑就可以了。”NeurIPS2019 大会上 Bengio 的开场白如是说。



这句简单的句子代表着目前 AI 研究中的一个主要问题。在大型数据集中进行模式检测方面,人工神经网络已经证明是非常有效的。而且,这些网络能够以可伸缩的方式做到这点。大部分情况下,增加神经网络大小,在更大的标注数据集上进行训练将增加它们的精确度(尽管是以对数级的方式增加)。


神经网络的这个特点让大家以为“越大、越好”,使得一些 AI 研究人员通过创建越来越大的 AI 模型和数据集来获得改进和突破。


尽管我们可以说,大小是一个因素,但是,我们至今还没有一个神经网络的大小能够匹配人类大脑的 1000 亿神经元结构,目前 AI 系统的一些缺陷是不能够通过增加网络大小来解决的。


“我们有些机器学习算法从样本中学到的知识面非常窄。相比人类智慧,它们学习任务时就需要更多的样本。”Bengio 说道。


例如,一个 AI 系统被训练用于玩棋类游戏或者视频游戏,那这个系统就没办法完成其他任务,甚至不能玩另一种稍微不同点的游戏。同样的,大部分情况下,深度学习算法需要数以百万的样例来学习如何完成任务。一个例子是 OpenAI 发明的玩 Dota 的神经网络,它需要 45000 年的游戏经验才能击败世界冠军,这比任何个人,或者十个人、一百个人一辈子玩游戏的时间还要长。艾伦人工智能研究所开发的一款 AI 系统 Aristo,需要 300GB 科学文章和知识图,才能回答 8 年级的多项选择题。


最后,Bengio 评论说当今的深度学习系统“会犯些愚蠢的错误”,并且“对分布的变化不是很鲁棒”。这是目前 AI 系统最关心的问题之一。神经网络容易受到对抗性样本的影响,这些样本会带来一些数据扰动,导致 AI 系统产生错误结果。


对抗性漏洞很难消除,它们会在一些对结果敏感的领域产生破坏性影响,在这些领域产生错误会带来致命后果。

从一代深度学习系统走向二代深度学习系统


尽管有局限性,目前的深度学习技术仍然复制了自然智力中的一个基本组成部分,Bengio 称之为“一代系统”认知。


“一代系统是指我们凭直觉、不自觉地做着的事情,在行为方面,我们不能通过语言来解释那些习惯性的事情,”Bengio 说道,“这是目前深度学习所擅长的。”


Bengio 对深度学习扩展的定义和该领域其他的思想领袖不谋而合。“如果一个普通人只需花费 1 秒钟来思考一个事情,我们在现阶段或者不远的将来就很可能通过 AI 把这个过程自动化。”Coursera 的联合创始人和百度 AI 以及谷歌大脑前任负责人 Andrew Ng,在 2016 年《哈佛商业评论》的一篇文章中如此写道。


深度学习已经创建了许多有用的一代系统应用,特别是在计算机视觉领域。AI 算法现在可以执行的任务包括:图像分类、物体检测和面部识别,而且精确度通常都超过人类。语音识别和语音文字转换是目前另外两个深度学习运行得很好的领域。


但是,一代系统也有局限性,甚至在深度学习取得实质性进展的领域也是如此。


Bengio 这样解释一代系统和二代系统的差异:想象一下在附近熟悉的街道上驾驶。你在这些区域常常可以下意识地导航,因为这些街道上的视觉线索你已经看过了数百次。你不需要方向指引就能够知道走哪个方向。你甚至可以在驾驶时与其他乘客进行交谈,而不用太关注驾驶任务。


但是,当你去到一个新的区域,你不大认识这里的街道,街道上的标识对你来说也都是全新的,这时候你可能就会更多地关注街道上的标识,利用地图导航,从其他标记获取帮助来找到目的地。


后者场景正是二代系统认知发挥作用的地方。它能够帮助人类在新的环境里泛化之前获取的知识和经验。“在这个场景下,你以一种更加强大的方式进行泛化,并且是以一种可解释、有意识的方式来进行的。”Bengio 在 NeurIPS 大会上说道。


“我们在二代系统里所做的事情包括编程。所以我们提出了算法、训练方法,我们可以计划、推理,使用逻辑,”Bengio 说道。“如果要使用电脑来做这些事情,通常来说,这些事情做起来会非常慢。这些事情也是我们希望未来的深度学习能够很好完成的。”

并非回归符号 AI 方法


许多文档都很好地描述了深度学习的局限性和挑战。在过去的十几年里,这方面有过许多讨论,也有很多研究用来解决各种问题,包括创建可解释的、不那么依赖数据的 AI 系统。


这个领域的一些早期方法包括使用符号人工智能元素和基于规则的方法,在深度学习方法崛起之前,这些方法处于 AI 领域的主导地位。其中一个例子是神经元符号概念学习器(Neuro-Symbolic Concept:NSCL),这是 MIT 和 IBM 研究人员开发的一种混合 AI 系统。


但是,Bengio 强调说他没有计划重新回到符号 AI 来进行研究。“一些人认为我们需要创造出全新的方法来应对这些挑战,可能要回到传统 AI 来处理诸如高级认知这样的问题。”Bengio 说道,并补充道,“从我们现在的水平扩展深度学习能力,处理二代系统认知中的高级问题,是有一条途径的。”


Bengio 坚定地认为不要回归到基于规则的 AI 方法。事实上,在演讲的某些环节中,他使用了“规则”这个词,然后又马上澄清他并不是说符号 AI 所使用的那种规则。在演讲最后,当一名与会者将 Bengio 的解决方案描述为一种 AI“混合”方法时,他再一次澄清,他并不是要提出一种结合符号 AI 和联结主义 AI 的方法。


Bengio 表达的想法与 Martin Ford 类似,Martin Ford 是《智能建筑师》一书的作者,这本书汇集了对顶尖 AI 科学家的采访。“请注意,你的大脑都是神经网络。我们必须提出不同的架构和不同的训练框架,能够做传统 AI 尝试去做而未能做到的事情,比如推理,对你所看到的东西和计划做的事情推断出一种解释。”Bengio 在 2018 年对 Ford 如是说。


在他的 NeurIPS 演讲中,Bengio 阐述了为什么符号 AI 和混合系统不能帮助我们实现二代深度学习系统。


智能系统应该能够有效地、大规模地泛化。机器学习系统能够根据可用的计算资源和数据进行扩展。而符号 AI 要求人类工程师手动指定模型行为规则,这就成为了该方法一个严重的瓶颈。


它们还应当能够应对现实世界的不确定性和混乱,在这个方面,机器学习要优于符号 AI。

实现二代深度学习系统有什么要求?

“当你学习一个新任务时,你一定想用非常少的数据来学习它,”Bengio 说道。例如,当你戴上太阳镜时,你的视觉系统输入就会变得很不一样。但是,你很快就会适应,并处理输入信息。而目前的 AI 系统在环境出现轻微的改变时,却需要重新训练。


为了在 AI 系统中复制人类的这种行为,AI 系统需要发现并处理数据和环境中的高级表示。“我们希望机器能够理解这个世界,建立优秀的世界模型,能够理解因果关系,能够通过在世界中行动来获取知识,”Bengio 说道。


在 Bengio 的演讲中,他提供了指引,用来改进深度学习系统来实现二代系统能力。指引细节非常的技术化,并且引用了最近十几年的一些研究论文和项目。但是,在他的演讲中反复出现的一些主题,为我们提供了下一步行动的线索。

无序(Out of order:OOD)分布是未来深度学习的关键


图片来自:Depositphotos


目前的机器学习系统是基于独立同分布(Independently and Identically Distributed:IID)数据假设的。基本上,机器学习算法在训练数据集和测试数据集同分布时表现得最好。这个假设在一些简单的场景下体现得最好,如抛掷硬币和扔骰子。


但是现实世界是混乱的,分布几乎从来就不是统一的。这也就是为什么机器学习工程师通常会尽可能多地收集数据,并且打乱这些数据的顺序来确保数据分布均衡,然后再把它们分为训练集和测试集。


“当我们这样做时,我们就破坏了采集的数据中固有的分布变化信息,这些信息却是十分重要的,”Bengio 说道。“相比破坏这些信息,我们应当利用它们的顺序来学习世界是如何变化的。”


智能系统应当能够泛化到不同的数据分布上,正如人类儿童能够学习来适应他们的身体以及周边环境发生的变化一样。“我们构建的系统要能够处理这些变化,能够持续学习,终生学习等等。”Bengio 在他的 NeurIPS 演讲中说道。“这是机器学习的一个长期目标,但是我们现在还没有建立起一个解决方案。”

深度学习中的注意力机制及组合性

能够帮助 AI 系统获得更加一致行为的一个概念,就是它们是如何分解数据并找到那些重要成分的。人们在这个方向已经有了一些进展,Bengio 参与了其中的一些工作。


人们在这个方向一个重要的贡献就是“注意力机制”技术,它能够让神经网络聚焦在相关信息上。注意力机制在自然语言处理(Natural Language Processing:NLP)方面具有非常重要的作用,自然语言处理是 AI 的一个分支,其处理的任务包括机器翻译和智能问答系统。


但是目前的神经网络结构运行注意力机制都基本上是基于向量运算。数据由定义特征的数值型数组表示。下一步就是要让神经网络能够基于名-值对来运行注意力机制并进行相应数据表示,这有点像基于规则程序中使用的变量表示方式。但是深度学习中的这种方式应当是更适用于深度学习表示的。


在迁移学习领域,这方面已经有了很大进展,这个领域的任务是将一个神经网络的参数映射到另一个神经网络。但是,更好的信息成分组合性能够让深度学习系统在其任务范畴内更好地提取和操作高级特征,并动态地适应新的环境,无需额外的调优及大量数据。有效的信息组合是迈向无序分布的重要一步。

具有因果结构的深度学习系统

众所周知,目前机器学习系统的主要短板之一是在因果关系的处理上,因果关系研究是围绕着寻找和匹配数据模式而展开的。Bengio 认为,让深度学习系统能够组合和操作这些命名对象和语义变量,将有助于我们走向具有因果结构的人工智能系统。


“为了促进因果结构的学习,学习器应当尝试推断其中的干预措施发生在哪里,其中的变量正是因为这些干预而发生了变化。这是我们一直在研究的事情。”Bengio 在 NeurIPS 的演讲上说道。


整场演讲包含了很多非常有价值的信息,比如意识、语言在智力中的作用以及神经领域和机器学习领域的结合。不幸的是,本篇博客不可能涵盖和展开介绍所有这些信息。我建议观看完整视频(观看两次)。


许多科学家试图推动人工智能领域向前发展,让机器向人类一样思考,而不是停留在预测和模式匹配上,Bengio 就是这些科学家之一。让我们看看科学家们的这些努力将引领我们走向何处,这真的是非常有趣。


原文链接:


https://bdtechtalks.com/2019/12/23/yoshua-bengio-neurips-2019-deep-learning/


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-02-07 12:002266
用户头像
蔡芳芳 InfoQ主编

发布了 781 篇内容, 共 496.2 次阅读, 收获喜欢 2749 次。

关注

评论

发布
暂无评论
发现更多内容

一键生成通用的web服务(gin)完整项目代码,开发效率至少提升2倍

vison

golang Web gin框架 代码自动生成

io_uring的10个技术点

linux大本营

高并发 异步 零拷贝 io_uring

大型商业银行的超级App是如何“组装”而成?

Onegun

超级app 超级应用

生活中的不确定性,如何应对?

Jack

AI能训练出符合“核心价值观”的人工智能吗?

FN0

人工智能 ChatGPT Claude

组件必知必会|那些年我们使用过的轮子—Filter和Proxy

浅羽技术

javaWeb Proxy 过滤器 组件 三周年连更

华为云 OpenTiny 跨端、跨框架企业级开源组件库项目落地实践直播即将开启!

Kagol

开源 前端 Vue 3 UI组件库

华为云数据灾备方案,做好企业数据的坚硬后盾

YG科技

算法题每日一练:组合总和 II

知心宝贝

数据结构 算法 前端 后端 三周年连更

c语言实现timer的10个技术点

linux大本营

进程 定时器, Timer 文件描述符

lwip_recv_tcp阻塞读取数据代码

linux大本营

TCP 阻塞队列

挑战 30 天学完 Python:Day10 循环语句

MegaQi

Python3 挑战30天学完Python 三周年连更

一文读懂物联网 MQTT 协议之实战篇

老周聊架构

三周年连更

火山引擎边缘云,助力业务敏捷创新

火山引擎边缘云

CDN 边缘计算 火山引擎 边缘云

怎么用systemd进行进程守护

linux大本营

Linux 进程 守护进程

小程序自定义组件开发

程序员海军

小程序 三周年连更

华为云数据灾备解决方案,助力企业守好安全防线

YG科技

Android动画之帧动画

智趣匠

android App 三周年连更

程序踩内存后,应该怎么排查

linux大本营

进程 内存管理 内存泄漏 C++

C++如何拿到线程池的返回值

linux大本营

线程池 C++

OpenResty接口的详细讲解

linux大本营

负载均衡 反向代理 openresty 网关 HTTP服务

OpenCV图像模糊操作(1) | 社区征文

A小调协奏曲

OpenCV C++ 三周年连更

AI视觉实战1:实时人脸检测

轻口味

android AI 三周年连更

xnginx在安全网关的应用场景

linux大本营

openresty 网关 web服务器

Go HTTP 调用

陈明勇

Go golang HTTP 三周年连更

2023-04-20:有一堆石头,用整数数组 stones 表示 其中 stones[i] 表示第 i 块石头的重量。 每一回合,从中选出任意两块石头,然后将它们一起粉碎 假设石头的重量分别为 x 和

福大大架构师每日一题

golang 算法 rust 福大大

借由Net5.5G,看到运营商的新沧海

脑极体

5.5G

薪资结构重铸: Zebec将业务范围扩大到Web2薪资管理领域

股市老人

OceanBase 4.1解读:我们想给用户一个开箱即用的OceanBase部署运维工具

OceanBase 数据库

数据库 oceanbase

薪资结构重铸: Zebec将业务范围扩大到Web2薪资管理领域

EOSdreamer111

Django笔记十二之defer、only指定返回字段

Hunter熊

Python django defer only

深度学习先驱Bengio解读第二代深度学习系统:实现通用人工智能的下一步_文化 & 方法_Ben Dickson_InfoQ精选文章