写点什么

现代语言学之父乔姆斯基谈深度学习的未来

2020 年 12 月 26 日

现代语言学之父乔姆斯基谈深度学习的未来

作者自述:过去几周,我一直在和我最喜欢的无政府主义者诺姆·乔姆斯基进行电子邮件交流。我最初联系他是想问他,人工神经网络(ANN)的最新发展是否会促使他重新考虑他著名的语言理论——普遍语法(Universal Grammar)。我们的谈话内容涉及深度学习可能存在的局限性,以及神经网络可以在多大程度上模拟生物大脑,还涉及到了更具哲学性的领域。在这篇文章中,我不会直接引用乔姆斯基教授的话,因为我们的讨论是非正式的,但我将尝试总结其中的要点。


本文最初发布于 Towards Data Science 博客,由 InfoQ 中文站翻译并分享。


乔姆斯基是谁?


乔姆斯基首先是位语言学教授(被许多人称为“现代语言学之父”),但在学术圈之外,他更为知名的身份可能是活动家、哲学家和历史学家。他出版了 100 多本书,并在 2005 年《外交政策与展望》杂志进行的民意调查中被评为世界头号公共知识分子。


郑重声明,我是乔姆斯基作品的崇拜者,尤其是他对美帝国主义、新自由主义和媒体的批评。我们的观点略有分歧的地方在于他对欧洲大陆哲学家(尤其是法国后结构主义者)的驳斥。或许,我在成年早期太过频繁地从福柯、拉康和德里达那里汲取灵感,因此受到了毒害,但我总是发现,乔姆斯基的哲学分析方法在道德上很有吸引力,但有点过于“干净”,对于我们的世界,无法给出令人满意地解释。虽然乔姆斯基对那些后结构主义杰出人物的蔑视显而易见,但他的哲学观点比他的批评者对他的赞扬更加微妙。



普遍语法


我从一开始就声明了,我不是语言学家,但在这一部分,我将试着大概介绍下普遍语法理论。在乔姆斯基之前,语言学中占主导地位的假设是,人类的大脑天生是“白板”(就像一块空白的石板),通过强化获得语言。也就是说,孩子们听到父母说话,他们会模仿他们听到的声音,当他们正确地使用一个单词或构造一个句子时,他们会受到表扬。乔姆斯基的研究表明,强化作用只是其中的一个原因,人类大脑中肯定存在一种与生俱来的结构,这种结构是普遍存在的,能够促进语言学习。他的主要论点是:


  1. 儿童获得语言的速度太快,而且数据太少,无法用强化学习来解释(也被称为“刺激贫乏”)。

  2. 即使在与人类相同的数据面前,动物也无法获得语言。20 世纪 60 年代有一个著名的实验,语言学家试图教一只黑猩猩(名为“尼姆•乔姆斯基”)学习手语,但 10 年后,它仍然无法交流,只能完成一些基本的任务。

  3. 所有人类语言之间都有共性。这表明,即使语言是独立发展的,但在所有人类大脑的共同结构中,仍然存在着普遍性的特征。

  4. 孩子们并不是天生只能学习一种特定的语言。如果你把一个在肯尼亚出生的孩子带到德国长大,他们学习德语就会和德国孩子一样容易。


这种关于基因硬编码语言能力的理论在科学界被广泛接受,但显然,接下来人们会问,“这种普遍语法实际上是什么样子?”很快,勇敢的研究人员就开始着手探索所有人类语言的共同特性,但是,对于我们天生的语言能力是什么形式,目前仍然没有形成共识。可以肯定的是,普遍语法并不包含具体的句法规则,而更可能是一种基本的认知功能。


乔姆斯基假设,在人类历史的某个阶段,人类发展出了一种执行简单递归过程的能力,他称之为“合并(Merge)”,这就是我们在人类语言中看到的句法结构的属性和约束。这有点抽象(太复杂了,一下也说不清楚),但本质上“合并”是将两个对象合并成一个新对象的过程。虽然看似平淡无奇,但在脑海中组合概念并递归地完成这一操作的能力,却强大得令人难以置信,使得我们能够构建“无数种层级结构的表达式”。


这一微小但至关重要的基因飞跃不仅可以解释我们的语言交流能力,还可以(至少是部分地)解释我们的数学天赋和人类创造力。这种大约 10 万年前发生在我们的其中一位祖先身上的“合并”突变,可能是区分人类和其他动物的关键因素之一。

人工神经网络


我联系乔姆斯基教授的主要原因是,我想听听他对人工神经网络(我对这个话题的了解比对语言学的了解多得多)的看法。人工神经网络是机器学习模型的一个子集,它大致地模仿人类大脑,以类似的方式学习(通过大量样本)。这些模型只需要很少的硬编码,并且可以用相对简单的架构执行相当广泛的复杂任务(例如图像标记、语音识别、文本生成)。由谷歌开发的 AlphaGo Zero 模型是这种方法的一个有指导意义的示例,它学会了下围棋(一种复杂且具有挑战性的棋类游戏),最终成为人类世界冠军不可战胜的对手。


最令人印象深刻的是,经过训练后,它能在没有硬编码或人工干预(也就是“白板”)的情况下完成这一切。虽然人工神经网络肯定不是人类大脑的完美类比,但我问乔姆斯基教授,这些模型是否表明,实际上我们不需要硬编码的认知结构来从分散的数据中学习。


乔姆斯基实事求是地指出,ANN 适用于高度专门化的任务,但是这些任务必须受到严格的限制(尽管得益于现代计算机的内存和速度,其适用范围可能会显得很大)。他把人工神经网络比作适用于高层建筑的大型起重机;虽然这两种工具都令人印象深刻,但它们都存在于具有固定边界的系统中。


这一推理思路与我的观察一致,即我所目睹的所有深度学习方面的突破都发生在非常特定的领域,我们似乎没有接近任何类似通用人工智能的东西(不管这意味着什么)。


乔姆斯基还指出,越来越多的证据表明,人工神经网络并不能准确地模拟人类认知,人类认知更丰富,其涉及到的计算系统甚至可以扩展到细胞水平。


如果乔姆斯基是对的(我认为他是正确的),那么深度学习研究可能的发展结果是什么?归根结底,人类的大脑并没有什么神奇之处。它只是一个由原子组成的物理结构,因此,我们完全有理由相信,在未来的某个时候,我们可能能够创造出具有普遍智能的人工版本。也就是说,目前的人工神经网络只是提供了这种认知的一个模拟,根据乔姆斯基的逻辑,如果我们不首先提高自己对有机神经网络运行机制的理解,就不可能到达下一个前沿。

道德相对主义


现代数据科学家担忧的一个突出问题是,如何以合乎道德的方式使用人工智能,但有时,在其他具体的领域中,其边界会比较模糊和主观。乔姆斯基的工作为深度学习的未来提供了独特的技术视角,普遍语法也具有深刻的道德含义,因为语言是我们探讨和解释世界的方式。例如,乔姆斯基的观点是,上述固有的神经结构排除了道德相对主义,而且必须存在普遍的道德约束。


道德相对主义有许多不同的形式,但其核心原则是,道德认定没有客观依据。道德相对主义者称,尽管我们可能深信诸如“奴隶制不道德”这样的说法,但我们没有实用的方法来向持不同意见的人证明这一点,因为任何证据都必然依赖于价值判断,而我们的价值观归根结底是外生的,由文化和经验决定。


乔姆斯基认为,道德根植在大脑中,因此,从定义上讲,道德是一种生物系统。所有的生物系统都会变异(自然地,或是因为不同的刺激),但它们也有局限性。以人类的视觉系统为例:实验表明,视觉系统具有一定的可塑性,并受到经验的影响(尤其是在幼儿时期)。通过改变提供给人类视觉系统的数据,就可以真正地改变感受器的分布,从而改变个体感知水平线和垂直线的方式。


然而,你无法把人类的眼睛变成昆虫的眼睛,或者赋予某人看到 X 射线的能力。乔姆斯基认为,生物系统(包括道德)可以大幅变化,但不是无限的。他接着说,即使你相信我们的道德完全源自文化,你仍然需要以同样的方式获得文化,就像你获得任何体系一样(这归因于与生俱来的普遍存在的认知结构)。


对于这种解读,我最初持保留意见,如果我们假设道德只是“合并”(或同样原始的东西)的结果,那么这可能会带来理论上的局限,而我的直觉是,我们的道德可以变化如此之大,以至于实际上不可能做出普适性的陈述。过去,乔姆斯基讨论过道德进步似乎会遵循某些趋势(例如接受差异、拒绝压迫等等),但我看不出来,这些广泛的趋势在从如此简单的原子认知结构中出现时如何保持一致。


当我向乔姆斯基教授提出这一观点时,他认为这是种错觉,当我们不理解事物时,它们看起来比实际情况更加多样化和复杂。他举了寒武纪大爆发以来动物身体结构变化的例子。仅仅在 60 年前,生物学的主流观点还是,生物体的差异如此巨大,对于其中的每一种,都必须以个体为基础进行研究,但现在我们知道,这是完全错误的,物种之间的遗传变异相当小。在复杂的后天系统中,变异必定很小,否则我们无法获得。


查看英文原文:


https://towardsdatascience.com/noam-chomsky-on-the-future-of-deep-learning-2beb37815a3e


2020 年 12 月 26 日 09:00886
用户头像
陈思 InfoQ编辑

发布了 575 篇内容, 共 202.1 次阅读, 收获喜欢 1177 次。

关注

评论

发布
暂无评论
发现更多内容

三分钟热度的干劲

落曦

第七周总结

andy

极客大学

架构师是怎样炼成的 7-1 性能测试与优化

闷骚程序员

思维模型盲区:所知障和从众效应

石云升

思维模型 倾听 从众效应

BIGO | Likee深度推荐模型的特征工程优化

DT极客

一千万个身份证号在java中需要多少内存

华宇法律科技

Java string heap memory

架构师训练营」第 7 周作业

edd

极客大学架构师训练营

提速数字化!区块链加速应用落地,新制造与服务不断推出

CECBC区块链专委会

你的个人博客网站该上线了!

北漂码农有话说

第七周作业

andy

极客大学

又被逼着优化代码,这次我干掉了出入参 Log日志

程序员内点事

Java

面向进化的软件架构

星际行者

软件架构 进化

LeetCode 题解:122. 买卖股票的最佳时机 II,JavaScript,一遍循环,详细注释

Lee Chen

前端进阶训练营

天府之国迎来数字经济发展高地新契机

CECBC区块链专委会

数字货币 区块链技术 应用落地 人才政策产业

数据分析师 ”痛“ 谁能了解

松子(李博源)

数据分析 产品经理 数据产品 数据模型

轻松应对并发问题,简易的火车票售票系统,Newbe.Claptrap 框架用例,第一步 —— 业务分析

newbe36524

容器 微服务 架构设计 .net core ASP.NET Core

redis系列之——缓存穿透、缓存击穿、缓存雪崩

诸葛小猿

redis 缓存穿透 缓存击穿 缓存雪崩

百度CTO王海峰对话王辰院士:全球“最强大脑”助力大数据抗疫时代来临

脑极体

密码学的随机性与区块链随机数

CECBC区块链专委会

程序员开启社交和打造影响力的最佳方式

非著名程序员

程序员 提升认知 写作 程序员成长 社交

【源码系列】Spring Cloud Gateway

Alex🐒

源码 SpringCloud Gateway

布隆过滤器是个啥!

诸葛小猿

布隆过滤器 bloomfilter bloom filter

week7 学习总结

Geek_2e7dd7

[POJ 1001] Exponentiation JAVA解题报告

一直AC一直爽

算法 刷题 POJ ACM

一个简单的物联网设备接入网关高可用方案

凸出

Java nginx Netty

可读代码编写炸鸡九 - 抽取子问题

多选参数

编程 代码 代码优化 代码规范 可读代码

Fastjson到了说再见的时候了

YourBatman

Jackson Fastjson JSON库

week7 作业

Geek_2e7dd7

多线程为了同个资源打起架来了,该如何让他们安定?

小林coding

并发编程 多线程 操作系统 计算机基础

字节跳动李本超:一年成为 Committer,我与 Flink 社区的故事

Apache Flink

flink

常见的emit实现AOP demo

八苦-瞿昙

随笔 随笔杂谈 aop

4月17日 HarmonyOS 开发者日·上海站

4月17日 HarmonyOS 开发者日·上海站

现代语言学之父乔姆斯基谈深度学习的未来-InfoQ