写点什么

现代语言学之父乔姆斯基谈深度学习的未来

2020 年 12 月 26 日

现代语言学之父乔姆斯基谈深度学习的未来

作者自述:过去几周,我一直在和我最喜欢的无政府主义者诺姆·乔姆斯基进行电子邮件交流。我最初联系他是想问他,人工神经网络(ANN)的最新发展是否会促使他重新考虑他著名的语言理论——普遍语法(Universal Grammar)。我们的谈话内容涉及深度学习可能存在的局限性,以及神经网络可以在多大程度上模拟生物大脑,还涉及到了更具哲学性的领域。在这篇文章中,我不会直接引用乔姆斯基教授的话,因为我们的讨论是非正式的,但我将尝试总结其中的要点。


本文最初发布于 Towards Data Science 博客,由 InfoQ 中文站翻译并分享。


乔姆斯基是谁?


乔姆斯基首先是位语言学教授(被许多人称为“现代语言学之父”),但在学术圈之外,他更为知名的身份可能是活动家、哲学家和历史学家。他出版了 100 多本书,并在 2005 年《外交政策与展望》杂志进行的民意调查中被评为世界头号公共知识分子。


郑重声明,我是乔姆斯基作品的崇拜者,尤其是他对美帝国主义、新自由主义和媒体的批评。我们的观点略有分歧的地方在于他对欧洲大陆哲学家(尤其是法国后结构主义者)的驳斥。或许,我在成年早期太过频繁地从福柯、拉康和德里达那里汲取灵感,因此受到了毒害,但我总是发现,乔姆斯基的哲学分析方法在道德上很有吸引力,但有点过于“干净”,对于我们的世界,无法给出令人满意地解释。虽然乔姆斯基对那些后结构主义杰出人物的蔑视显而易见,但他的哲学观点比他的批评者对他的赞扬更加微妙。



普遍语法


我从一开始就声明了,我不是语言学家,但在这一部分,我将试着大概介绍下普遍语法理论。在乔姆斯基之前,语言学中占主导地位的假设是,人类的大脑天生是“白板”(就像一块空白的石板),通过强化获得语言。也就是说,孩子们听到父母说话,他们会模仿他们听到的声音,当他们正确地使用一个单词或构造一个句子时,他们会受到表扬。乔姆斯基的研究表明,强化作用只是其中的一个原因,人类大脑中肯定存在一种与生俱来的结构,这种结构是普遍存在的,能够促进语言学习。他的主要论点是:


  1. 儿童获得语言的速度太快,而且数据太少,无法用强化学习来解释(也被称为“刺激贫乏”)。

  2. 即使在与人类相同的数据面前,动物也无法获得语言。20 世纪 60 年代有一个著名的实验,语言学家试图教一只黑猩猩(名为“尼姆•乔姆斯基”)学习手语,但 10 年后,它仍然无法交流,只能完成一些基本的任务。

  3. 所有人类语言之间都有共性。这表明,即使语言是独立发展的,但在所有人类大脑的共同结构中,仍然存在着普遍性的特征。

  4. 孩子们并不是天生只能学习一种特定的语言。如果你把一个在肯尼亚出生的孩子带到德国长大,他们学习德语就会和德国孩子一样容易。


这种关于基因硬编码语言能力的理论在科学界被广泛接受,但显然,接下来人们会问,“这种普遍语法实际上是什么样子?”很快,勇敢的研究人员就开始着手探索所有人类语言的共同特性,但是,对于我们天生的语言能力是什么形式,目前仍然没有形成共识。可以肯定的是,普遍语法并不包含具体的句法规则,而更可能是一种基本的认知功能。


乔姆斯基假设,在人类历史的某个阶段,人类发展出了一种执行简单递归过程的能力,他称之为“合并(Merge)”,这就是我们在人类语言中看到的句法结构的属性和约束。这有点抽象(太复杂了,一下也说不清楚),但本质上“合并”是将两个对象合并成一个新对象的过程。虽然看似平淡无奇,但在脑海中组合概念并递归地完成这一操作的能力,却强大得令人难以置信,使得我们能够构建“无数种层级结构的表达式”。


这一微小但至关重要的基因飞跃不仅可以解释我们的语言交流能力,还可以(至少是部分地)解释我们的数学天赋和人类创造力。这种大约 10 万年前发生在我们的其中一位祖先身上的“合并”突变,可能是区分人类和其他动物的关键因素之一。

人工神经网络


我联系乔姆斯基教授的主要原因是,我想听听他对人工神经网络(我对这个话题的了解比对语言学的了解多得多)的看法。人工神经网络是机器学习模型的一个子集,它大致地模仿人类大脑,以类似的方式学习(通过大量样本)。这些模型只需要很少的硬编码,并且可以用相对简单的架构执行相当广泛的复杂任务(例如图像标记、语音识别、文本生成)。由谷歌开发的 AlphaGo Zero 模型是这种方法的一个有指导意义的示例,它学会了下围棋(一种复杂且具有挑战性的棋类游戏),最终成为人类世界冠军不可战胜的对手。


最令人印象深刻的是,经过训练后,它能在没有硬编码或人工干预(也就是“白板”)的情况下完成这一切。虽然人工神经网络肯定不是人类大脑的完美类比,但我问乔姆斯基教授,这些模型是否表明,实际上我们不需要硬编码的认知结构来从分散的数据中学习。


乔姆斯基实事求是地指出,ANN 适用于高度专门化的任务,但是这些任务必须受到严格的限制(尽管得益于现代计算机的内存和速度,其适用范围可能会显得很大)。他把人工神经网络比作适用于高层建筑的大型起重机;虽然这两种工具都令人印象深刻,但它们都存在于具有固定边界的系统中。


这一推理思路与我的观察一致,即我所目睹的所有深度学习方面的突破都发生在非常特定的领域,我们似乎没有接近任何类似通用人工智能的东西(不管这意味着什么)。


乔姆斯基还指出,越来越多的证据表明,人工神经网络并不能准确地模拟人类认知,人类认知更丰富,其涉及到的计算系统甚至可以扩展到细胞水平。


如果乔姆斯基是对的(我认为他是正确的),那么深度学习研究可能的发展结果是什么?归根结底,人类的大脑并没有什么神奇之处。它只是一个由原子组成的物理结构,因此,我们完全有理由相信,在未来的某个时候,我们可能能够创造出具有普遍智能的人工版本。也就是说,目前的人工神经网络只是提供了这种认知的一个模拟,根据乔姆斯基的逻辑,如果我们不首先提高自己对有机神经网络运行机制的理解,就不可能到达下一个前沿。

道德相对主义


现代数据科学家担忧的一个突出问题是,如何以合乎道德的方式使用人工智能,但有时,在其他具体的领域中,其边界会比较模糊和主观。乔姆斯基的工作为深度学习的未来提供了独特的技术视角,普遍语法也具有深刻的道德含义,因为语言是我们探讨和解释世界的方式。例如,乔姆斯基的观点是,上述固有的神经结构排除了道德相对主义,而且必须存在普遍的道德约束。


道德相对主义有许多不同的形式,但其核心原则是,道德认定没有客观依据。道德相对主义者称,尽管我们可能深信诸如“奴隶制不道德”这样的说法,但我们没有实用的方法来向持不同意见的人证明这一点,因为任何证据都必然依赖于价值判断,而我们的价值观归根结底是外生的,由文化和经验决定。


乔姆斯基认为,道德根植在大脑中,因此,从定义上讲,道德是一种生物系统。所有的生物系统都会变异(自然地,或是因为不同的刺激),但它们也有局限性。以人类的视觉系统为例:实验表明,视觉系统具有一定的可塑性,并受到经验的影响(尤其是在幼儿时期)。通过改变提供给人类视觉系统的数据,就可以真正地改变感受器的分布,从而改变个体感知水平线和垂直线的方式。


然而,你无法把人类的眼睛变成昆虫的眼睛,或者赋予某人看到 X 射线的能力。乔姆斯基认为,生物系统(包括道德)可以大幅变化,但不是无限的。他接着说,即使你相信我们的道德完全源自文化,你仍然需要以同样的方式获得文化,就像你获得任何体系一样(这归因于与生俱来的普遍存在的认知结构)。


对于这种解读,我最初持保留意见,如果我们假设道德只是“合并”(或同样原始的东西)的结果,那么这可能会带来理论上的局限,而我的直觉是,我们的道德可以变化如此之大,以至于实际上不可能做出普适性的陈述。过去,乔姆斯基讨论过道德进步似乎会遵循某些趋势(例如接受差异、拒绝压迫等等),但我看不出来,这些广泛的趋势在从如此简单的原子认知结构中出现时如何保持一致。


当我向乔姆斯基教授提出这一观点时,他认为这是种错觉,当我们不理解事物时,它们看起来比实际情况更加多样化和复杂。他举了寒武纪大爆发以来动物身体结构变化的例子。仅仅在 60 年前,生物学的主流观点还是,生物体的差异如此巨大,对于其中的每一种,都必须以个体为基础进行研究,但现在我们知道,这是完全错误的,物种之间的遗传变异相当小。在复杂的后天系统中,变异必定很小,否则我们无法获得。


查看英文原文:


https://towardsdatascience.com/noam-chomsky-on-the-future-of-deep-learning-2beb37815a3e


2020 年 12 月 26 日 09:00794
用户头像
陈思 InfoQ编辑

发布了 562 篇内容, 共 192.4 次阅读, 收获喜欢 1113 次。

关注

评论

发布
暂无评论
发现更多内容

硕二面试阿里被吊打,不甘!复盘狂啃底层技术,拿下阿里P6+offer

Java成神之路

Java 程序员 架构 面试 编程语言

年前成功拿下35K+16薪美团Java架构师Offer!考点、面试题分享送给明年金三银四的你

Java架构追梦

Java 架构 面试 美团 offer

接口测试-使用mock生产随机数据

测试人生路

接口测试

咨询师的诱惑

escray

面经 大龄程序员 面试经历 101次面试

互联网寒冬下,程序员如何化解危机?答案全在这份阿里Java知识地图里

比伯

Java 编程 程序员 面试 计算机

测开之函数进阶· 第5篇《偏函数》

清菡

测试开发

由两个问题引发的对GaussDB(DWS)负载均衡的思考

华为云开发者社区

数据库 数据 负载

【华为云专家原创】 服务注册与发现如何满足服务治理?

华为云开发者社区

分布式 服务 注册

架构师训练营第六周作业

Geek_xq

太平金科助力“开局之战”顺利启动,博睿数据“A+N”一体化解决方案全力护航

BonreeAPM

APM npm AIOPS

ONES 年终报告 | 功能升级123次,服务超100万客户

万事ONES

研发管理工具 年终报告

七大步骤,详解预置算法构建模型的全过程

华为云开发者社区

架构 算法 数据

面试字节跳动定级2-2,拿32*16offer,P8大佬的算法教程给了我春天!

Java成神之路

Java 程序员 架构 面试 编程语言

看完这篇,保证让你真正明白:分布式系统的CAP理论、CAP如何三选二

四猿外

架构 分布式系统 CAP CAP原理 CAP理论

GitHub上1.3W Stars国内第一的项目实战PDF

Java架构之路

Java 程序员 架构 面试 编程语言

网易有道 iOS二面经验分享

iOSer

ios 面试题 网易 大厂面试 iOS面试

花火交易所APP开发|花火交易所软件系统开发

开發I852946OIIO

系统开发

【得物技术】交易轨迹系统

得物技术

数据 交易 得物 得物技术 自定义

从阿里P5到P8=入门到内核?看看这份对标80W+年薪的Java进阶路线图

Java架构之路

Java 程序员 架构 面试 编程语言

LeetCode题解:剑指 Offer 40. 最小的k个数,二叉堆,JavaScript,详细注释

Lee Chen

算法 LeetCode 前端进阶训练营

大数据ETL批量调度,这几款工具都需要去掌握了解

会飞的鱼

大数据处理 kettle 运维自动化 海豚调度 ETL算法

震精!京东T8大牛每天熬夜到凌晨三四点,竟然是在写Docker教程

Java成神之路

Java 程序员 架构 面试 编程语言

每天花2小时复习阿里P9分享的Java面试指南,高级架构教程,你也可以进阿里!

Java成神之路

Java 程序员 架构 面试 编程语言

完美!这份世界顶级架构师编写的550页Spring5高级编程

Java架构之路

Java 程序员 架构 面试 编程语言

数字资产钱包系统开发及介绍

系统开发咨询:I76-883I-5I52 邓森

阿里P9在Github上分享的Java面试突击手册,凭借它,我拿下了阿里P7的offer!

Java成神之路

Java 程序员 架构 面试 编程语言

京东城市时空数据引擎JUST亮相中国数据库技术大会(附PPT链接)

京东智联云开发者

数据库 nosql

轮子虽好,也要知其所以然!(Lombok操作实例)

程序员小毕

Java 源码 架构 开发工具 lombok

推陈出新,一步到位,智慧水务这么用效率翻倍

一只数据鲸鱼

物联网 数据采集 智慧城市 组态软件 智慧水务

博睿数据支持腾讯云函数监控,Serverless时代已来临

BonreeAPM

Serverless APM 监控

京东将上线社区团购“京喜拼拼”:社区团购是否是一次泡沫大战

石头IT视角

InfoQ 极客传媒开发者生态共创计划线上发布会

InfoQ 极客传媒开发者生态共创计划线上发布会

现代语言学之父乔姆斯基谈深度学习的未来-InfoQ