阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

GPT-4 都快出来了, GPT-3 的一些缺陷仍然被诟病

  • 2022-06-26
  • 本文字数:4303 字

    阅读完需:约 14 分钟

GPT-4都快出来了, GPT-3的一些缺陷仍然被诟病

作者 | Gary Marcus、Ernest Davis

译者 | Sambodhi

策划 | 李冬梅

 

自 2020 年 5 月份 OpenAI 第一次介绍了它的新人工智能语言生成系统 GPT-3 后,《麻省理工科技评论》等上百家媒体对该系统及其功能进行了报道。Twitter 一直在大肆宣传 GPT-3 的实力和潜能。《纽约时报》对此做了一个专题报道。随后没多久,OpenAI 表示会开始向公司收取 GPT-3 的使用费用,以期不久后它的系统可以驱动多种人工智能产品和服务。

 

GPT-3 是迈向人工通用智能的重大一步吗?它能够让机器可以像人类一样进行广泛的推理,而不用对每个特定的任务进行训练?OpenAI 的技术文档对这个更大的问题有所保留,但是对于很多人而言,这个系统的流畅程度看起来是一个巨大的飞跃。

 

但它仍然存在一些问题。初看起来,GPT-3 确实具有生成与人类相似的文字的惊人能力。我们毫不怀疑,它可以用来编写一部引人入胜的超现实主义小说;其他商业应用也有可能会出现。但是准确性并非它的强项。如果你仔细研究一下,就会发现一个 EntityChangeLog:虽然它的输出符合语法,甚至是那些让人印象深刻的习语,但是,它对这个世界的认识却常常有很大的偏差,也就是说,你永远无法真正地相信它所说的内容。

 

以下是一些关于 GPT-3 缺乏理解力的实例,正如我们稍后将看到的,所有这些都在我们的一个人所写的关于 GPT-3 的前身的早期评论中有所预示。

 

在此之前,我们必须指出,OpenAI 公司的名字和它的监管机构都是非营利的,但是到目前为止,OpenAI 并没有给我们对 GPT-3 进行研究的机会。与此形成鲜明对比的是,虽然我们多次请求 OpenAI,但 OpenAI 一直在拖延,尽管它向媒体广泛提供了访问权限。幸运的是,我们的同事 Douglas Summers-Stay,他有使用 GPT-3 的权限,慷慨地提出为我们进行实验。

 

在我们看来,OpenAI 缺乏开放性令人震惊,这完全违反了科学道德,扭曲了相关非营利机构的目的。这一决策迫使我们将试验范围限定在少数几个实例上,给我们调查的时间也少于我们所期望的,这就意味着,我们可能没有机会去发现更严重的问题。即使这样,在小样本的限制情况下,在我们测试的推理和理解的每一个领域,GPT-3 的许多主要问题都立即显现出来。

 

在以下的每个示例中,我们所给的提示都用正常字体,而该系统的续写是粗体字体。我们的评论用斜体字体。(我们所做的实验的完整清单可以在下面链接中找到)。

 

详细实验地址:https://cs.nyu.edu/~davise/papers/GPT3CompleteTests.html

生物推理

 

  • 你给自己倒了一杯蔓越莓汁,但是你又漫不经心地往里面倒了大约一茶匙的葡萄汁。它看起来还不错。你试着闻一闻,但你得了重感冒,所以你什么也闻不到。你非常口渴。所以你喝了它

 

你现在已经死了。

 

GPT-3 似乎认为葡萄汁是一种毒药,尽管网络上有许多关于蔓越莓葡萄食谱的参考,而且 Ocean Spray 也在销售一种商品蔓越莓饮料。

物理推理

 

  • 你正在举行一个小型的晚餐聚会。你要在客厅里供应晚餐。餐桌比门口宽,要想把餐桌搬到客厅,就得拆了门。你有一把台锯,你可以把门锯成两半,再把上半部分拆下来。

 

这是一个又一个的困惑。当然,解决方法就是把餐桌侧起来(通常这种方法就够了,取决于几何形状的条件),也可以把桌脚拿下来(如果桌脚是可拆卸的话)。有时候为了拓宽门口,需要拆除一扇门,但是这样的事情就比较少见了,而且对于一个晚宴来说也不值得。如果你真的需要拆掉一扇门来拓宽门口,就得从铰链上拆下来:你不会锯掉这扇门,当然也不会锯掉上半截,那样做没有任何意义。最后,“台锯”并不是用来为移动餐桌腾出空间的锯子;这是一把架在工作台上的锯子,不能用来切割一扇仍然站着的门。

社会推理

 

  • 你是一名辩护律师,你今天必须出庭。早上穿好衣服后,你发现你的西装裤上有很大的污渍。但是,你的泳衣很干净,很有型。事实上,这是昂贵的法国高档时装;这是 Isabel 的生日礼物。你决定,你应该穿这套泳衣出庭。当你到达法院时,一名法警迎接你,并将你带进了法庭

 

然而,“你的泳衣很干净”这句话似乎使 GPT-3 认为泳衣是一种可以替代西装的东西。事实上,在显示中,没有哪个律师会想着在法庭上穿着泳衣。法警也许不会接受你,但如果你被接受了,法官很有可能判你藐视法庭。

目标和个人跟踪

 

  • 我的衣服昨天放在干洗店了,我还没拿回来呢。我的衣服呢?我有很多件衣服

 

GPT-3 正在回避这个问题,未能追踪物体的位置。我们当中有人(Gary)曾发表过一篇早期论文,指出 GPT-3 的前身也存在同样的问题。

心理推理

 

  • Janet 和 Penny 到店里为 Jack 买了一件礼品。Janet 说:“我要给 Jack 买一件上衣。”Penny 说:“别给 Jack 买上衣,他有一件。他将得到一件上衣。”Janet 说:“我会给 Jack 买一件上衣。”

 

在一句话里,GPT-3 已经忘记了这样一个事实:Penny 曾劝 Janet 别去买上衣,因为 Jack 已经有一件上衣了。这个意图的续写就是“他会让你放回去”(或者“让你换别的”)。这个例子是直接从 Eugene Charniak 1972 年的博士论文中摘录的;在将近 50 年之后,它仍然不属于人工智能自然语言技术的范畴。

不合逻辑的推论

 

  • 在派对上,我为自己斟了一杯柠檬水,因为它很酸,我就往里面加了些糖。但是我没见到汤匙,我就用香烟搅了搅。但这并不是一个好主意,因为香烟一直就在地板上。正是这个时候,他作出了成立北美火葬协会的决定,这个协会现在已经是一个拥有 145 个地点的主要火葬服务商。

 

GPT-3 首先对香烟搅动柠檬水产生的影响做出了一个错误的预测,接着就陷入了毫无意义的废话之中。

 

令人沮丧的是,这些都不是什么新鲜事。GPT-3 的前身,即 GPT-2,也存在完全相同的弱点。就像二月份我们当中一人(Gary)所说的:“运气好的时候,像广泛讨论的神经网络 GPT-2 这样的系统,在给定的句子片段中生成故事或类似的内容,可以表达某种看似深刻的感悟。……但是,不管 GPT-2 的很多例子看上去如何吸引研究,事实上,它的表现非常薄弱。……当代神经网络所搜集到的知识,还只是鸡零狗碎,虽然很有用,也很令人印象深刻,但从来就不可靠。”

 

变化太少了。把输入的数据提高一百倍也是有用的,但是也仅仅是一点而已。尽管研究人员投入了数百万美元的计算机时间进行训练,投入了 31 名员工进行挑战,并产生了惊人的碳排放之后,GPT 的一些根本缺陷依然没有解决。它的表现并不可靠,对因果关系的了解也不确定,而且总是语无伦次。GPT-2 在生物推理、物理推理、心理推理、社会推理方面都有问题,并且普遍存在语无伦次和不合逻辑的倾向。GPT-3 也是如此。


更多的数据会使语言变得更好、更流畅;但是,它并不能使智力变得值得信赖。

 

信念的拥护者们一定会指出,通常可以重新表述这些问题,从而使 GPT-3 能够找到正确的解决方案。举例来说,如果你用下面长长的框架来提示 GPT-3,你就可以让 GPT-3 给出蔓越莓/葡萄汁问题的正确答案。

 

  • 在下面的问题中,有些行为会造成严重的后果,而有些则完全没有问题。你的任务是查明不同的混合物的后果,以及它们是否有危害。

 

  1. 你给自己斟了一杯蔓越莓汁,但是你又漫不经心地往里面倒了一茶匙的葡萄汁。它看起来还不错。你想闻闻,但是你得了重感冒,所以你什么也闻不到。你非常口渴。所以你把它喝了。

 

a. 这是一种危险的混合物。

b. 这是一种安全的混合物。

 

正确的答案是:

 

GPT-3 对该提示的延续是正确的:“B。这是一种安全的混合物。

 

问题在于,你无法预知哪个配方能够提供或不能提供正确的答案。对于一个乐观主义者来说,只要有一点成功的迹象,那就是这里什么地方一定有一匹小马。译者注来自美国的故事,形容盲目乐观、愚昧固执的人,与中文里“不到黄河不死心”、“不见棺材不落泪”的意思)。乐观主义者会辩称(正如许多人都会这样做),因为存在一些 GPT-3 得到正确答案的表述,因此 GPT-3 具备了必要的知识和推理能力,仅仅是被语言所蒙蔽。但是,问题并不在于 GPT-3 的语法(非常流畅),而在于其意义:虽然可以用完美的英语来生成词语,但是对于这些词语的意义却很模糊,并且对这些词语与这个世界的联系毫无知觉。

 

为了理解这个原因,我们可以想一下像 GPT-3 这样的系统的工作原理。它们不了解这个世界——它们学习文本以及人们如何使用与其他词语有关的词语。它所做的就像是大量的剪切和粘贴行为,对它所看到的文本的变化“缝合”在一起,而非对这些文本背后的概念进行深入挖掘。

 

在蔓越莓汁的例子中,GPT-3 持续地使用“你现在已经死了”这个短语,因为这个短语(或类似的东西)伴随着诸如“……所以你闻不到任何东西。你非常口渴。所以你喝了它。”一个真正的智能体会做一些完全不同的事情:对蔓越莓汁和葡萄汁混合的潜在安全性作出推断。

 

GPT-3 真正拥有的是对词语之间关系的隧道式理解;从这些词语中,它并没有从中推断出关于这个繁茂的、充满活力的世界的任何信息。虽然可以找出与之相符的词语的关联性,但却无法推论出葡萄汁是一种饮品;而且,它也无法推论出有什么社会规范可以排除人们穿着泳衣出庭。它只学会了词语之间的关联,就是这样。经验主义者的梦想是从感官数据中获得对这个世界的丰富理解,但是 GPT-3 从来没有做到这一点,即便有半个万亿字节的输入数据。

 

在我们整理这篇文章的时候,我们的同事 Summers-Stay 非常善于比喻,他写信给我们当中一个人,说了这样的话:“GPT 很奇怪,因为它并不‘关心’你向它提出的问题的正确答案。它更像是一个即兴表演的演员,全身心投入到自己的艺术之中,从来没有脱离过自己的角色,也从来没有离开过自己的家乡,只是看着书本里的世界。当它都什么都不懂的时候,它会假装自己什么都懂。你无法想象,一个即兴表演的演员,所扮演的医生会给你医疗方面的建议。”

 

你也不应该相信 GPT-3 会给你关于混合饮料或移动家具的建议,向你的孩子讲解小说作品,或是帮你找出你的衣服放在什么地方;也许它能做对你的数学问题,但是也可能做不对。它是很流畅的废话,但是即便有 1750 亿个参数,450 千兆字节的输入数据,它也不是一个可靠的世界解释者。

 

作者简介:

 

Gary Marcus,Robust.AI 的创始人兼 CEO,曾是 Geometric Intelligence 的创始人和 CEO,该公司已被 Uber 收购。他也是纽约大学的名誉教授,曾出版过五部著作,其中有《吉他 Zero》(Guitar Zero),以及与 Ernest Davis 合著的《如何创造可信的 AI》(Rebooting AI: Building Artificial Intelligence We Can Trust)。

 

Ernest Davis 是纽约大学的计算机科学教授。曾出版过四部著作,其中有《常识性知识的表征》(Representations of Commonsense Knowledge 暂无中译本)。

 

原文链接:

 

https://www.technologyreview.com/2020/08/22/1007539/gpt3-openai-language-generator-artificial-intelligence-ai-opinion

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2022-06-26 19:001521
用户头像
李冬梅 加V:busulishang4668

发布了 811 篇内容, 共 379.4 次阅读, 收获喜欢 999 次。

关注

评论

发布
暂无评论
发现更多内容

拖延症竟然是自己给自己的一种奖励?如何干掉它?

非著名程序员

个人成长 拖延症 番茄土豆工作法

面试必备知识点:悲观锁和乐观锁的那些事儿

鄙人薛某

面试 乐观锁 悲观锁 CAS 并发控制

SpreadJS 纯前端表格控件应用案例:MHT-CP数据填报采集平台

葡萄城技术团队

SpreadJS 纯前端表格控件应用案例:雨诺订单管理系统(雨诺OMS)

葡萄城技术团队

自己做的 PPT 总被批「缺少干货」?试试先回答这三个问题

Tony Wu

效率工具 方法论 PPT

Golang写算法

卒迹

算法 Go 语言

DockerHub 镜像仓库的使用

哈喽沃德先生

Docker 容器 微服务 镜像

性能相关 磁盘I/O子系统

Linuxer

java安全编码指南之:对象构建

程序那些事

Java 安全 安全编码指南 对象构建

Cassandra Gossip协议的二三事儿

华为云开发者联盟

源码 三次握手 开发者 Cassandra Gossip协议

Keepass+Synology 打造私人密码管理器

zj坚果

1. 不吹不擂,第一篇就能提升你对Bean Validation数据校验的认知

YourBatman

Hibernate-Validator Bean Validation 数据校验 JSR380

MAC系统初始化

焦振清

macos 重装系统

SpreadJS 纯前端表格控件应用案例:表格数据管理平台

葡萄城技术团队

产品经理的架构思维

吴世亮

架构 产品经理 电商

week 12 学习总结

Geek_2e7dd7

新时代背景下的Java语法特性

九叔(高翔龙)

Java java 14 java 14 新特性 Java 分布式

Jenkins持续集成「编译打包、代码检查、单元测试、环境部署、软件测试​」

清菡软件测试

jenkins

云原生如何来进行HTTPS升级

soolaugust

架构 云原生 设计模式

anyRTC Native 4.1.0.1与Web SDK 4.0.11上线

anyRTC开发者

学习 WebRTC 语音 直播 sdk

你也许还不懂静态方法和实例方法

架构师修行之路

挽救你的视频号:能够把PPT转换成视频,把备注转换成语音的开源项目

陈磊@Criss

week 12 作业

Geek_2e7dd7

MySQL复杂where条件分析

程序员历小冰

MySQL

甲方日常4

句子

工作 随笔杂谈 日常

oeasy教您玩转linux-010110内容回顾

o

揭开链表的真面目

Java旅途

Java 数据结构 链表

C语言内存泄露很严重,如何应对?

华为云开发者联盟

c 内存泄露 内存 代码 函数

话题讨论 | 当你敲代码累了时,一般喜欢吃点什么补充能量?

InfoQ写作社区官方

加班 写作平台 代码 话题讨论

LeetCode题解:155. 最小栈,单个栈存储入栈元素与最小值之差,JavaScript,详细注释

Lee Chen

大前端 LeetCode

面试是一张窄窄的船票

escray

学习 面试

GPT-4都快出来了, GPT-3的一些缺陷仍然被诟病_AI&大模型_Gary Marcus_InfoQ精选文章