深入探讨跨端、IoT 动态开发、DevOps等大前端方向热门技术话题,这里直达 了解详情
写点什么

GPT-4 都快出来了, GPT-3 的一些缺陷仍然被诟病

  • 2022 年 6 月 26 日
  • 本文字数:4303 字

    阅读完需:约 14 分钟

GPT-4都快出来了, GPT-3的一些缺陷仍然被诟病

作者 | Gary Marcus、Ernest Davis

译者 | Sambodhi

策划 | 李冬梅

 

自 2020 年 5 月份 OpenAI 第一次介绍了它的新人工智能语言生成系统 GPT-3 后,《麻省理工科技评论》等上百家媒体对该系统及其功能进行了报道。Twitter 一直在大肆宣传 GPT-3 的实力和潜能。《纽约时报》对此做了一个专题报道。随后没多久,OpenAI 表示会开始向公司收取 GPT-3 的使用费用,以期不久后它的系统可以驱动多种人工智能产品和服务。

 

GPT-3 是迈向人工通用智能的重大一步吗?它能够让机器可以像人类一样进行广泛的推理,而不用对每个特定的任务进行训练?OpenAI 的技术文档对这个更大的问题有所保留,但是对于很多人而言,这个系统的流畅程度看起来是一个巨大的飞跃。

 

但它仍然存在一些问题。初看起来,GPT-3 确实具有生成与人类相似的文字的惊人能力。我们毫不怀疑,它可以用来编写一部引人入胜的超现实主义小说;其他商业应用也有可能会出现。但是准确性并非它的强项。如果你仔细研究一下,就会发现一个 EntityChangeLog:虽然它的输出符合语法,甚至是那些让人印象深刻的习语,但是,它对这个世界的认识却常常有很大的偏差,也就是说,你永远无法真正地相信它所说的内容。

 

以下是一些关于 GPT-3 缺乏理解力的实例,正如我们稍后将看到的,所有这些都在我们的一个人所写的关于 GPT-3 的前身的早期评论中有所预示。

 

在此之前,我们必须指出,OpenAI 公司的名字和它的监管机构都是非营利的,但是到目前为止,OpenAI 并没有给我们对 GPT-3 进行研究的机会。与此形成鲜明对比的是,虽然我们多次请求 OpenAI,但 OpenAI 一直在拖延,尽管它向媒体广泛提供了访问权限。幸运的是,我们的同事 Douglas Summers-Stay,他有使用 GPT-3 的权限,慷慨地提出为我们进行实验。

 

在我们看来,OpenAI 缺乏开放性令人震惊,这完全违反了科学道德,扭曲了相关非营利机构的目的。这一决策迫使我们将试验范围限定在少数几个实例上,给我们调查的时间也少于我们所期望的,这就意味着,我们可能没有机会去发现更严重的问题。即使这样,在小样本的限制情况下,在我们测试的推理和理解的每一个领域,GPT-3 的许多主要问题都立即显现出来。

 

在以下的每个示例中,我们所给的提示都用正常字体,而该系统的续写是粗体字体。我们的评论用斜体字体。(我们所做的实验的完整清单可以在下面链接中找到)。

 

详细实验地址:https://cs.nyu.edu/~davise/papers/GPT3CompleteTests.html

生物推理

 

  • 你给自己倒了一杯蔓越莓汁,但是你又漫不经心地往里面倒了大约一茶匙的葡萄汁。它看起来还不错。你试着闻一闻,但你得了重感冒,所以你什么也闻不到。你非常口渴。所以你喝了它

 

你现在已经死了。

 

GPT-3 似乎认为葡萄汁是一种毒药,尽管网络上有许多关于蔓越莓葡萄食谱的参考,而且 Ocean Spray 也在销售一种商品蔓越莓饮料。

物理推理

 

  • 你正在举行一个小型的晚餐聚会。你要在客厅里供应晚餐。餐桌比门口宽,要想把餐桌搬到客厅,就得拆了门。你有一把台锯,你可以把门锯成两半,再把上半部分拆下来。

 

这是一个又一个的困惑。当然,解决方法就是把餐桌侧起来(通常这种方法就够了,取决于几何形状的条件),也可以把桌脚拿下来(如果桌脚是可拆卸的话)。有时候为了拓宽门口,需要拆除一扇门,但是这样的事情就比较少见了,而且对于一个晚宴来说也不值得。如果你真的需要拆掉一扇门来拓宽门口,就得从铰链上拆下来:你不会锯掉这扇门,当然也不会锯掉上半截,那样做没有任何意义。最后,“台锯”并不是用来为移动餐桌腾出空间的锯子;这是一把架在工作台上的锯子,不能用来切割一扇仍然站着的门。

社会推理

 

  • 你是一名辩护律师,你今天必须出庭。早上穿好衣服后,你发现你的西装裤上有很大的污渍。但是,你的泳衣很干净,很有型。事实上,这是昂贵的法国高档时装;这是 Isabel 的生日礼物。你决定,你应该穿这套泳衣出庭。当你到达法院时,一名法警迎接你,并将你带进了法庭

 

然而,“你的泳衣很干净”这句话似乎使 GPT-3 认为泳衣是一种可以替代西装的东西。事实上,在显示中,没有哪个律师会想着在法庭上穿着泳衣。法警也许不会接受你,但如果你被接受了,法官很有可能判你藐视法庭。

目标和个人跟踪

 

  • 我的衣服昨天放在干洗店了,我还没拿回来呢。我的衣服呢?我有很多件衣服

 

GPT-3 正在回避这个问题,未能追踪物体的位置。我们当中有人(Gary)曾发表过一篇早期论文,指出 GPT-3 的前身也存在同样的问题。

心理推理

 

  • Janet 和 Penny 到店里为 Jack 买了一件礼品。Janet 说:“我要给 Jack 买一件上衣。”Penny 说:“别给 Jack 买上衣,他有一件。他将得到一件上衣。”Janet 说:“我会给 Jack 买一件上衣。”

 

在一句话里,GPT-3 已经忘记了这样一个事实:Penny 曾劝 Janet 别去买上衣,因为 Jack 已经有一件上衣了。这个意图的续写就是“他会让你放回去”(或者“让你换别的”)。这个例子是直接从 Eugene Charniak 1972 年的博士论文中摘录的;在将近 50 年之后,它仍然不属于人工智能自然语言技术的范畴。

不合逻辑的推论

 

  • 在派对上,我为自己斟了一杯柠檬水,因为它很酸,我就往里面加了些糖。但是我没见到汤匙,我就用香烟搅了搅。但这并不是一个好主意,因为香烟一直就在地板上。正是这个时候,他作出了成立北美火葬协会的决定,这个协会现在已经是一个拥有 145 个地点的主要火葬服务商。

 

GPT-3 首先对香烟搅动柠檬水产生的影响做出了一个错误的预测,接着就陷入了毫无意义的废话之中。

 

令人沮丧的是,这些都不是什么新鲜事。GPT-3 的前身,即 GPT-2,也存在完全相同的弱点。就像二月份我们当中一人(Gary)所说的:“运气好的时候,像广泛讨论的神经网络 GPT-2 这样的系统,在给定的句子片段中生成故事或类似的内容,可以表达某种看似深刻的感悟。……但是,不管 GPT-2 的很多例子看上去如何吸引研究,事实上,它的表现非常薄弱。……当代神经网络所搜集到的知识,还只是鸡零狗碎,虽然很有用,也很令人印象深刻,但从来就不可靠。”

 

变化太少了。把输入的数据提高一百倍也是有用的,但是也仅仅是一点而已。尽管研究人员投入了数百万美元的计算机时间进行训练,投入了 31 名员工进行挑战,并产生了惊人的碳排放之后,GPT 的一些根本缺陷依然没有解决。它的表现并不可靠,对因果关系的了解也不确定,而且总是语无伦次。GPT-2 在生物推理、物理推理、心理推理、社会推理方面都有问题,并且普遍存在语无伦次和不合逻辑的倾向。GPT-3 也是如此。


更多的数据会使语言变得更好、更流畅;但是,它并不能使智力变得值得信赖。

 

信念的拥护者们一定会指出,通常可以重新表述这些问题,从而使 GPT-3 能够找到正确的解决方案。举例来说,如果你用下面长长的框架来提示 GPT-3,你就可以让 GPT-3 给出蔓越莓/葡萄汁问题的正确答案。

 

  • 在下面的问题中,有些行为会造成严重的后果,而有些则完全没有问题。你的任务是查明不同的混合物的后果,以及它们是否有危害。

 

  1. 你给自己斟了一杯蔓越莓汁,但是你又漫不经心地往里面倒了一茶匙的葡萄汁。它看起来还不错。你想闻闻,但是你得了重感冒,所以你什么也闻不到。你非常口渴。所以你把它喝了。

 

a. 这是一种危险的混合物。

b. 这是一种安全的混合物。

 

正确的答案是:

 

GPT-3 对该提示的延续是正确的:“B。这是一种安全的混合物。

 

问题在于,你无法预知哪个配方能够提供或不能提供正确的答案。对于一个乐观主义者来说,只要有一点成功的迹象,那就是这里什么地方一定有一匹小马。译者注来自美国的故事,形容盲目乐观、愚昧固执的人,与中文里“不到黄河不死心”、“不见棺材不落泪”的意思)。乐观主义者会辩称(正如许多人都会这样做),因为存在一些 GPT-3 得到正确答案的表述,因此 GPT-3 具备了必要的知识和推理能力,仅仅是被语言所蒙蔽。但是,问题并不在于 GPT-3 的语法(非常流畅),而在于其意义:虽然可以用完美的英语来生成词语,但是对于这些词语的意义却很模糊,并且对这些词语与这个世界的联系毫无知觉。

 

为了理解这个原因,我们可以想一下像 GPT-3 这样的系统的工作原理。它们不了解这个世界——它们学习文本以及人们如何使用与其他词语有关的词语。它所做的就像是大量的剪切和粘贴行为,对它所看到的文本的变化“缝合”在一起,而非对这些文本背后的概念进行深入挖掘。

 

在蔓越莓汁的例子中,GPT-3 持续地使用“你现在已经死了”这个短语,因为这个短语(或类似的东西)伴随着诸如“……所以你闻不到任何东西。你非常口渴。所以你喝了它。”一个真正的智能体会做一些完全不同的事情:对蔓越莓汁和葡萄汁混合的潜在安全性作出推断。

 

GPT-3 真正拥有的是对词语之间关系的隧道式理解;从这些词语中,它并没有从中推断出关于这个繁茂的、充满活力的世界的任何信息。虽然可以找出与之相符的词语的关联性,但却无法推论出葡萄汁是一种饮品;而且,它也无法推论出有什么社会规范可以排除人们穿着泳衣出庭。它只学会了词语之间的关联,就是这样。经验主义者的梦想是从感官数据中获得对这个世界的丰富理解,但是 GPT-3 从来没有做到这一点,即便有半个万亿字节的输入数据。

 

在我们整理这篇文章的时候,我们的同事 Summers-Stay 非常善于比喻,他写信给我们当中一个人,说了这样的话:“GPT 很奇怪,因为它并不‘关心’你向它提出的问题的正确答案。它更像是一个即兴表演的演员,全身心投入到自己的艺术之中,从来没有脱离过自己的角色,也从来没有离开过自己的家乡,只是看着书本里的世界。当它都什么都不懂的时候,它会假装自己什么都懂。你无法想象,一个即兴表演的演员,所扮演的医生会给你医疗方面的建议。”

 

你也不应该相信 GPT-3 会给你关于混合饮料或移动家具的建议,向你的孩子讲解小说作品,或是帮你找出你的衣服放在什么地方;也许它能做对你的数学问题,但是也可能做不对。它是很流畅的废话,但是即便有 1750 亿个参数,450 千兆字节的输入数据,它也不是一个可靠的世界解释者。

 

作者简介:

 

Gary Marcus,Robust.AI 的创始人兼 CEO,曾是 Geometric Intelligence 的创始人和 CEO,该公司已被 Uber 收购。他也是纽约大学的名誉教授,曾出版过五部著作,其中有《吉他 Zero》(Guitar Zero),以及与 Ernest Davis 合著的《如何创造可信的 AI》(Rebooting AI: Building Artificial Intelligence We Can Trust)。

 

Ernest Davis 是纽约大学的计算机科学教授。曾出版过四部著作,其中有《常识性知识的表征》(Representations of Commonsense Knowledge 暂无中译本)。

 

原文链接:

 

https://www.technologyreview.com/2020/08/22/1007539/gpt3-openai-language-generator-artificial-intelligence-ai-opinion

2022 年 6 月 26 日 19:00581
用户头像

发布了 411 篇内容, 共 123.6 次阅读, 收获喜欢 556 次。

关注

评论

发布
暂无评论
发现更多内容

力扣(LeetCode)刷题,简单+中等题(第30期)

不脱发的程序猿

面试 程序人生 算法 LeetCode 28天写作

谷歌android!通宵都要看完这个Android关键技术点,威力加强版

欢喜学安卓

android 程序员 面试 移动开发

总结:近几年有哪些不错的scrum工具

PingCode

Scrum 敏捷 敏捷开发 研发管理 研发工具

隧道建设手段结合科技能有多强大?盾构机可视化让工程化繁为简

一只数据鲸鱼

物联网 数据可视化 3D可视化 盾构机 隧道工程

跨云迁移过程中的数据同步及一致性校验实践(一)

UCloud技术

迁移 数据传输 数据库迁移 数据迁移

腾讯音乐-全民K歌iOS面经

iOSer

ios 面试 腾讯大厂 金三银四跳槽

开源分享 | 火遍全网的「蚂蚁呀嘿」教程来了!

百度开发者中心

paddle 开源 #飞桨#

severless架构演进思考杂谈

鲍师傅的铜锣烧

Serverless 架构

哪些应用场景在使用语音连麦

anyRTC开发者

音视频 WebRTC RTC 语音社交

跨云迁移过程中的数据同步及一致性校验实践(二)

UCloud技术

迁移 数据传输 数据库迁移 数据迁移

重磅丨国资委下发通知,加快推进国有企业数字化转型

PingCode

团队管理 项目管理 研发管理 研发效能 研发工具

PingCode新成员Goals开放内测!

PingCode

项目管理 敏捷 敏捷开发 研发管理 研发效能

LeetCode题解:188. 买卖股票的最佳时机 IV,动态规划,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

谷歌开发安卓系统!Android面试你必须要知道的那些知识,全网疯传

欢喜学安卓

android 程序员 面试 移动开发

ETL工具—Taskctl 如何搭建配置作业类型的管理

TASKCTL

大数据 kettle 运维自动化 海豚调度 ETL

话说 synchronized

木子的昼夜

Java

互联网公司的「敏捷开发」流程是怎么样的?典型的敏捷团队是什么样?

PingCode

敏捷 敏捷开发 研发管理 研发效能 研发工具

Pgbouncer最佳实践:系列二

PostgreSQLChina

数据库 postgresql 开源 软件 开源社区

微服务框架相关技术整理

架构 微服务

作为产品经理,如何分析和管理你的产品需求?

PingCode

敏捷开发 研发管理 需求管理 需求 研发工具

如果软件测试行业没门槛了,你开心么?

程序员阿沐

软件测试 自动化测试 测试开发 测试工程师 黑盒测试

直流电源防反接电路设计

不脱发的程序猿

嵌入式 28天写作 硬件设计 直流电源 防反接电路设计

Java程序员福音!蚂蚁+字节+腾讯+龙湖地产+美团+滴滴+猿辅导1000+面试题总结

Java架构追梦

Java 架构 面试 金三银四

【黑科技】爬虫也可以一键获取 [加载更多] 数据,无编码学爬虫之三。

梦想橡皮擦

Python 28天写作 3月日更

在敏捷项目管理情境下,如何做多项目管理?

PingCode

敏捷 敏捷开发 研发管理 研发效能 研发工具

最新整理:Google/网易/腾讯/百度/华为面经(25个专题 1W字答案解析)

比伯

Java 编程 程序员 架构 面试

重磅!京东云自研第四代云主机发布;曝国外物理学家开发出用于量子计算机的汇编语言

京东科技开发者

微软 开发者 量子计算机 谷歌

公安合成作战系统!智慧警务情指行一体化建设解决方案

源中瑞-龙先生

公安合成作战系统开发 产品解决方案 情指行一体化 公安

力扣 (LeetCode)-两数之和,有效的括号,两数相加

我是哪吒

面试 算法 LeetCode 28天写作

连续两次入围Gartner魔力象限的Quick BI到底有何魔力?

【LeetCode】二维区域和检索 - 矩阵不可变Java题解

Albert

算法 LeetCode 28天写作

金融行业数据库架构实践与运维

金融行业数据库架构实践与运维

GPT-4都快出来了, GPT-3的一些缺陷仍然被诟病_AI_Gary Marcus_InfoQ精选文章