GPT-5：姗姗来迟、被过度炒作却又令人失望，但这还不是最糟糕的

生成式人工智能产业经历了非常糟糕的一周，GPT-5 的姗姗来迟和令人失望的发布甚至不是其中最糟糕的部分。但在我们讨论最糟糕的部分之前（剧透警告：我将在最后讨论一篇新的研究论文），让我们先来回顾一下 GPT-5 乱糟糟的首秀吧。

这原本应该是 OpenAI 终于确立其业界主导地位的一周。传闻已久的 GPT-5 即将发布，山姆·奥特曼非常自信，以至于在直播首秀之前，他发布了一张来自星球大战电影《侠盗一号》的截图：

人们对此津津乐道。它获得了近六百万的观看次数。

直播开始时，这种自信依旧不减。奥特曼这位资深演员声称：

我们认为你会比以往任何时候都更喜欢使用 GPT-5。它有用，它聪明，它快速[和[直观。GPT-3 用起来有点像和一个高中生交流。

那时有很多亮点，也有很多烦恼，但人们开始使用它并从中获得一些价值。GPT-4o 也许就像和一个大学生交谈……现在有了 GPT-5，就像你对面是一位专家——一个真正的博士级别的专家，在你需要的任何领域，他都可以按需帮助你实现任何目标。

主流媒体大多还没有告诉你的是，几天后，几乎没有人相信奥特曼的故事了。

3000 人非常讨厌 GPT-5，以至于他们成功地请愿要求恢复一个旧模型。在通常非常支持 OpenAI 的 OpenAI reddit 上，热门帖子是这样的：

正如他们在推特上所说，奥特曼的死星推文并没有经受住时间的考验。

与此同时，关于那部星球大战电影，不止几个人开始怀疑奥特曼是否看过这部电影。你可能不熟悉剧情，其实接下来发生的事情是……反抗联盟炸毁了死星（就是他照片里的大家伙）。

OpenAI 基本上自爆了——而且不是以一种好的方式。除了一些一出新模型就夸一通的大 V 外，主流反应是极度失望。

一个系统如果能在一周内不被社区发现大量荒谬的错误和幻觉，那真的会让我印象深刻。

相反，几小时内，人们就开始发布那些常见的荒谬错误。一个 Hacker News 帖子残酷地做了伯努利效应的现场演示。多个帖子指出了一些基准测试中 GPT-5 的性能表现不佳。（不仅仅是我几天前在我的热评中提到的 ARC-AGI-2）。其他人发现新的自动“路由”机制一团糟。这基本上和每个早期模型的体验一样。承诺很美好，错误很愚蠢。

但这次，反应不同了。因为期望值高得离谱，很多人认为 GPT 5 带来了一个巨大的失望。到了晚上，OpenAI 的信誉急剧下降。在“哪家公司[将在 8 月底拥有]最好的 AI 模型”的问题上，Polymarket 的民意调查图表显示，OpenAI 在一小时内从 75%下降到 14%。

Andres Franco 的一条评论很典型，他在 X 上说“GPT 5 是一个巨大的失望，比我预期的要多”。另一位之前是 OpenAI 粉丝的读者告诉我“o3 是一个非常好的模型，[而 GPT-5]是一次彻底的失望，特别是考虑到其发布时的炒作”。一位 NBA 总裁给我发了一条消息说“chatgpt 5 仍然没有解决我最喜欢的两个给 LLM 设计的问题”。

很多人似乎真诚地期望 GPT-5 将成为 AGI。不需要几十年的训练就可以看出 GPT-4 并没有做到这一点。

即使是我的黑粉俱乐部（用现代话说是“Gary haters”）也不得不给我点赞。像“我今天最悲伤的事情是 @garymarcus 是对的”这样的推文变得流行起来。

以更积极的方式，自由记者 Bryan McMahon 写信给我说，“我们都看到 GPT-5 的揭幕失败了——实际上，它失败得如此彻底，以至于许多人在网上称其为‘Gary Marcus Day’，证明了你对大型语言模型结构缺陷的一贯批评是正确的。”

的确，正如我两周前在这里预测的那样，过去 25 年我一直指出的问题仍然存在。例如，考虑我在 6 月底关于国际象棋和世界模型的批评。我在这方面的主要信息来源，Mathieu Acher，很快证实 GPT-5 仍然难以遵循规则。塔夫茨大学的一位教授给我发了一个进一步的例子，其中 GPT-5 在讨论一个简单的国际象棋问题时完全迷失了方向。

或者考虑视觉理解方面：

我们在 12 月讨论的生成图像测试中，GPT-5 在部分和整体的挑战中表现得并不好。（一些人认为这是因为 GPT-5 仍在使用旧模型生成图像，但鉴于新事物应该等同于 AGI 和“完全多模态”，这似乎并不是一个有说服力的借口。）

我相当确定，大多数（如果不是全部）机械工程博士都能做得更好。在自行车店工作的随便什么人也都可以，而且，顺便说一句，也许你的兄弟姐妹也可以。

Émile Torres 对许多立即被发现的错误做了很好的总结。Cameron Williams 在基础阅读总结方面也找了些例子。

话说回来，GPT-5 并不是一个糟糕的模型。我玩了大约一个小时，它实际上回答了我最初的几个问题（例如，以前在计算单词 blueberries 中的“r”数量时遇到的问题已经被纠正）。只有在我尝试使用图像时，它才完全崩溃。

但事实是，GPT-5 与之前的任何东西并没有太大的不同。这就是关键。GPT-4 被广泛认为是对 GPT-3 的一次激进升级；GPT-3 被广泛认为是对 GPT-2 的一次激进升级。GPT-5 只是比上个月的流行模型（Grok 4）略好一些；在某些指标（ARC-AGI-2）上，它实际上更差。

人们已经习惯了期待奇迹，但 GPT-5 只是最新的一次渐进式进步，而且给人的感觉是仓促的，就像一个表情包所展示的那样。

过去我最离谱的一个错误预测是，我认为 OpenAI 会将 GPT-5 这个名字留给真正了不起的东西。我真心没想到 OpenAI 会在如此平庸的东西上浪费这个品牌名。

我错了。

我已经猜测了一两年，如果 GPT-5 令人失望，OpenAI 可能会遭受重创。我们可能很快就会看到结果。

当然，在理性的世界里，他们的估值会受到影响。

他们不再拥有明显的技术领先优势。

GPT-5 不太可能领先于其他模型超过几个月。（而且 Grok 4 Heavy 在 ARC-AGI-2 指标上已经更好了）
他们最优秀的人才已经离开。
许多人离开去创办竞争对手。
Elon 的动作更快。Anthropic 和 Google 等许多人正在紧追不舍。他们与微软的关系已经变得紧张。
OpenAI 仍然没有盈利。
相反，他们被迫降低价格。
人们开始意识到大型语言模型（LLMs）实际上并不接近通用人工智能（AGI）。
人们对这家公司及其首席执行官变得更加怀疑。

OpenAI 拥有品牌知名度和良好的用户体验。这是否足以维持 3000-5000 亿美元的估值？很难说。

按理说，奥特曼的声誉现在应该已经完全毁了。这人在 2023 年 9 月开玩笑说“AGI 已经在内部实现”，在今年 1 月在他的博客上告诉我们“我们现在确信我们知道如何构建我们传统上理解的 AGI”。就在两天前，他告诉我们（如上所述）与 GPT-5 互动我们“就像在和……任何领域的博士级专家交谈”。

事后看来，这一切都是胡说八道。

最糟糕的部分？这是奥特曼自找的。如果他没有一直暗示这是登月级别的壮举，人们可能对另一个渐进式更新也觉得不错。

他甚至可能不再适合担任 OpenAI 的首席执行官：

所以当然，所有这些都显然对 OpenAI 不利。但是，整个生成式人工智能领域又如何呢？其他系统的表现并没有好到哪里去。心理学家 Jonathan Shedler 在批评 Grok 时非常严厉，部分内容是关于 Grok 对他自己的一篇论文的总结：

我是 @grok 在这里描述的论文的作者。这是关于心理治疗结果的阅读和引用最多的文章之一，在世界各地的研究生课程中是必读材料。

Grok 完全搞错了一切

论文表明，精神动力学疗法与认知行为疗法（CBT）一样或更有效。Grok 却说完全相反

论文的标题字面上是“精神动力学心理治疗的有效性”。

论文中主要研究的精神动力学疗法的效果大小是 0.97。Grok 说是 33。0.33 这个数字在论文中任何地方都没有出现。

AI 似乎什么都知道——直到它开始谈论你熟悉的话题

如果 AI 甚至不能准确报告现有的科学进展，它将如何发明新的科学成果？

但我让你等得太久了。在开头和副标题中，我暗示了还有更坏的消息。

真正的新闻是来自亚利桑那州立大学的一项突破性研究，它完全证实了我近 30 年来告诉你的——以及最近苹果告诉你的——关于 LLMs 的核心弱点：它们无法广泛泛化。

物理学家 Steve Hsu 在 X 上写了一个很好的总结；在任何方面，它都证实了被不公平地诽谤但非常重要的苹果推理论文和我近三十年来一直在宣传的，关于分布转移的核心思想：

阅读这篇摘要（思维链推理是“一个脆弱的幻觉，当它被推向训练分布之外时就会消失”）几乎让我产生了似曾相识的感觉。在 1998 年，我写道“普遍性在语言和推理中普遍存在”，但通过实验表明，那个时代的神经网络无法可靠地“将普遍性扩展到[训练]示例空间之外”。

亚利桑那州立大学团队表明，即使在最新的、最伟大的模型中，事情也是一样的。用上 1998 年以来发明的所有工具后，我当时看到的阿喀琉斯之踵仍然存在。这很惊人。连我都没有预料到。

并且，至关重要的是，无法在分布之外进行充分泛化，让我们知道了为什么所有数十次尝试构建“GPT-5 水平模型”的努力都未能命中目标。这不是偶然的。这种失败是有根源的。

在过去几年里，我们一直在不断地被灌输一堆废话。

通用 Agent 给出的结果却糟糕透顶，人们很难找到它们在现实世界中的用例。（还有人记得十年前的 Facebook M 吗？）

据说像神一样的模型结果只是渐进的进步。

声称“我们现在知道如何构建 AGI”却从未成真。

能够改变世界的技术这种承诺很少实现。

无人驾驶汽车仍然只在世界城市中的一小部分可用。

对国会的承诺（AI 来过滤我们的假新闻！AI 监管）很快就变成了假消息。

对未来的幻想、Ilya 所看到的真相，以及无尽的大 V 炒作。

精心挑选的研究成果、基准游戏，现在甚至还有误导人的图表，对于系统如何工作或它们是如何被训练的方面完全没有透明度；公共科学已经成了后视镜中的东西。

我爱 AI。（或者至少是我乐观地想象它可能成为的样子。）

但我讨厌这些废话。

变化的是，很多人也开始厌倦了。用 Zeynep Tufekci 的话来说，AGI 这个术语已经成为“针对投资者和公众的忽悠工具”。

在很多方面，我在这里的工作，即在公共场合解释纯粹扩展方法的局限性——这正是这个 Substack 在 2022 年 5 月一开始做的事情——在将近三年半前已经完成了。任何有智力诚信的人都不应该再相信纯粹的扩展会让我们达到 AGI。我过去 27 年来所做的，让这个领域认识到分布偏移问题的重点这一块也是类似。即使是一些技术迷弟也开始意识到“2027 年的 AGI”是营销，而不是现实。

GPT-5 可能是一种适度的定量的改进（可能更便宜），但它在所有相同的定性方面仍然失败了，就像它的前辈一样，在国际象棋上，在推理上，在视觉；甚至有时在计数和基础数学上。幻觉仍然存在。数十次尝试（Grok、Claude、Gemini 等）都不可避免地面临同样的问题。分布偏移从未被解决。

这正是撞墙的字面意思，在 2022 年我那篇最臭名昭著（且有先见之明）的论文中描述的特定障碍集合中，新模型在某些维度上取得了真正的进步，但在其他方面却停滞不前。

归根结底，认为仅靠规模扩展就能让我们达到 AGI 的想法是一个假设。

没有任何假设得到过如此多的利益，也没有得到过如此多的资金。在那个方向上投入了五万亿美元之后，显然是时候继续前进了。GPT-5 令人失望的表现应该让这一点变得非常清楚。

纯粹的规模扩展根本不是通往 AGI 的道路。事实证明，注意力，LLMs 中的关键组成部分，也是那篇著名的 Transformer 论文的焦点，并不是“你所需要的一切”。

我只是想说，给神经符号 AI 一个机会，它有明确的世界模型。只有当我们拥有能够对世界的持久表示进行推理的系统，包括但不限于抽象符号表示时，我们才真正有机会实现 AGI。

PS：为了说明目的，我在上面撒了一个小谎，假装这周只有一个真正毁灭性的关于 LLMs 的新科学发现。但上述的“海市蜃楼”并不是唯一的问题。实际上，还有另一个——一个完全不同的问题——我将在不久的将来讨论。

原文链接：

https://garymarcus.substack.com/p/gpt-5-overdue-overhyped-and-underwhelming

创作场景

GPT-5：姗姗来迟、被过度炒作却又令人失望，但这还不是最糟糕的