苹果公司的论文探讨了大型推理模型的局限性

苹果机器学习研究部门发表了一篇题为“思维幻觉”的论文，他们调查了大型推理模型（LRM）在一系列谜题上的能力。研究人员发现，随着谜题复杂性的增加，LRM 遇到了一个“崩溃”阈值。当达到这个阈值时，模型会减少了它们的推理努力。这表明，模型的可扩展性存在限制。

在他们的实验中，苹果研究人员选择了包括汉诺塔在内的四个谜题，以及各种 LRM 和标准 LLM，包括o3-mini和DeepSeek-R1。每个谜题的复杂性都可以变化，如汉诺塔谜题的圆盘数量可以是可变的。他们发现，随着复杂性的增加，模型行为经历了三个阶段：在第一阶段，对于简单的问题，推理和非推理模型的表现相似。在第二阶段，也就是中等复杂性阶段，具有思维链（CoT）推理的推理模型比 LLM 表现得更好。但在高复杂性阶段，两组的性能都“崩溃到零”。苹果表示：

在这项研究中，我们通过问题复杂性的视角探索前沿 LRM 的推理机制……我们的发现揭示了当前模型的基本限制：尽管有复杂的自我反思机制，但这些模型未能发展出超越某些复杂性阈值的可推广推理能力……这些见解挑战了关于 LRM 能力的普遍假设，并且表明当前方法在实现可推广推理方面可能遇到了一些基本障碍。

像 o3 和 DeepSeek-R1 这样的 LRM 是 LLM 经过了微调，在产生用户响应之前为自己按步生成指令，本质上，这是模型为了产生更好的答案而进行的“大声思考”。这使得这些模型在许多任务上超越了它们的“标准”LLM，特别是在编码、数学和科学基准测试上。

作为实验的一部分，苹果团队分析了这些模型生成的推理痕迹。他们注意到，对于比较简单的问题，模型经常会“过度思考”：正确的解决方案会在痕迹的早期出现，但模型会继续探索错误的想法。然而，在中等复杂性问题中，模型会在找到正确的解决方案之前探索错误的解决方案。

在人工智能社区，苹果的论文引发了广泛的讨论。认知科学家 Gary Marcus 对当前人工智能的状态持批评态度。关于这项研究，他写道：

苹果论文所展示的，最根本的，不管你如何定义[通用人工智能（AGI）]，是 LLM 不能替代完善的传统算法。（它们也不能像传统算法那样下棋，不能像有特殊用途的神经符号混合体那样折叠蛋白质，不能像传统数据库那样运行数据库等。）

开源开发者兼人工智能评论员Simon Willison指出：

我对 LLM 是否是“通往 AGI 的道路”不感兴趣。我只关心，一旦你理解了它们的局限性，它们如今是否还有有用的应用。推理 LLM 是这类模型一个相对新颖和有趣的转折。它们显然能够解决以前的 LLM 无法处理的一大堆问题，这就是为什么我们看到了源于 OpenAI、Anthropic、Gemini、DeepSeek、Qwen 和 Mistral 等新模型的热潮....如今对我来说，它们已经是有用的了，无论它们是否能可靠地解决汉诺塔问题....

苹果承认，他们的研究有几个局限性，并特别指出，他们的实验主要依赖于“黑盒”API 调用，这使他们无法检查模型的内部状态。他们也同意，使用谜题意味着他们的结论可能无法推广到所有的推理领域。

声明：本文为 InfoQ 翻译，未经许可禁止转载。

原文链接：https://www.infoq.com/news/2025/07/apple-illusion-thinking/

创作场景

苹果公司的论文探讨了大型推理模型的局限性