
苹果机器学习研究部门发表了一篇题为“思维幻觉”的论文,他们调查了大型推理模型(LRM)在一系列谜题上的能力。研究人员发现,随着谜题复杂性的增加,LRM 遇到了一个“崩溃”阈值。当达到这个阈值时,模型会减少了它们的推理努力。这表明,模型的可扩展性存在限制。
在他们的实验中,苹果研究人员选择了包括汉诺塔在内的四个谜题,以及各种 LRM 和标准 LLM,包括o3-mini和DeepSeek-R1。每个谜题的复杂性都可以变化,如汉诺塔谜题的圆盘数量可以是可变的。他们发现,随着复杂性的增加,模型行为经历了三个阶段:在第一阶段,对于简单的问题,推理和非推理模型的表现相似。在第二阶段,也就是中等复杂性阶段,具有思维链(CoT)推理的推理模型比 LLM 表现得更好。但在高复杂性阶段,两组的性能都“崩溃到零”。苹果表示:
在这项研究中,我们通过问题复杂性的视角探索前沿 LRM 的推理机制……我们的发现揭示了当前模型的基本限制:尽管有复杂的自我反思机制,但这些模型未能发展出超越某些复杂性阈值的可推广推理能力……这些见解挑战了关于 LRM 能力的普遍假设,并且表明当前方法在实现可推广推理方面可能遇到了一些基本障碍。
像 o3 和 DeepSeek-R1 这样的 LRM 是 LLM 经过了微调,在产生用户响应之前为自己按步生成指令,本质上,这是模型为了产生更好的答案而进行的“大声思考”。这使得这些模型在许多任务上超越了它们的“标准”LLM,特别是在编码、数学和科学基准测试上。
作为实验的一部分,苹果团队分析了这些模型生成的推理痕迹。他们注意到,对于比较简单的问题,模型经常会“过度思考”:正确的解决方案会在痕迹的早期出现,但模型会继续探索错误的想法。然而,在中等复杂性问题中,模型会在找到正确的解决方案之前探索错误的解决方案。
在人工智能社区,苹果的论文引发了广泛的讨论。认知科学家 Gary Marcus 对当前人工智能的状态持批评态度。关于这项研究,他写道:
苹果论文所展示的,最根本的,不管你如何定义[通用人工智能(AGI)],是 LLM 不能替代完善的传统算法。(它们也不能像传统算法那样下棋,不能像有特殊用途的神经符号混合体那样折叠蛋白质,不能像传统数据库那样运行数据库等。)
开源开发者兼人工智能评论员Simon Willison指出:
我对 LLM 是否是“通往 AGI 的道路”不感兴趣。我只关心,一旦你理解了它们的局限性,它们如今是否还有有用的应用。推理 LLM 是这类模型一个相对新颖和有趣的转折。它们显然能够解决以前的 LLM 无法处理的一大堆问题,这就是为什么我们看到了源于 OpenAI、Anthropic、Gemini、DeepSeek、Qwen 和 Mistral 等新模型的热潮....如今对我来说,它们已经是有用的了,无论它们是否能可靠地解决汉诺塔问题....
苹果承认,他们的研究有几个局限性,并特别指出,他们的实验主要依赖于“黑盒”API 调用,这使他们无法检查模型的内部状态。他们也同意,使用谜题意味着他们的结论可能无法推广到所有的推理领域。
声明:本文为 InfoQ 翻译,未经许可禁止转载。
原文链接:https://www.infoq.com/news/2025/07/apple-illusion-thinking/
评论