写点什么

苹果公司的论文探讨了大型推理模型的局限性

  • 2025-07-03
    北京
  • 本文字数:1231 字

    阅读完需:约 4 分钟

大小:603.85K时长:03:26
苹果公司的论文探讨了大型推理模型的局限性

苹果机器学习研究部门发表了一篇题为“思维幻觉”的论文,他们调查了大型推理模型(LRM)在一系列谜题上的能力。研究人员发现,随着谜题复杂性的增加,LRM 遇到了一个“崩溃”阈值。当达到这个阈值时,模型会减少了它们的推理努力。这表明,模型的可扩展性存在限制。

 

在他们的实验中,苹果研究人员选择了包括汉诺塔在内的四个谜题,以及各种 LRM 和标准 LLM,包括o3-miniDeepSeek-R1。每个谜题的复杂性都可以变化,如汉诺塔谜题的圆盘数量可以是可变的。他们发现,随着复杂性的增加,模型行为经历了三个阶段:在第一阶段,对于简单的问题,推理和非推理模型的表现相似。在第二阶段,也就是中等复杂性阶段,具有思维链(CoT)推理的推理模型比 LLM 表现得更好。但在高复杂性阶段,两组的性能都“崩溃到零”。苹果表示:

 

在这项研究中,我们通过问题复杂性的视角探索前沿 LRM 的推理机制……我们的发现揭示了当前模型的基本限制:尽管有复杂的自我反思机制,但这些模型未能发展出超越某些复杂性阈值的可推广推理能力……这些见解挑战了关于 LRM 能力的普遍假设,并且表明当前方法在实现可推广推理方面可能遇到了一些基本障碍。

 

像 o3 和 DeepSeek-R1 这样的 LRM 是 LLM 经过了微调,在产生用户响应之前为自己按步生成指令,本质上,这是模型为了产生更好的答案而进行的“大声思考”。这使得这些模型在许多任务上超越了它们的“标准”LLM,特别是在编码、数学和科学基准测试上。

 

作为实验的一部分,苹果团队分析了这些模型生成的推理痕迹。他们注意到,对于比较简单的问题,模型经常会“过度思考”:正确的解决方案会在痕迹的早期出现,但模型会继续探索错误的想法。然而,在中等复杂性问题中,模型会在找到正确的解决方案之前探索错误的解决方案。

 

在人工智能社区,苹果的论文引发了广泛的讨论。认知科学家 Gary Marcus 对当前人工智能的状态持批评态度。关于这项研究,他写道

 

苹果论文所展示的,最根本的,不管你如何定义[通用人工智能(AGI)],是 LLM 不能替代完善的传统算法。(它们也不能像传统算法那样下棋,不能像有特殊用途的神经符号混合体那样折叠蛋白质,不能像传统数据库那样运行数据库等。)

 

开源开发者兼人工智能评论员Simon Willison指出

 

我对 LLM 是否是“通往 AGI 的道路”不感兴趣。我只关心,一旦你理解了它们的局限性,它们如今是否还有有用的应用。推理 LLM 是这类模型一个相对新颖和有趣的转折。它们显然能够解决以前的 LLM 无法处理的一大堆问题,这就是为什么我们看到了源于 OpenAI、Anthropic、Gemini、DeepSeek、Qwen 和 Mistral 等新模型的热潮....如今对我来说,它们已经是有用的了,无论它们是否能可靠地解决汉诺塔问题....

 

苹果承认,他们的研究有几个局限性,并特别指出,他们的实验主要依赖于“黑盒”API 调用,这使他们无法检查模型的内部状态。他们也同意,使用谜题意味着他们的结论可能无法推广到所有的推理领域。


声明:本文为 InfoQ 翻译,未经许可禁止转载。

 

原文链接:https://www.infoq.com/news/2025/07/apple-illusion-thinking/

2025-07-03 18:004

评论

发布
暂无评论

微信朋友圈高性能复杂度分析

你敢

高性能 微信朋友圈 架构实战营 模块二

架构实战营模块三作业-外包学生管理系统的架构文档

张Dave

别只关注chatGPT能不能写论文了,它还支持49中场景,代码都给你写好了,速领

非喵鱼

Java Python JavaScript openai ChatGPT

2022-12-18:给定一个长度为n的二维数组graph,代表一张图, graph[i] = {a,b,c,d} 表示i讨厌(a,b,c,d),讨厌关系为双向的, 一共有n个人,编号0~n-1, 讨

福大大架构师每日一题

算法 rust 福大大

软件测试 | 测试开发 |面试真题 | 需求评审中从几个方面发现问题

测吧(北京)科技有限公司

测试

2 微信朋友圈高性能架构

梁山伯

架构训练营第10期模块二作业

刘博

软件测试 | 测试开发 | 校招面试 | 一面试就紧张,怎么办?

测吧(北京)科技有限公司

架构实战营 - 模块二作业

落叶挂云霄

如何使用DDD进行设计

SkyFire

DDD

架构训练营模块二作业

现在不学习马上变垃圾

#架构实战营

微服务真的是万能解药吗?

Jackpop

实战训练营-模块八消息队列数据库设计

Geek_b35d92

微信朋友圈高性能架构_模块二作业

Geek_e5f2e5

Windows命令行到底有多强大?

Jackpop

模块二-作业:朋友圈高性能架构

unique

微信朋友圈架构设计

chinandy

架构实战营模块二作业

周烨

运维进阶训练营 -W08H

b1a2e1u1u

运维

有哪些工作是AI无法替代的(59/100)

hackstoic

AI AIGC

【MindStudio训练营第一季】基于MindX的U-Net网络的工业质检实践作业

Angel Wings

华为 AI CANN MindStudio Ascend

springboot整合quartz实现定时任务优化

@下一站

12月日更 12月月更 springboot整合 springboot整合quartz

MySQL数据库迁移到国产数据库Gbase 8s

@下一站

程序设计 国产数据库 12月日更 12月月更 Gbase8s

微信朋友圈之高性能架构设计

Geek_7d539e

第九期 - 模块八

wuli洋

第二周作业

不爱学习的程序猿

作业

架构十期--模块二作业

许你丶

架构训练营10期

URI和URL的区别

穿过生命散发芬芳

url 12月月更

架构训练营模块 2 作业

附加信息

架构训练营10期

SpringBoot3.0自定义stater整合chatGPT49种应用场景代码已开源

非喵鱼

Java springboot openai ChatGPT

消息队列MySQL物理模型设计

π

架构师实战营

苹果公司的论文探讨了大型推理模型的局限性_AI&大模型_Anthony Alford_InfoQ精选文章