限时领|《AI 百问百答》专栏课+实体书(包邮)! 了解详情
写点什么

苹果公司的论文探讨了大型推理模型的局限性

  • 2025-07-03
    北京
  • 本文字数:1231 字

    阅读完需:约 4 分钟

大小:603.85K时长:03:26
苹果公司的论文探讨了大型推理模型的局限性

苹果机器学习研究部门发表了一篇题为“思维幻觉”的论文,他们调查了大型推理模型(LRM)在一系列谜题上的能力。研究人员发现,随着谜题复杂性的增加,LRM 遇到了一个“崩溃”阈值。当达到这个阈值时,模型会减少了它们的推理努力。这表明,模型的可扩展性存在限制。

 

在他们的实验中,苹果研究人员选择了包括汉诺塔在内的四个谜题,以及各种 LRM 和标准 LLM,包括o3-miniDeepSeek-R1。每个谜题的复杂性都可以变化,如汉诺塔谜题的圆盘数量可以是可变的。他们发现,随着复杂性的增加,模型行为经历了三个阶段:在第一阶段,对于简单的问题,推理和非推理模型的表现相似。在第二阶段,也就是中等复杂性阶段,具有思维链(CoT)推理的推理模型比 LLM 表现得更好。但在高复杂性阶段,两组的性能都“崩溃到零”。苹果表示:

 

在这项研究中,我们通过问题复杂性的视角探索前沿 LRM 的推理机制……我们的发现揭示了当前模型的基本限制:尽管有复杂的自我反思机制,但这些模型未能发展出超越某些复杂性阈值的可推广推理能力……这些见解挑战了关于 LRM 能力的普遍假设,并且表明当前方法在实现可推广推理方面可能遇到了一些基本障碍。

 

像 o3 和 DeepSeek-R1 这样的 LRM 是 LLM 经过了微调,在产生用户响应之前为自己按步生成指令,本质上,这是模型为了产生更好的答案而进行的“大声思考”。这使得这些模型在许多任务上超越了它们的“标准”LLM,特别是在编码、数学和科学基准测试上。

 

作为实验的一部分,苹果团队分析了这些模型生成的推理痕迹。他们注意到,对于比较简单的问题,模型经常会“过度思考”:正确的解决方案会在痕迹的早期出现,但模型会继续探索错误的想法。然而,在中等复杂性问题中,模型会在找到正确的解决方案之前探索错误的解决方案。

 

在人工智能社区,苹果的论文引发了广泛的讨论。认知科学家 Gary Marcus 对当前人工智能的状态持批评态度。关于这项研究,他写道

 

苹果论文所展示的,最根本的,不管你如何定义[通用人工智能(AGI)],是 LLM 不能替代完善的传统算法。(它们也不能像传统算法那样下棋,不能像有特殊用途的神经符号混合体那样折叠蛋白质,不能像传统数据库那样运行数据库等。)

 

开源开发者兼人工智能评论员Simon Willison指出

 

我对 LLM 是否是“通往 AGI 的道路”不感兴趣。我只关心,一旦你理解了它们的局限性,它们如今是否还有有用的应用。推理 LLM 是这类模型一个相对新颖和有趣的转折。它们显然能够解决以前的 LLM 无法处理的一大堆问题,这就是为什么我们看到了源于 OpenAI、Anthropic、Gemini、DeepSeek、Qwen 和 Mistral 等新模型的热潮....如今对我来说,它们已经是有用的了,无论它们是否能可靠地解决汉诺塔问题....

 

苹果承认,他们的研究有几个局限性,并特别指出,他们的实验主要依赖于“黑盒”API 调用,这使他们无法检查模型的内部状态。他们也同意,使用谜题意味着他们的结论可能无法推广到所有的推理领域。


声明:本文为 InfoQ 翻译,未经许可禁止转载。

 

原文链接:https://www.infoq.com/news/2025/07/apple-illusion-thinking/

2025-07-03 18:007874

评论

发布
暂无评论

堪比文件传输助手!解决文本、图片、视频、音乐跨设备同步难题!

彭宏豪95

软件推荐 文件传输 数据同步 在线白板 浏览器插件

购买小间距LED显示屏需要考虑8个方面

Dylan

领域 LED LED显示屏 实用指南

如何调用API获取你想要的数据

Noah

容器安全和安全运行时的重要性

极客天地

Denodo全球CEO兼创始人Angel Viña访华 共襄中国经济数字化转型新机遇

科技汇

《完蛋!我被美女包围了》突然火了!世界首个开源贡献榜出炉丨 RTE 开发者日报 Vol.75

声网

云桌面是否可以运行3D软件

青椒云云电脑

桌面云 云桌面

外贸网站建设攻略:如何建设一个高效的外贸网站

九凌网络

软件测试/测试开发丨利用ChatGPT自动生成架构图

测试人

人工智能 软件测试 ChatGPT

自动化混沌工程 ChaosMeta V0.6 版本发布

ChaosMeta

云原生 自动化 稳定性 混沌工程 攻防演练

终身学习支持非结构化场景 | KubeEdge-Ianvs v0.2 发布

华为云原生团队

云计算 容器 云原生 边缘计算 kubeedge

如何使用查看器筛选、搜索功能进行数据定位?

观测云

数据分析 数据可视化

基于eBPF的云原生可观测实践

谐云

语音识别技术在智能客服领域的应用与优化

数据堂

IoT与鸿蒙、低代码、生成式AI,引爆技术浪潮——华为云开发者日南京站成功举办

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 华为云开发者日

语音识别技术在智能家居领域的创新应用与挑战

数据堂

2023-11-01:用go语言,沿街有一排连续的房屋。每间房屋内都藏有一定的现金, 现在有一位小偷计划从这些房屋中窃取现金, 由于相邻的房屋装有相互连通的防盗系统,所以小偷 不会窃取相邻的房屋, 小

福大大架构师每日一题

福大大架构师每日一题

2023年度openEuler领先商业实践遴选征集工作正式启动

彭飞

低代码可视化平台 快速搭建油库2D组态管理平台

2D3D前端可视化开发

物联网 可视化 组态软件 组态工具 智慧油库

低代码,程序员提高生产力的开发工具

互联网工科生

低代码开发 JNPF

如何利用 NFTScan NFT API 在 Aptos 网络上进行 Web3 应用程序开发

区块链软件开发推广运营

交易所开发 dapp开发 区块链开发 链游开发 NFT开发

软件测试/测试开发丨如何利用ChatGPT完善简历

测试人

人工智能 软件测试 ChatGPT

低代码PAAS加速推进企业数字化转型

力软低代码开发平台

低代码 信息化 PaaS平台

语音识别技术在医疗健康领域的应用与挑战

数据堂

苹果公司的论文探讨了大型推理模型的局限性_AI&大模型_Anthony Alford_InfoQ精选文章