写点什么

天塌了,Scaling Law 已撞收益递减墙?OpenAI 在内,所有大模型都正遭遇巨大瓶颈

  • 2024-11-12
    北京
  • 本文字数:2407 字

    阅读完需:约 8 分钟

大小:1.08M时长:06:18
天塌了,Scaling Law 已撞收益递减墙?OpenAI 在内,所有大模型都正遭遇巨大瓶颈

整理 | 华卫、核子可乐


近日,有外媒报道称,OpenAI 正在制定新策略,以应对人工智能大模型改进速度放缓的问题。消息一出,知名认知科学家、AI 研究员 Gary Marcus 立即表示,“正如我所说,GPT 正在进入收益递减的时期。”而近期,遭遇发展瓶颈的大模型似乎并不只有 GPT,所遇到的问题也远不仅于一个。



OpenAI 在内,都撞到了同一堵墙


根据 The Information 的最新报道,OpenAI 的下一个旗舰模型可能不会像其“前辈”那样带来巨大的飞跃。测试代号为 Orion 的新模型的 OpenAI 员工发现,尽管它的性能超过了 OpenAI 的现有模型,并且只完成了 20% 的训练就达到了 GPT-4 的水平,但与从 GPT-3 到 GPT-4 的巨大飞跃相比,整体质量的提升要小得多。


换句话说,GPT 的升级速度似乎正在放缓。事实上,Orion 在某些领域(如编码)可能并不会比以前的模型更好。对于此前有关其旗舰车型计划的消息时,OpenAI 方面表示:“我们今年没有发布 Orion 模型的计划。


报道提到,GPT 开发速度放缓的部分原因是用于预训练的文本和数据供应减少(预训练有助于 LLM 理解概念之间的关系,从而解决起草内容或调试代码等任务)。根据 OpenAI 员工和研究人员的说法,该公司现在难以获得高质量的培训数据,开发人员已经耗尽了网站、书籍和其他用于预培训的公开文本。


为了解决这些问题,OpenAI 成立了一个基础团队,以研究如何在新训练数据不断减少的情况下继续改进其模型的新策略。据介绍,新策略包括在利用人工智能模型生成的合成数据训练模型,以及在后期训练过程中对具有有限新数据的模型进行更多改进。


这种减速或表明,由于数据稀缺和硬件成本飙升等因素,对大模型来说,传统的扩展改进可能已经达到极限。“传统 scaling laws 下的 LLM 进展可能会放缓”,有研究人员和企业家担心,生成式 AI 已经遇到了障碍,即使如 OpenAI 般急于扩大该技术使用规模的公司,也发现这在实践中很棘手。



类似的困境不止出现在 OpenAI,还有其他前沿实验室在这方面遇到更严重的问题。据数据科学家 Yam Peleg 曝料,从某个前沿实验室传出消息,他们试图通过更长时间的训练和使用越来越多的数据来强行获得更好的结果,结果却意外地达到了一个巨大的收益递减墙(比公开发布的更严重)。



“因此,我认为可以肯定的是,所有主要参与者都已经达到了训练时间更长、收集数据更多的极限… 现在的关键是数据质量,而这需要时间。”Peleg 表示。而这样的说法正在被不少人认同,有网友表示,“所有的实验室似乎都撞到了这样的墙。”



总而言之,目前可能需要新的方法来推动 AI 技术超越其当前的极限。


“LLM 只会照本宣科”,一生变就崩溃?


“我们的数据用完了。合成数据始终意味着提炼现有模型,而不是向人类学习。”一位网友在听到消息后这样说道。



另一位网友则表示,“未来应该是 LLM 与推理模型相结合,推理能力越强,效果越好。天不会塌下来。”



然而,最近麻省理工学院的一项研究却引发了许多人对于大模型本身理解和学习能力的诸多质疑,甚至有网友锐评道,“LLM 只会照本宣科,而不能像人类甚至其他动物那样将所学到的知识应用于新事物。”


研究人员发现,尽管生成式 AI 的输出令人印象深刻,但其对世界并没有连贯的理解。也就是说,一旦任务或者环境稍有变化,之前表现良好的模型可能会瞬间崩溃。


研究人员重点研究的是 transformer 模型,一类在随机生成的序列数据之上训练而成,另一类则由遵循策略生成的数据训练而成。并将评估示例放在确定性有限自动化(DFA)的问题上,分别是在纽约市的街道上导航以及玩棋盘游戏。


在导航的应用例中,虽然模型能够近乎完美地为用户提供纽约市的导航路线,但当研究人员封闭部分街道再添加绕行路线之后,其性能则会显著下降。哈佛大学博士后 Keyon Vafa 表示,“令人惊讶的是,只要添加一条绕行路线,模型性能就会迅速下降。哪怕我们只封闭掉 1% 的街道,准确率就会立即从接近 100% 下降到 67%。”


但两类 transformer 模型都没能在导航示例中形成连贯的世界模型,并且研究人员在还原模型生成的城市地图时发现,该地图往往包含随机方向的天桥或者大量现实中并不存在的街道。


而在棋盘游戏的示例中,他们发现 transformer 无需了解任何规则,就几乎能够准确预测游戏中的有效棋路。Vafa 解释道,“棋盘游戏中,如果你看到的是两台随机计算机在下棋,而不是冠军棋手在下棋,理论上你会看到所有可能的棋步,甚至是冠军棋手不会走的坏棋。”


令人惊讶的是,研究人员发现随机做出选择的 transformers 反而形成了更准确的世界模型,这可能是因为它们在训练期间接触过更多潜在的下一步棋路。不过,尽管 transformers 几乎在所有情况下都能生成准确的方向和有效的棋路,只有后一类模型能够生成连贯的世界模型。


研究人员强调,“看到这些模型那令人印象深刻的表现,我们往往认为它们一定是对现实世界有所了解。但我想提醒大家的是,这个问题不可轻下结论,更不能单凭直觉就言之凿凿。”


结   语


对于目前大模型发展中显现的这些瓶颈,有网友提出了一些有趣的想法。


一位网友建议,“我想知道是否有可能将 LLM 与 Cyc(一个逻辑引擎和生活常识规则数据库)连接起来。该引擎可以找到语言模型(文本)和 Cyc 模型之间的最佳匹配,并对较短的候选模型(最小的逻辑图)进行加权。从语言模型生成候选 Cyc 模型可能首先需要大量的训练。”



还有一位网友表示,“现在需要人形机器人来改进 scaling law。如果没有机器人在现实世界中亲身经历的纯数据,GPT 就不可能得到改进。”



参考链接:


https://techcrunch.com/2024/11/09/openai-reportedly-developing-new-strategies-to-deal-with-ai-improvement-slowdown/


https://x.com/amir/status/1855367075491107039


https://www.eecs.mit.edu/despite-its-impressive-output-generative-ai-doesnt-have-a-coherent-understanding-of-the-world/


https://slashdot.org/story/24/11/10/1911204/generative-ai-doesnt-have-a-coherent-understanding-of-the-world-mit-researchers-find


2024-11-12 16:003870

评论

发布
暂无评论
发现更多内容

EMQ 映云科技与 RT-Thread 达成战略合作,共建产业物联网平台

EMQ映云科技

人工智能 云计算 大数据 物联网 emq

如何在MacOS上无缝切换Win11和MacOS?

Zhendong

MacBook m1 Parallels

架构训练营 模块一

Leach Sun

springboot项目集成docker

try catch

Docker Dockerfile springboot

令我入职阿里的750页微服务架构深度解析文档有何神秘之处?

Java 编程 架构 面试 架构师

为什么UI自动化难做?—— 关于Selenium UI自动化的思考

LigaAI

测试 UI自动化

论亚马逊QLDB与腾讯TDSQL对历史数据的管理和计算

腾讯云数据库

数据库 tdsql

TDSQL:关于未来,数据库大咖们都聊了什么?

腾讯云数据库

数据库 tdsql

在同一台计算机中运行多个MySQL服务

Java 数据库 后端 msyql

「技术点串烧」☕【Java 技术指南】「难点-核心-遗漏」Java线程状态流转及生命周期的技术指南!

码界西柚

Java 线程 Thread 9月日更

低代码的5个误区,你踩雷了吗?

禅道项目管理

低代码 开发

安卓工控主板双网口有什么用途?

双赞工控

安卓主板 工控主板

腾讯云 TDSQL 审计原理揭秘

腾讯云数据库

数据库 tdsql

高性能利器:CDN我建议你好好学一下!

九灵

Java 分布式 微服务 CDN

精品!阿里P7爆款《K8s+Jenkins》技术笔记,高质量干货必收藏

Java 程序员 架构 面试 k8s

“小巨人”的转型烦恼,百度智能云能否解压?

百度开发者中心

人工智能 企业资讯 中小企业

TDSQL:从自主可控金融级数据库看腾讯“智能+”技术中台之路

腾讯云数据库

数据库 tdsql

微信或推出聊天记录云备份付费服务,你的微信记录值多少钱?

郑州埃文科技

云服务 微信聊天 数据风险管理

你的 SQL 还在回表查询吗?快给它安排上覆盖索引

Java MySQL 数据库 后端

华为云GaussDB首次亮相2021服贸会,为数字人民币提供坚实数据底座

华为云数据库小助手

金融科技 数字经济 GaussDB 华为云数据库

为数据赋能:腾讯TDSQL分布式金融级数据库前沿技术 - 云+社区 - 腾讯云

腾讯云数据库

数据库 tdsql

揭秘TDSQL-A:兼容Oracle的同时支持海量数据交互

腾讯云数据库

数据库 tdsql

一文读懂数据库最新技术趋势:TDSQL带你深度纵览VLDB 2019

腾讯云数据库

数据库

2021云计算白皮书发布,腾讯云原生数据库TDSQL-C助力共建云上技术生态

腾讯云数据库

数据库 tdsql

腾讯云数据库TDSQL两篇论文入选数据库顶会SIGMOD,产学研结合助力国产数据库生态建设

腾讯云数据库

数据库 tdsql

TDSQL:深度剖析数据库国产化迁移之路

腾讯云数据库

数据库 tdsql

Android技术分享| 开源Demo any自习室布局架构

anyRTC开发者

音视频 移动开发 在线自习室 Android技术分享

打爆怪兽 一起来养猪 养蜂人 幸福饭店

游戏开发_软件开发

软件 App 开发 游戏 语音合成

狂刷《Java权威面试指南(阿里版)》,冲击“金九银十”有望了

Java 编程 架构 面试 程序人生

浅析 DDD 领域驱动设计

牧小农

DDD 领域驱动

把工作讲给家人听

FunTester

读书笔记 FunTester 奈非文化手册 办公效率 居家工作

天塌了,Scaling Law 已撞收益递减墙?OpenAI 在内,所有大模型都正遭遇巨大瓶颈_AI&大模型_华卫_InfoQ精选文章