写点什么

GPT-5 研发一年半进度堪忧!每轮 5 亿美金训练成本打水漂,还得雇人从头“造数据”

  • 2024-12-24
    北京
  • 本文字数:2130 字

    阅读完需:约 7 分钟

GPT-5 研发一年半进度堪忧!每轮 5 亿美金训练成本打水漂,还得雇人从头“造数据”

研发超过 18 个月却还未见影子的 GPT-5(代号 Orion)项目又有了新爆料。


《华尔街日报》最新报道称,有接近该项目的人士表示,尽管目前 Orion 的表现优于 OpenAI 当前的模型,但当前的进步并不足以证明继续运转新模型所需的巨大成本是合理的。


据知情人士透露,GPT-5 至少进行过两轮训练,每次训练都暴露出新的问题,达不到研究人员的预期。而且,每轮训练耗时数月,仅一轮计算成本就接近 5 亿美元。


总而言之,这个项目是否能成功、何时能成功,目前尚不明确。它还面临着一个更严峻的问题:全球的数据量不足以让它达到理想的智能水平。

训练之路困难重重

自 GPT-4 于 2023 年 3 月发布后,OpenAI 随即投入到 GPT-5 的开发。同年 11 月,Altman 就曾表示不会在 2024 年发布任何名为 GPT-5 的东西。


一般来说,AI 模型的能力会随着其吸收的数据量增加而增强。在训练过程中,模型被灌入数万亿个 tokens,训练可能持续好几个月,并且依赖于成千上万块昂贵且稀缺的计算芯片。Altman 曾透露,单是训练 GPT-4 的成本就超过了 1 亿美元,而未来的 AI 模型训练费用预计将突破 10 亿美元。若训练失败,其后果将如同火箭发射失败一样,造成巨大的损失。


为了减少失败的风险,OpenAI 通常会先进行小规模的试运行,以验证模型设计和训练的可行性。通过这种方式,研究人员可以在正式的大规模训练之前发现并修正潜在问题。


然而,GPT-5 的开发从一开始便遇到了挑战。2023 年中,OpenAI 启动了一个名为“Arrakis”的实验性训练,旨在测试 GPT-5 的新设计。遗憾的是,训练进展缓慢,显示出如果进行更大规模的训练,将会耗费极长时间,并且成本极其高昂。实验结果还表明,GPT-5 的开发比原先预期的要更加复杂和困难。


因此,OpenAI 的研究团队决定对 Orion 进行一系列技术调整,并进一步意识到,现有的公开互联网数据已经无法满足模型的需求。为了提升 GPT-5 的性能,他们迫切需要更多种类和更高质量的数据。

“从零开始创造数据”


据报道,为了应对数据不足的问题,OpenAI 决定“从零开始创造数据”。具体来说,OpenAI 正在雇人编写新的软件代码或解决数学问题,让 Orion 从这些任务中学习。这些人包括软件工程师和数学家,并且还会向 Orion 解释他们的工作过程。


许多研究人员认为,代码作为软件的语言,能够帮助大模型解决它们没有见过的问题,从而提升其解决复杂问题的能力。


Turing 公司首席执行官兼联合创始人 Jonathan Siddharth 表示:“我们是在将人类智慧从人脑转移到机器脑。”


在 AI 的训练过程中,Turing 的一位高管解释说,软件工程师可能会被要求编写一个程序来高效地解决复杂的逻辑问题;而数学家则可能需要计算由一百万个篮球构成的金字塔的最大高度。这些任务的关键不只是得到最终答案,更重要的是 得出答案的思考过程,都会被纳入 AI 的训练材料中


此外,OpenAI 还与理论物理学等领域的专家合作,让他们解释如何解决自己领域中的棘手问题。这些内容也有助于提升 Orion 的智能水平。


但不管怎么说,雇人从头构建数据这个事情,怎么看也不会是个高效的过程。GPT-4 的训练数据约为 13 万亿个 token。如果有 1000 个人每天写 5000 个字,生产 10 亿个 token 也得花费几个月的时间。


为了加速训练,OpenAI 也有用所谓的“合成数据”,即由 AI 生成的数据,来帮助训练 Orion。然而有研究表明,AI 生成数据再用于 AI 训练的反馈循环,有时会导致模型出错或生成毫无意义的答案。


对此,知情人士称,OpenAI 的科学家认为,通过使用 o1 生成的数据可以避免这些问题。

内外夹击下前行


OpenAI 面临的挑战不仅仅是技术层面的,还有内部的动荡和竞争对手几乎不间断的挖角。其次,来自技术和资金的双重压力也在明显增加。每一次的训练耗资高达 5 亿美元,那么最后训练成本就很可能超过 10 亿美元。与此同时,竞争对手的崛起对 OpenAI 构成了更大压力。Anthropic、谷歌等公司纷纷推出新一代模型,试图赶超 OpenAI。


人才流失和内部分歧进一步拖慢了开发进度。去年,OpenAI 董事会突然解雇了 Altman,导致一些研究人员开始质疑公司是否能够继续运作。然而,Altman 很快被重新任命为 CEO,并着手对公司的治理结构进行改革。


今年以来,超过 20 位关键高管、研究人员和长期员工离开了 OpenAI,其中包括联合创始人兼首席科学家 Ilya Sutskever 和技术负责人 Mira Murati。就在前不久,广受尊敬的研究人员 Alec Radford 也宣布离职,他曾在 OpenAI 工作约八年,并主笔了多篇重要论文。


随着 Orion 的进展停滞,OpenAI 开始开发其他项目和应用,包括简化版的 GPT-4 和可以生成 AI 视频的 Sora 产品。但报道也提到,这导致了 不同团队之间争夺有限计算资源的局面,特别是在新产品开发团队和 Orion 研究团队之间,发生了激烈的竞争。


GPT-5 的困境或许揭示了一个更大的行业命题:AI 是否已经接近发展的“瓶颈期”?业内人士指出,依靠海量数据和更大模型的策略正逐渐失效。正如前 OpenAI 科学家苏茨克维尔日前在公开场合所说,“我们只有一个互联网”,数据的增长正在放缓,这一推动 AI 飞跃的“化石燃料”正逐渐枯竭


对于 GPT-5 的未来,Altman 始终未给出明确的时间表,目前我们仍然无法确定 OpenAI 何时或者是否会推出一个值得称为 GPT-5 的模型。


参考链接:

https://www.wsj.com/tech/ai/openai-gpt5-orion-delays-639e7693

2024-12-24 15:417600

评论

发布
暂无评论

双许可、先决条件、附加条款……开源许可证的疑难杂问

一君

javaScript深拷贝和浅拷贝简单梳理

程序猿布欧

JavaScript 前端 深拷贝 浅拷贝 深拷贝与浅拷贝

全面解读OpenHarmony 3.1 Release版本,夯实技术底座 打造繁荣生态

科技汇

JavaScript的事件循环机制浅析

程序猿布欧

JavaScript 前端 前端面试 防抖节流

BIGO 的数据管理与应用实践

NebulaGraph

数据库 图数据库 数据管理

大数据培训学习程序员有必要吗

@零度

大数据开发

想参加培训学习web前端不知道靠不靠谱

@零度

web前端开发

企评家,助力创业板企业成长性评价

企评家

企业评价 企业大数据 创业板 评价维度 成长性

Hoo虎符研究院|Cradle调研报告

区块链前沿News

虎符 Hoo 虎符研究院

Windows服务器运维用什么软件好?不想加班了!

行云管家

运维 IT运维 行云管家 服务器运维 Windows服务器

为安全而生!浪潮云参编的《数据安全法》实施参考(第一版)重磅发布

云安全

什么是敏捷开发,敏捷开发落地指南之迭代排期

阿里云云效

云计算 阿里云 敏捷开发 研发 研发敏捷

培训学习选择java好还是前端好

@零度

JAVA开发 web前端

这是一个有关自律的复杂故事

Coffee Cat

数据分析 监控 自律 跑步 可观测

【阿里云大咖说】填问卷送好礼正式上线,快来参与吧!

大咖说

大咖说 问卷 礼品

手把手推导Ring All-reduce的数学性质

OneFlow

深度学习 reduce-scatter all-gather 环状算法

一文详解Java日志框架JUL

华为云开发者联盟

Java 日志 框架 日志框架 JUL

宣布 Databricks 支持 Amazon Graviton2,性价比提高 3 倍

亚马逊云科技 (Amazon Web Services)

Tech 专栏

跨域处理

源字节1号

软件开发 后端开发 租房小程序

【易安联】安全都是有边界的,零信任也不例外

极客天地

《数字经济全景白皮书》Z世代用户洞察篇(3)重磅发布!

易观分析

用户分析 Z世代

「Substrate Evangelist Program」顺利开幕,期待各位布道者共建 Substrate 生态!

One Block Community

Substrate 区块链资讯 波卡生态 Parity

在MAUI中使用Masa Blazor

MASA技术团队

C# .net 微软 组件 组件库

EasyCV开源|开箱即用的视觉自监督+Transformer算法库

阿里云大数据AI技术

算法 计算机视觉 开源技术

linux监控软件有哪些?用什么软件好?

行云管家

Linux 运维 监控软件

“一个扫描枪一张表”,韵达选择 TDengine 应对每日亿级数据量

TDengine

数据库 tdengine

活动预告 | 洞见科技纪凯受邀出席「隐私计算应用与发展论坛」

洞见科技

OpenHarmony 技术日直播回顾丨共建新技术,开拓新领域

OpenHarmony开发者

OpenHarmony 技术日

新零售SaaS架构:组织管理的底层逻辑与架构设计

AI架构师汤师爷

系统架构 SaaS 架构设计 组织架构

netty系列之:netty对marshalling的支持

程序那些事

Java Netty 程序那些事 4月月更

GPT-5 研发一年半进度堪忧!每轮 5 亿美金训练成本打水漂,还得雇人从头“造数据”_AI&大模型_罗燕珊_InfoQ精选文章