AICon 深圳站聚焦 Agent 技术、应用与生态,大咖分享实战干货 了解详情
写点什么

GPT-5 被批过度炒作、性能落后,OpenAI 联创揭秘其中原因:我们把它关在 “象牙塔”,和现实世界接触不够

  • 2025-08-19
    北京
  • 本文字数:14099 字

    阅读完需:约 46 分钟

大小:6.70M时长:39:03
GPT-5被批过度炒作、性能落后,OpenAI联创揭秘其中原因:我们把它关在 “象牙塔”,和现实世界接触不够

三年前,Sam Altman 凭借 ChatGPT 将 OpenAI 打造成一种文化现象。如今,他将目光投向了真正的盈利之地 —— 企业市场。​

 

OpenAI 最新人工智能模型 GPT-5 的发布并不顺利。由于批评者猛烈抨击该模型不够直观,最终公司不得不将付费聊天机器人用户的模型恢复为原有的 GPT-4。​

 

但实际上,GPT-5 的目标用户并非普通消费者,它是 OpenAI 进军企业市场的重要举措。而在企业市场,竞争对手 Anthropic 早已占据先机。​

 

在 GPT-5 发布一周后,Cursor、Vercel 和 Factory 等初创公司纷纷表示,已将 GPT-5 作为部分关键产品和工具的默认模型,并且宣称 GPT-5 设置速度更快,在复杂任务上的表现更出色,价格也更低廉。​

 

一些公司指出,GPT-5 目前在代码和界面设计方面已能与 Claude 相匹敌,甚至实现了超越,而 Anthropic 曾在这一领域占据主导地位。​

 

另一家企业客户 Box,一直在针对长篇、逻辑性强的文档对 GPT-5 进行测试。其首席执行官亚伦・莱维向 CNBC 表示,该模型是一项 “突破”,其推理能力是以往系统无法比拟的。​

 

JetBrains 已将 GPT-5 设为其 AI Assistant 和 Kineto(一款用于构建网站和应用程序的新型无代码工具)的默认语言,此前该公司发现 GPT-5 可以根据用户提示更快速地生成简单、单一用途的工具。开发者平台 Factory 表示,它与 OpenAI 密切合作,将 GPT-5 设为其工具的默认语言。

 

Factory 首席执行官马坦·格林伯格 (Matan Grinberg) 表示:“在制定真正完善的计划来实施复杂的编码解决方案方面,GPT-5 要好得多。它在规划和长期计划的连贯性方面做得更好。”

 

Grinberg 补充说,GPT-5 与他们的多智能体平台很好地集成在一起:“它可以很好地与我们同时管理的许多高级细节和低级实现细节配合得很好。”

 

定价灵活性也是 Factory 决定默认使用 GPT-5 的一个主要因素。

 

“定价是我们最终用户最关心的问题,”Grinberg 说道,并补充道,更便宜的推理功能现在让客户更乐于尝试。他们无需再纠结某个问题是否值得花费,而是可以“更轻松地即兴发挥”,毫不犹豫地探索各种想法。

 

Lovable 公司联合创始人兼首席执行官安东·奥斯卡 (Anton Osika) 表示,他的团队在 GPT-5 正式发布前几周就对其进行了 Beta 测试,并对这一改进“非常满意”。Lovable 是一家开发人工智能工具的公司,该工具可让任何人在不编写任何代码的情况下创建真正的软件业务。

 

“我们发现它更加强大,在许多复杂的用例中表现得更加智能,”Osika 说道,并补充说,新模型“更容易采取行动并反思所采取的行动”,并且“花费更多时间来确保它确实正确无误”。

 

这些来自企业用户的积极反馈,不仅印证了 GPT-5 在企业市场的潜力,也为 OpenAI 在该领域的深耕注入了信心。而在技术迭代与市场拓展的背后,OpenAI 对于模型发展、技术方向乃至终极目标的思考同样备受关注。

 

近日,OpenAI 联合创始人兼总裁 Greg Brockman 在一档访谈栏目中与 Kernel Labs 创始人 Allesio 和支持人 Swyx 分享了他的见解,内容涉及 GPT-5 和 GPT-OSS、软件工程的未来、强化学习仍在扩展的原因以及 OpenAI 计划如何实现 AGI。

 

以下为访谈内容翻译,AI 前线做了不改变原意的编辑:

 

Allesio:恭喜你们最近的成果——GPT-5、开源模型,还有 OpenAI 最近的一系列发布。上周真是疯狂的一周,对吧?

 

Greg Brockman:是的,绝对疯狂。在同一周里发布了这么多东西,感觉很特别。我们发布了开源模型,这是我们筹备已久的成果,凝聚了 OpenAI 很多最新的进展,而且体量很小,使用门槛很低。仅仅几天,就有上百万次下载。我们还发布了 GPT-5,这是我们酝酿已久的项目。现在它终于走向世界,整个团队完成了发布,我对此感到非常自豪。

OpenAI 推理模型发展历程

 

Swyx:GPT-5 是你们第一个混合型模型。很多人都知道你最早和 Ilya 一起创立了 OpenAI 的「推理团队」。能不能简要回顾一下 OpenAI 在推理方向上的历程?从最初的“下一词预测”,到后来觉得推理非常重要,再到今天 GPT-5 已经把推理部分隐藏在用户背后,这条路径是怎么走过来的?

 

Greg Brockman:在我们训练完 GPT-4 之后,就得到一个真正可以对话的模型。我记得当时我们做了后训练(post-training),让它学会遵循指令。我们给了一个数据集:这是问题,这是理想的回答。结果发现,如果继续追问,它居然能根据之前的问答链条来生成新的回答。那一刻我们意识到:这个模型居然能“聊天”。它并不是为聊天训练出来的,但却能利用上下文完成对话。

 

我还记得有一次研究会议,参加的人有 Yakup、Ilya、Voych 等人。会上我们讨论:为什么这还不是 AGI?它显然不是 AGI,但很难解释清楚为什么。它几乎能回答你提出的任何问题,但不够可靠,会犯错,会偏离正轨。这就是差距。那么要怎么弥补?最明显的答案就是:让它在世界里检验自己的想法,做强化学习,尝试假设、得到反馈,从而变得更可靠。

 

其实这对我们来说不是新概念。早在 2017 年,我们就在做 Dota 项目,全是强化学习,没有靠人类示范的行为克隆。只是从随机初始化的神经网络开始,模型就能学到非常复杂、正确的行为。而那种可靠性,正是我们想要语言模型具备的。

 

所以在训练完 GPT-4 的时候,我们就清楚必须进入推理范式,问题只是“怎么实现”。我们有十几种想法和假设,大家都去尝试,大多数都失败了,但至少有一种被我们做成了。这就是关键:不断尝试,遇到一点成功的迹象就继续深挖,慢慢成长。

 

现在 Jerry 领导着我们的强化学习团队,取得了巨大进展。基础设施方面有 Wenda,推理侧有 Felipe,还有很多同事——真的是整个 OpenAI 很多人多年努力的成果。

 

Allesio:在之前的 AI 工程师大会上,你提到过你很喜欢图灵的那篇论文,它也在某种程度上启发了你进入机器学习的道路。我觉得他其实预见到学习机器会部分在线化。我一直在思考,从 GPT-3 到 GPT-4 再到 GPT-5,这个过程是不是可以理解为:一开始学习都是离线的、预训练的,现在则慢慢向在线学习转变。你觉得这个说法准确吗?

 

Greg Brockman:我觉得这是一个非常有趣的问题:学习到底发生在哪里?我认为我们还没有真正达到人类完整的学习循环。其实人类是不是完全在线学习都还不明确。比如说,你会睡觉,在睡眠中有很多类似“反向传播”的过程,把信息整合到长期记忆里。所以人类学习的方式和机器的学习方式并不是一一对应的。

 

但我们确实在发生转变:从过去那种“只训练一次,然后只做推理”的模式,变成了“在推理过程中产生数据,再用这些数据来继续训练”。Ilya 常说过一句很精辟的话:当模型能力很弱时,它生成的每一个 token 的价值都很低;但当模型能力极强时,它生成的每一个 token 的价值就非常高——那可能是一条很有思考性的内容,很重要。而强化学习的特性就是:模型会不断尝试,产生大量数据,再用这些数据进行训练。这样模型的观察结果,会通过与现实的接触被筛选出来,再反馈进系统里。这正是我们现在逐渐学会利用的东西。

 

但所需的规模差异很大。预训练时,如果你只有十个例子,根本学不到什么,你需要几十万的样本量,才能学到一点东西。这和人类学习方式完全不同。你可以把它类比为重演整个进化过程,再加上人类二十年的成长历程,其间充满了海量的观察与感官信息。

 

不过在强化学习的范式下,如果你只有十个例子,或者一百个例子,模型通过不断尝试和反馈,还是能从中学到东西。所以人类设计任务的价值非常高,能够让模型产生复杂的行为。下一步就是让模型在运行中边做边学,实现真正的在线学习。我们现在还没做到,但未来还没有写死。

 

模型瓶颈永远是算力

 

Swyx:我们之前和 Noam Brown 讨论过“样本效率”的问题。你觉得现在的瓶颈还是在人类数据策划上——也就是人类设计优质任务来驱动强化学习吗?还是瓶颈在模型的样本效率?

 

Greg Brockman:瓶颈永远是算力。真的。很明显,如果给我们足够多的算力,我们一定能找到方法来迭代,并充分利用这些算力。

 

当然,现在我们确实有了更高样本效率的算法,特别是在强化学习范式下。但这仍然需要巨大的算力。比如说,一个人类设计了一个任务,或者十个、一百个任务。模型不是只尝试一次或十次,而是尝试一万次,反复去完成这个任务。我们再从这些尝试里选择和学习。这样人类设计任务的价值极高,但要让它真正起作用,就需要成比例地投入更多算力。

 

Allesio:我觉得这是一个“用更多算力扩展学习过程”的方式。实际上,Alan Turing 很早就预见过这一点。他提出过“超临界学习”(supercritical learning)与“亚临界学习”(subcritical learning)的区别。亚临界学习指的是机器只学会了我们刚刚教的那件事。而超临界学习则意味着,它还能推演出第二、第三、第四层影响,把刚学到的知识更新到整个知识体系中。所以问题是:我们要如何更有创造性地利用更多算力?如果我们有十倍的算力,我们会怎么用?我只能说——我们一定会找到办法。

 

Greg Brockman:我会说——我们一定能找到用武之地。我是认真的。比如回顾当年我们做 Dota 的时候,一开始大家都觉得当时的强化学习算法是无法扩展的,所有人都这么认为。但 Yakob 和 Chimon 提出一个问题:“为什么我们这么相信?有人真正尝试过把传统的 PPO(近端策略优化)规模化吗?”答案是没有。所以他们决定:“好吧,那我们就先把这个作为基线试试。”

 

我记得那段时间,每周回到办公室,他们都会把算力翻倍,结果智能体的真实技能水平就直线上升。于是我们意识到:你只要不断扩展,直到真的遇到瓶颈。但实际上,我们始终没有遇到“算法本身的瓶颈”,唯一遇到的障碍都是工程上的,比如 bug、网络初始化方式、尺度不变性之类的问题。而这些都不是科学原理层面的障碍。

 

所以我觉得我们所处的世界,就是不断在各个维度上扩展。有时候确实会遇到“墙”,但更多时候那只是 bug 或一些无关紧要的问题,修复后就能继续前进。当然有时修复的代价太高,不值得投入,那我们就会选择把算力用在其他维度上。比如,要不要让模型更大、投入更多预训练算力?还是更多地推向强化学习,在测试阶段用算力?算力可以分配到很多不同维度。

 

在某种意义上,我觉得算力就是一个精炼的过程:从能量变成算力,再变成智能。就像把算力“结晶化”为潜在能量,随后可以转化为模型执行有用任务的能力。这是一件很美妙的事情。算力是智能的燃料,它塑造了神经网络,输出了一个程序。而这个程序的好处在于:虽然训练时投入了大量算力,但之后你可以无数次复用它,这相当于摊薄了成本。这真的是一个非常优雅的范式。

 

Swyx:就像是把动能转化为模型里的势能。那么你觉得,我们已经“注入”到模型里的这些潜在能量,是否能再转化回动能,用来解决其他领域的难题?就像我们拿下了 IMO 金牌一样,这些通用技术和基础模型能否让我们在其他领域也实现同样的突破?还是说仍然需要一些额外的工作?

 

Greg Brockman:其实我们已经有很好的证据了。比如说,IMO(数学奥赛)模型也能在 IOI(信息学奥赛)里拿到金牌。虽然任务形式稍有不同,但核心模型并没有做专门训练,这只是几个人顺便做的一个“副项目”。结果却是以前需要大规模研究团队才能攻克的难题,现在三个人就能做到。这件事本身就很疯狂。

 

当然,一些领域可能需要一定的专项化,比如额外的数据集或者小范围调整。但本质上,我们现在拥有的是一种通用学习技术,而“学习如何解决难题”本身就是一种可以迁移的技能。会解高难度数学题、会写证明,也能迁移到编程竞赛题。

 

当然,如果你从没做过物理实验,从没实际混合过化学试剂,那模型也不会“魔法般”地擅长这些。泛化还是有局限性,需要真实世界的经验去弥补。但这些模型已经走得非常远了,甚至超出了常理。

 

比如我们看到湿实验室的科学家,用 GPT-3 这类模型来提出实验假设。模型可能给出 5 个点子,4 个不行,但有 1 个可行。而这个成果的水平,足以发表在中等层级的学术期刊上(相当于博士三四年级学生的成果)。这就很惊人了。

 

而且我们也清楚如何改进它们:需要更多算力、需要更好的任务设定、需要人类的大量投入与爱与努力。最终我们得到一个模型,它内部储存着巨大的“潜能”,而且不是一次性释放,而是作为检查点,可以反复应用于无数任务。这就是为什么它真的能提升整个人类的生产力。

 

Allesio:太鼓舞人心了。我想回到你刚才提到的“墙”。我和 Noam Brown 曾经争论过一个问题:RL 可能会遇到“时间墙”。比如在模拟环境里,我们可以加速迭代,但最终还是要对齐真实世界的时钟。在逼近真实世界建模时,我们可能会遇到迭代速度的极限。你怎么看?

 

Greg Brockman:是的,我觉得这是一个相当根本的障碍。当然,模型和人类不同,它们可以同时运行很多副本,因此即便降低不了延迟,也能通过并行来扩展。而且算力的分配方式也会改变。

 

我们正在从“算力主要用于训练”的世界,转向“算力越来越多地用于推理和实际应用”。而当模型开始频繁与现实世界交互时,它需要对每一步行动投入更多思考。于是你可能会发现,每一次真实交互背后都要耗费大量算力。这会改变算力的分配格局

 

所以关键是要有高效的“训练框架”。比如说,如果我在真实环境里已经进行了一系列操作,该如何给它“checkpoint”?如果一个系统一旦重启就丢掉所有上下文,那是很糟糕的。数字世界可以完美保存状态,但现实世界要复杂和混乱得多。

 

不过,这并不是坏事。Dota 的强化学习代理就能在非常复杂、混乱的环境下运行良好。而且别忘了,Dota 的模型只有 3 亿参数,简直就是“昆虫大脑”。现在我们已经在扩展到接近人类规模的参数和算力了。虽然还没完全达到,但方向是明确的。如果 AGI 真要诞生,它必须能高效、富有成效地与现实世界交互。

 

Swyx:照我的理解,人类大脑大约有 100 万亿个突触。GPT-4、4.5、5 这些模型是不是已经接近这个量级了?

 

Greg Brockman:我会说差不多。100 万亿突触可以大致对应神经网络里的权重数量。从这个意义上看,我们正逐渐逼近这些关键的规模。

 

Allesio:你曾在 ARC Institute 做过休假研究,学习 DNA 神经网络。我很好奇,这段经历是否对你在 OpenAI 的工作有启发?

 

Greg Brockman:让我最震撼的是:DNA 神经网络和语言模型其实几乎一模一样。只是人类语言被替换成了 DNA 序列。DNA 的“词表”甚至更简单,只有四个字母。我们直接用“字符级”建模,而不是更高层的 token 化方式,效果很好。

 

对神经网络来说,人类语言和生物语言没有本质区别。硬件是一样的,所以它们完全可以学习 DNA 语言。我们训练了一个 400 亿参数的模型,喂入了大约 13 万亿碱基对的数据。它的效果大概相当于 GPT-1 到 GPT-2 之间,能够在很多下游生物学任务中发挥作用。虽然还没到 GPT-3、GPT-4,更别说 GPT-5,但我们已经有了算力、算法和正确的路径,接下来就是扩展。

 

DNA 序列的挑战在于长上下文。语言里很少有十亿长度的序列,但 DNA 有几十亿碱基。这是需要解决的新问题。但本质上,它还是同一个“序列学习问题”。

 

Swyx:在这些应用中,你个人最期待的是什么?是药物研发吗?还是更早期、可触及的方向?

 

Greg Brockman:就我个人来说,我妻子患有一种遗传病(Ehlers-Danlos 综合征)。直到最近,科学家们才逐渐找出一些相关的遗传标记。更好的生物学工具应该能帮助我们发现各种疾病的标记。这只是众多潜在应用的一个例子。

 

如何定义 GPT-5 时代

 

Allesio:那你会如何定义 GPT-5 时代?如果说 GPT-3 是纯文本,GPT-4 是多模态、低延迟、长思考,那么 GPT-5 的代表性突破是什么?

 

Greg Brockman:我觉得 GPT-5 代表的是“几乎难以形容的智能”。它仍有局限,但在极其困难的领域,比如 IMO 数学竞赛,已经能写出和顶尖人类水平相当的证明。这是前所未有的。

 

GPT-4 虽然在很多商业应用上表现不错,但它提出的想法不够深刻,可靠性也不足。GPT-3 更早期的时候,连最基础的任务,比如排序数字,都做不好。但 GPT-5 可以轻松完成,甚至能重新推导出人类科学家花了几个月研究的洞见。

 

这意味着它能作为真正的“智力伙伴”加速人类研究的进展,帮助科学家、数学家、物理学家推动知识前沿。而这种“与 AI 合作的科研模式”,我认为才是 GPT-5 时代的核心特征

 

Swyx:对我来说,在 Cursor 和 Codex 中能明显感觉到,模型处理高难度任务时表现更好。但我看到很多人在 X 上发截图说 “GPT-5 也没好多少”,但问题在于他们的任务本身不够难。你当初有信心称它为 “世界最佳编码模型”,显然你本身就是顶尖的开发者,可谓 “英雄识英雄”。但对普通人来说,应该如何评估这些模型呢?

 

Greg Brockman:某些任务确实存在 “饱和效应”。比如闲聊时说 “你好,最近怎么样?”,能说的内容就那么多。但如果是问 “请解答黎曼假设的方案”,那对智能的需求就很宽泛了。当然,大多数任务都介于这两者之间。

 

我们观察到,GPT-5 在解决需要深度智能的复杂问题时,表现比我们测试过的任何其他模型都好。另一点是,我们花了大量时间关注人们在交互式编码场景中的实际使用情况,收集了海量反馈并将其融入训练。这是我们过去做得不够的地方 —— 比如 GPT-3,我们当时设定好任务后,看着模型在各项指标上一路提升,它在 Codeforces 这类编程竞赛中表现很棒,这很令人兴奋,但这和实际编程场景并不完全一致。实际编程要混乱得多:你有一个本地仓库,里面有各种状态、不同的抽象概念,还有不同版本的库,这种多样性不是靠 “10 个特定任务” 就能凭空模拟出来的。

 

所以我们的重点不仅是提升模型的智能(这永远是核心),更要把智能和现实应用连接起来 —— 让模型走出 “象牙塔”,跳出舒适区,真正接触现实世界的混乱和多样性

 

Allesio:从更实际的角度来说,有什么建议能帮助开发者从这些模型中 “释放势能”?比如添加代码检查器、类型验证工具、让模型自我循环等。开发者还需要考虑哪些 “元策略”?你平时是怎么使用这些模型的?

 

Greg Brockman:我发现,从模型中榨取最大价值是一种真正的技能,需要毅力 —— 你得去理解模型的优势和短板。所以要不断测试:先用小任务试,获取反馈后再试更难的,给它更大的任务,看它能否以特定方式工作。

 

我觉得大家通常都有自己的 “提示词库”。我从 GPT-4 时代就开始积累提示词了,比如在 GPT-4 发布前,我就收集了一些问题:“我想知道它能不能做到这个”。关键是,这些问题最好有多种可能的答案,而不是只有一个 “标准答案”。比如创意写作方面,我喜欢让它 “融合《指环王》和创业故事”,把两个不同主题放一起,以此测试和推动模型。

 

我还会思考如何拆分任务,让模型能独立处理自包含的子任务。因为你不希望只有一个模型实例在运行,而是要像 “管理多个代理的管理者”,这就需要先规划好代码库结构,再尝试让模型在代码库的不同部分独立运行。

 

大家喜欢用它做前端风格测试,事实证明 GPT-5 在前端方面很擅长,但这不是大多数开发者的主要工作,所以别过度聚焦于此。更重要的是感受模型的特性,熟悉它的强弱,把它当成自己的延伸。我常做的一件事是:当我在思考某个超难问题(暂时不想让模型介入)时,就给模型分配一些非关键任务。这样即使它出错了风险也很低,而且我不用等 5 分钟却毫无收获,还能不断获取反馈。

 

Swyx:你之前提到过 CodeX 和 OpenAI 编码能力的路线图,说背景套件代理会和 IDE 内代理融合。你的想法是如何发展的?是不是简单到 “IDE 调用背景 API,背景 API 导出内容到 IDE”,还是有更深层的连接?

 

Greg Brockman:我倾向于把 AI 比作同事

 

Greg Brockman:我倾向于用 “同事” 来类比 AI 产品化 —— 你希望一个优秀的程序员同事能做什么?你会发消息问他,但有时也会说 “我需要帮忙,能过来看看我的屏幕吗?” 或者 “能帮我敲会儿代码吗?”。所以你既需要 “实时协作” 模式,也需要 “远程异步” 模式,而且这个 “同事” 得在所有场景中保持一致的知识和记忆。你不希望他像个新手,每天来都问 “怎么用 SSH 连接服务器来着?”。

 

所以核心是:AI 需要能以可信的方式访问你的基础设施,而且这种访问是可审计的。这些模型有个特点 —— 它们不介意被 “微观管理”,但人类很反感这个。如果你盯着员工的每一个操作、要求事事汇报,大概率留不住人,但模型完全接受。这是一个值得利用的特性,可以据此设计接口。

 

同时,你需要模型能在远程机器上完成大量工作(不干扰本地状态,完全沙箱化、可观测),有时也能在本地运行任务 —— 根据任务类型和沙箱安全性,你可以做一次性授权,也可以给它完全的委托权限。人类要掌控这种 “可观测性”,管理这个 “拥有多种交互界面的代理”。纠结 “代理是本地运行还是远程运行” 没意义,真正的代理应该是能自主请求在远程沙箱、本地环境甚至多个沙箱中运行的模型,它不必局限于某个设备。软件代理就该能无缝、灵活地移动。

 

Allesio:你提到 “授权”,这让我想提一下我的朋友 Fouad,他帮忙组建了在工程师大会上发布的 “代理稳健性团队”。OpenAI 对代理稳健性的看法是什么?

 

Greg Brockman:我们从 “深度防御” 的角度思考代理稳健性。第一层是模型本身,我们发布过 “指令层级” 这类技术 —— 通过标识 “这条消息来自系统”“这条来自开发者”“这条来自用户”,让模型按这个信任顺序处理,这样它就不会听从 “忽略之前用户指令” 这类请求。

 

这有点像防止 SQL 注入,在底层构建能抵御恶意攻击的系统非常重要,但这还不够,你需要多层系统控制。如果模型被沙箱隔离,不能执行操作或访问特定数据,就能完全保证安全性。我们会在不同层级采用不同方法。

 

随着这些代理越来越深入我们的生活、被赋予更多责任,它们的安全性和可靠性也必须同步提升。这有点像 Linux 内核的 “保护环” 机制,我们其实在把这种安全分层的概念植入大语言模型。

 

我很高兴看到你邀请的 “模型规范” 主题讲座成了最受欢迎的场次。安全和可靠性很难做得 “吸引人”,但模型规范是个好例子:当模型足够强大时,“它会做什么” 就成了最重要的问题。模型规范让外界清晰了解我们对模型的预期 —— 这不代表模型总能完美遵循,但它是一个 “北极星”,是我们的意图所在。任何偏离都不是我们刻意为之,甚至与我们的努力相悖。而且规范与实际行为的差距正在不断缩小。

 

这其实和 “价值观” 很像:当你问有争议的问题,比如 “我觉得地球是平的”,模型该说 “是的,它是平的”,还是 “这是科学结论”?这些问题很微妙,不是想两分钟就能理清的,但读规范就能看到背后的深思熟虑。这不是最终答案,我们需要社区反馈,希望和大家一起完善。

 

Swyx:我们接下来想聊开源,但我还有个更抽象的问题。我听了你之前和 Lex Fridman 的访谈,你提到了阿西莫夫的《基地》系列。这让我想到之前和 Brett Taylor 的播客,我们聊到某些语言自带特性,比如 Rust 的内存安全是天生的。你觉得 LLM 和软件工程师的发展是不是有 “历史周期”?比如 “这些模型能预测软件的未来形态,比如所有界面都会是蓝紫渐变”—— 我们现在似乎就看到了这种趋势。这些模型还在推动我们走向什么方向?我们能改变这种趋势吗?

 

Greg Brockman:肯定有周期,因为这些模型在某种程度上就是 “心理历史” 的产物 —— 它们通过观察人类思想训练而成。本质上,它们学习的是生成数据的底层规则。这就像外星人看了一堆人类电视,试图搞懂 “人类到底是什么”。然后到了强化学习阶段,它们尝试做事,根据是否符合人类需求获得正负反馈。现在我们把它们放到现实中,让它们处理从未见过的新任务,而它们会用所有过往经验来做决定。

 

插一句,用人类生物学来类比模型时,很容易要么夸大要么低估。但这至少是个有用的模板:人类的 DNA 里编码着进化史,有个人经历,父母会给予奖惩,在现实中不断尝试,然后用这些知识行动。其实你能预测别人的很多行为,因为你对他人有很好的模型,知道他们会喜欢什么、反感什么 —— 了解一个人的价值观,就能知道他可能的行为。

 

模型的未来不是注定的。算法本身不会让模型 “必须喜欢紫渐变”,但整个训练过程可能会产生这种偏好。Alec 常说,这些模型不像 “一个人”,更像 “整个人类”—— 里面嵌入了无数种人格,几乎所有人格都在其中,我们的目标是激发出想要的那种。后续训练和强化学习的作用,就是把人格范围缩小到 “理想型”。

 

这意味着我们有机会让模型按我们的价值观运行:如果你不想要紫渐变,想要蓝渐变、绿渐变,都可以。单个模型就能满足这些需求。GPT-5 的指令遵循能力极强,是我们有史以来最能 “个性化” 的模型 —— 你只要通过指令说明偏好,它就能按你想要的方式运行。

 

这些模型有趣的地方在于,现在有很多平台能展现人类对模型行为的偏好。模型先在人类偏好上训练,然后做事、被人类评判,我们再用这些反馈调整 —— 比如 “紫渐变太多了,得改改”。这是一种共进化:模型往某个方向发展,人类反馈偏好,模型再调整,不断迭代出更有用、更符合人类价值观的结果。

 

Allesio:当强化学习的奖励与人类偏好冲突时该怎么办?比如我发现模型总爱写 try/catch 语句来避免出错,但这未必是人类想要的。我们需要更多 “别这么做” 的偏好数据,还是要改变强化学习环境让这种行为不那么 “划算”?我在想接下来该怎么走。

 

Greg Brockman:决定干预方式需要多维度考量,而且得具体到行为本身。有些东西,比如模型对不同库的知识,是早期训练就固化的,但你也能教模型 “别依赖旧知识,去查最新文档”,这可以在更高层面设定。至于过度使用 try/catch,你可以直接用提示词告诉模型,也可以在强化学习中设置奖励信号说 “别往这个方向走”。

 

这些模型的优点在于:就算你需要在训练中针对很多偏好、风格给出反馈,它们也能泛化。我们的算法能泛化,这是深度学习的核心魔力。现在整个技术栈都围绕深度学习构建 —— 模型编排、反馈机制、数据处理等等,但深度学习的核心是泛化能力。虽然有时泛化能力不如预期,但模型确实能做到:在训练中见过某种偏好后,能泛化到没直接训练过的其他偏好上。这在不同代次的模型中都得到了验证。

 

Swyx:我想夸一下做模型卡片的人,做得太棒了。他们甚至在对话类型复杂度的 if 语句里列出了关键参数,比如工具需要明确意图和使用速率限制,这还挺有意思的。这些参数里有没有你特别想聊的,或者觉得值得探讨的?

 

Greg Brockman:说实话,我觉得这些其实都在预期之内。我心里的核心想法是,在 OpenAI,我们做对了很多事,但命名显然不在其中。给用户一个简单易懂的使用界面 —— 这一点我们做得也不够好。你看我们推出过那么多模型,用户哪知道该用哪个?所以我们需要 “重置” 一下,简化复杂度。我觉得关键是我们自己内化这些复杂度,而不是推给用户,这一点非常重要。

 

这只是第一步,我们也清楚听到了社区的反馈 —— 大家觉得我们在 “简单易用” 上没做到位,本来应该默认推荐最优选项,而不是让用户手动选择,现在还没完全实现。但我们会继续推进。

 

Allesio:很棒。聊聊定价问题吧。我们之前说过 GPT-5 的定价很有竞争力,甚至比 Gemini 还低。前几天的聚会里我意外得知,GPT-5 的定价其实还能更低。大概能低到什么量级?其中多少得益于基础设施的改进,比如 Stargate?

 

两年半,模型成本降了 1000 倍

 

Greg Brockman:这类问题的答案其实很一致 —— 看我们过往的定价历史,我们一直在持续降价,具体幅度不好说,但大概每年能降 10 倍,甚至更激进,这很惊人。就拿 GPT-3 来说,我们曾经降价 80%,结果使用量增长到收入要么持平要么上升,这说明需求曲线非常陡峭。只要让技术更易获取、更普及,人们的使用量就会大幅增加,这和我们的使命高度一致 —— 确保通用人工智能造福全人类。其中一部分就是让技术广泛传播,让更多人能用 AI 解决生活和工作中的问题,而推理效率提升、模型成本降低这些都能帮我们实现这个目标。

 

目前的瓶颈主要是计算资源,我们极度依赖算力。所以如果现在大幅降价,其实未必能增加模型的实际使用量。但我们还有很大的效率提升空间,团队一直在全力以赴突破下一个推理效率关卡。一部分改进来自模型架构本身 —— 现在进入推理时代,架构设计不再是唯一关键,后续训练也很重要,比如模型为特定任务思考的时长等。我们需要在很多维度持续改进,也会一直推进。对了,我有张图表能说明这个 —— 从 GPT-4 发布到现在,同等智能水平的成本已经降低了 1000 倍,这太疯狂了,也就两年半时间。

 

很难想到还有什么技术能在两年半内实现三个数量级的提升,几乎没有。而且还在继续降,不是从 1 万美元降到 1000 美元,而是会降到几美分。

 

Swyx:GPT-5 发布时我写了篇文章叫《自我改进的编码代理》。我让 GPT-5 给自己开发工具,让它成为更厉害的编码代理,先让它做个自由职业者任务,它没做好,然后我让它改进自己开发的工具,反复循环。但我发现模型不太愿意用自己做的新工具,总说 “我自己能做,不需要工具”,这有点像人类。这似乎是它们自我提升的天花板?你觉得是因为它们只被训练过用特定工具(比如图表类工具),所以推理时很难自己造工具,还是说这是下一步要突破的方向?

 

Greg Brockman:这肯定是下一步要走的方向,而且我们现在也不是毫无进展。很多问题其实出在训练上 —— 如果模型只在特定工具集上训练过,没被要求快速适应新工具,那评估时自然不会用。但 “生成能提高自身效率的工具,并长期积累工具库” 这种能力,是工具箱里非常重要的基础功能。如果目标是解决超难的未决问题,这种能力肯定是必需的。

 

Allesio:有没有什么架构决策或创新想聊的?比如滑动窗口注意力机制、DeepMind 普及的细粒度专家混合模型、RoPE、YARN、注意力汇点这些,GPT-OSS 的设计中有没有让你印象深刻的选择?

 

Greg Brockman:这些选择背后是团队一直在探索不同架构。比如专家混合模型,确实要归功于我们团队的决策。我心里的思路是,我们需要能在这些环境中轻松运行的模型,所以像稀疏度设置这类选择,和内存占用密切相关,还有前向传播的计算量等。所以架构决策在一定程度上受模型规模和预期运行时的算力限制。

 

而且模型的实力也能体现这一点 —— 我们确实用了很多前沿技术来不断提升模型能力。我能明显感觉到,为 API 设计的模型和为单机设计的模型,架构上有很大区别。多租户、批处理场景和单机场景完全不同,差异很大。不知道未来会不会融合,但可能就像我常说的,会是 “模型动物园” 一样的生态。

OpenAI 怎样调整团队工作更好适配大模型

 

Swyx:聊聊 OpenAI 的工程团队吧。现在关于 Cloud Code、Codex 这些工具争议很多,你怎么构建团队才能最大化利用这些工具?从人数、能力、团队规模等方面,有没有调整组织方式想分享的?

 

Greg Brockman:软件工程在很多维度都在变化。有些工程领域对模型来说还很难攻克,但已经有了突破的苗头 —— 比如核心的硬核算法,CUDA 内核就是个例子,这种独立问题我们的模型很快会擅长,但目前很难,因为需要大量领域知识和抽象思维,但并非无解,这种独立问题其实很适合我们的技术。还有架构类问题,比如系统如何组装、抽象如何设计,模型也开始擅长了。

 

我们发现,大多数工程师 —— 即使是顶尖工程师 —— 他们的很多工作其实和当前模型的核心优势高度匹配。比如用你不熟悉的语言写代码,肯定不想自己写,交给模型就好。但有些工作变难了,因为需要模型接触不到的信息,比如和人沟通获取上下文才能做决策。

 

目前我们还没因为这些工具改变团队结构,但让模型在所有可能的领域发挥作用是极高优先级 —— 要思考如何做好、做负责任,如何设置护栏,这些都要落地到实践中。我看到的是,我们正从早期采用阶段过渡到主流阶段,生产力提升意味着我们需要更多人。我们受限于软件生产能力、团队清理技术债务和重构的能力,如果工具有助于把这些变简单 10 倍,我们就能多做 100 倍的事。所以模型的价值不仅是高效做重复工作,更是能做更多新事,这才是目标。

 

Allesio:你们怎么调整团队工作来更好适配大语言模型?比如跟踪问题的方式、代码库结构有没有变化?

 

Greg Brockman:我们还在早期阶段,但最成功的做法是围绕模型的优劣构建代码库 —— 更独立的单元、快速运行的单元测试、清晰说明模块用途的文档。做到这些,把细节交给模型,效果会很好。还要考虑组件如何组合,确保依赖关系清晰,让 “AI 优化模块” 只被其他 “AI 优化模块” 依赖,最终形成全 AI 优化的系统。我们还在探索可能性,而且模型进步太快,六个月后模型的短板可能就大幅缩小了,不必过度适配当前的局限,但现在确实有很多快速行动的潜力。

 

Swyx:我很好奇工程师的价值是不是在不断提升?毕竟部分工作在被自动化,而且行业 signing bonus 创历史新高。到底是工程师本身有价值,还是支撑他们的系统有价值?感觉两者都有,但人们愿意为工程师付高价。

 

Greg Brockman:归根结底,新的变化是我们正在创造的技术 —— 这些模型是人类最有用的工具,支撑它们的是人类建造过的最大机器。数据中心投入的资金规模已经超出人类的理解范围,500 亿、1000 亿美元是什么概念?几乎无法想象。但我们整个国家、社会、世界正在进行的工程项目,比 “新政”“阿波罗计划” 都要宏大,这很合理 —— 这项技术的经济回报巨大,更重要的是我们正在迈向新经济:AI 融合、AI 驱动的经济,这正是我们的使命所在。我们看到了变革的曙光,想助力它成为提升所有人生活的力量,这是人类历史上罕见的机遇。我们很幸运能身处这个时代、参与其中,这是思考这场人类级变革的背景。

 

有时会有认知失调 —— 你在调试底层 CUDA 死锁,或者纠结紫色渐变,却意识到这关乎人类的未来。所以工程师、公司这些都重要,但不止于个体,而是团队;不止于单个产品或系统,而是我们共同构建的社会和经济。我会退一步看大局,也会关注微观层面:人们开心吗?是否认同使命?工作是否有意义?这些才是最重要的。头条新闻未必是驱动人们的核心,但确实反映了人们看到的技术潜力所对应的经济现实。

 

Allesio:你怎么看当前的 AI 研究现状?是不是大家都在做同样的事?还是说每个实验室都有不同思路,最终会汇聚到正确方向?还是说因为资金规模太大,只能做大概率可行的事?

 

Greg Brockman:这个领域的多样性出乎意料。有时会觉得是趋同进化,但和不同实验室的人聊过就会发现,大家视角不同。OpenAI 早期的一个决策是,我们想要理念一致的团队 —— 长期做 PhD、有自己研究愿景的人很难被指挥,所以要找能同方向努力的人,这可能是 OpenAI 早期最重要的决策,帮助我们取得了现在的成果。这意味着必然有不同的发展方向,不同实验室的偏好、聚焦点、产出都能体现这一点。

 

在 OpenAI,我们很关注如何通过研究进入下一阶段。比如 GPT-5,我们本可以只聚焦编码领域的问题反馈,慢慢打磨进步,但有时需要退一步思考如何实现阶跃式突破、范式转变。推理范式的突破就是个成功案例,我们过去多次做到,未来也会继续。研究领域还有很多突破待实现,多模态、生成方式等方面的多样性,让研究比以往更丰富。

 

别忘了主流研究之外,还有语音、图像生成、视频生成。比如 Stable Diffusion 曾经红极一时,那其实是一小队人专注这个问题多年的成果,这正是 OpenAI 的核心价值观:对重要问题下长期赌注,方向要能形成连贯整体。

 

参考链接:

https://www.youtube.com/watchv=35ZWesLrv5A&list=PLWEAb1SXhjlfkEF_PxzYHonU_v5LPMI8L

 

2025-08-19 16:124
用户头像
李冬梅 加V:busulishang4668

发布了 1132 篇内容, 共 752.0 次阅读, 收获喜欢 1276 次。

关注

评论

发布
暂无评论

Linux之kill命令

入门小站

Linux

架构训练营-学生管理系统详细架构文档

sophiahuxh

Java实战:教你如何进行数据库分库分表

华为云开发者联盟

Java 数据库 分布式 分库 分表

没怎么写过 Java 的遗憾

escray

学习 极客时间 朱赟的技术管理课 7月日更

takin(全链路压测)快速安装-mac图文版

国隆

大数据 性能压测 生产环境全链路压测 takin 探针

第三届WICC圆满结束 融云打造技术与生态平台推动产业发展

融云 RongCloud

Go语言:代码检查和优化!

微客鸟窝

Go 语言

记一次小有成就的代码审计

网络安全学海

网络安全 信息安全 渗透测试 安全漏洞 代码审计

【学习笔记】:使用Chrome浏览器的网络面板分析http请求

姬翔

架构实战营 模块 3作业 - 消息队列架构设计文档

Geek_8c5f9c

架构师训练

零代码平台在大型企业的进化之路

明道云

我花了 24 天使用 C++ 从零实现了一个解释器

lmymirror

interpreter compiler

架构实战营 模块三作业

孫影

架构实战营 #架构实战营

架构实战营模块 3 课后作业

hello

架构师实战营

模块三作业

Tina

模块三作业

秀聪

架构训练营

架构实战营 - 模块三作业: 架构文档

Julian Chu

架构实战营

架构实战营模块三作业

袁小芬

架构实战营 模块三 作业

脉醉

#架构实战营

Python OpenCV 轮廓检测与轮廓特征,加图像金字塔知识补充一点点

梦想橡皮擦

Python 7月日更

就想搞明白,component-scan 是怎么把Bean都注册到Spring容器的!

小傅哥

Java spring 小傅哥 bean注册

来也科技:RPA+AI的赋能者和布道者

海比研究院

Win10系统下基于Docker构建Appium容器连接Android模拟器Genymotion完成移动端Python自动化测试

刘悦的技术博客

Python Docker 自动化 自动化测试 Genymotion

中国高校竟然有两个“智能”专业?

脑极体

在线MarkDown转HTML工具

入门小站

通过运行期类型检查实现泛型算法

喵叔

7月日更

带你了解弯曲文本检测算法的两种思路:区域重组和像素分割

华为云开发者联盟

文字 目标检测算法 文本检测 区域重组 像素分割

Go语言:RESTful API 服务,急速入门

微客鸟窝

Go 语言

字节跳动内测音乐流媒体服务:能否在音乐领域分一杯羹

石头IT视角

4问教你搞定java中的ThreadLocal

华为云开发者联盟

Java 线程 多线程 ThreadLocal 变量

如何实现支持百亿级文件的分布式文件存储

焱融科技

云计算 云原生 高性能 分布式存储 海量存储

GPT-5被批过度炒作、性能落后,OpenAI联创揭秘其中原因:我们把它关在 “象牙塔”,和现实世界接触不够_OpenAI_李冬梅_InfoQ精选文章