Sora 都能先停掉,说明 OpenAI 这次是真的开始做残酷取舍了。
在外界眼里,视频生成明明还是最容易出圈、最能制造话题的明星业务,但 OpenAI 却选择在这个节点收缩战线,把资源转向一个更大的目标:Super App。它不只是想再做一个更强的 ChatGPT,也不只是想补上 Codex 和浏览器能力,而是想抢先造出那个真正承接 AGI 的总入口,即一个能理解你、代表你、替你操作电脑、接管工作流,甚至逐步“运行”你数字生活的系统。
OpenAI 已经不再满足于赢下一两个爆款产品,而是在主动砍掉分叉的科技树,把所有最宝贵的算力、产品和组织资源,押向一条它认定最接近 AGI 的路径。
近日,Greg Brockman 在播客节目中与主持人 Alex Kantrowitz 围绕 AI 领域最具潜力的发展机会、Super App 的布局、AGI 的“起飞”以及算力资源等话题展开了讨论。从这场对话中,OpenAI 当下的优先级、野心与焦虑,也被进一步摊开在外界面前。核心观点如下:
Sora 和 GPT Reasoning 属于两条不同的科技树,在算力有限的情况下,不可能同时把两条线都做到极致,所以必须把资源集中到更接近 AGI、也更快能在知识工作中落地的方向上。
coding 只是表象,真正的变化是 AI 开始替人操作浏览器、软件、文档和工作流,让计算机来适应人,而不是人继续适应机器。
传统软件为了服务大众,天然不够贴身;而 Agent 时代,软件会越来越像一个理解你、贴合你目标的个人助手。
过去几年真正的变化不只是模型本身,而是模型如何获取上下文、连接现实世界、调用工具、与用户形成交互循环;OpenAI 正在把这些分散能力收敛成一个统一的 AI layer。
算力不是成本中心,而是收入中心。对 OpenAI 来说,算力短缺不是边缘问题,而是决定产品上线、能力释放和商业规模的核心约束。世界上没有足够的算力让每个人都拥有运行中的个人 Agent,也没有足够算力让所有人都用上像 Codex 这样的系统;今年整个行业都会开始真正感受到算力紧缺。
Agent 时代的人,“不可以甩手不管”,而是会越来越像管理者:设定目标、分配任务、监督结果。但与此同时,责任仍然必须落在人身上,你不能把判断和问责完全外包给 AI。
基于该播客视频,InfoQ 对内容进行了整理与部分删改,以飨读者。
关停 Sora 会错过机会,但不同应用能用一个框架实现
Alex:OpenAI 正在关停视频生成功能,转而将精力集中在即将推出的 Super App 上,这款应用会结合商业和编码场景。从外部观察者的角度来看,大家都觉得 OpenAI 在消费级市场明明赢麻了,现在却突然转移资源,这到底是在搞什么名堂?
Greg:过去我们一直身处一个“研发深水区”,不断推进深度学习这项技术,去验证它是否真的能实现我们最初设想的那种正向影响。比如,它能不能真正被用来构建应用,帮助人们改善生活。
与此同时,我们也有另一条线,在思考如何把这项技术真正落地:一方面是为了支撑业务,另一方面也是为了在真实世界中积累经验,去理解它到底能产生怎样的实际影响。因为只有这样,当技术真正成熟、变成我们最初设想的那种“终极形态”时,我们才有准备。
而现在,我们正好走到了一个关键节点:我们已经非常确定,这项技术是可行的。接下来,不再是停留在 benchmark 测试或一些偏“脑力炫技”的能力展示,而是必须走进真实世界,通过用户在知识工作(Knowledge Work)、各种应用场景中的实际使用来获得反馈。
所以,这更像是一个阶段性的战略转变,而不是简单地从 C 端转向 B 端。我们并不是想放弃谁,而是真的无法面面俱到。我们需要思考:哪些是最重要的应用?哪些东西在构建时能产生协同效应,并带来实质性的影响,从而提升每个人的体验?
消费侧其实包含很多东西,比如个人助理,一个真正了解你、和你的目标对齐、能帮助你实现人生目标的 AI;还有创意表达和娱乐等等。而在企业侧,从更高维度看,更像是你有一个复杂任务,AI 能不能理解全部上下文,然后帮你把它完成?
在我们内部的优先级排序里,personal assistant 和能替你解决复杂问题的 AI 非常明确地排在最前面。现实是,就算只做这两件事,我们的算力都不够。更别说还有大量其他同样重要、有价值的应用场景。
所以,我认为这是对技术成熟度的一种认可,也是对我们即将面临的巨大影响力的一种反应,我们需要做出取舍,挑选出那些我们真正想要推向世界的、能大放异彩的应用。
Alex:谈到 OpenAI 的布局时,你把 OpenAI 比作 Disney。Disney 拥有米老鼠这个核心优势,然后以此衍生出电影、主题公园和 Disney+。对 OpenAI 来说,核心是模型,可以衍生出视频生成、assistant、企业服务等等。那现在是不是意味着,这种“一个核心、多点开花”的模式不再成立了?你们是不是已经意识到,现在是时候做“单选题”了?
Greg:某种程度上,这个比喻现在反而更成立了。但关键在于:从技术角度看,像 Sora 这样的模型,其实和核心的 GPT 推理模型属于完全不同的“科技树”分支。而现实是,我们很难同时在两条分支上都做到极致,尤其是在当前这些关键应用上。
不过我们并没有完全放弃 Sora 的研究,它仍然在继续,只是更多放在 robotics 的语境里。而 robotics 显然会是一个颠覆性领域,只是现在还处在更偏研究阶段,还没到成熟部署的时候。相比之下,我们在知识工作领域将在未来一年看到这项技术的真正腾飞。
所以在这个时间点,我们必须把主要精力集中在 GPT 系列上。而这里说的 GPT,并不只是文本,也包括语音到语音的交互能力,它们仍然属于同一条科技树分支,本质上还是同一个模型,只是在不同的方向上稍作调整。
问题在于,一旦你分叉太远,形成两个完全不同的技术体系,在算力有限的情况下是很难持续推进的。而算力之所以有限,是因为需求实在太大了。几乎每一个模型一出来,大家都想拿去做各种事情。
Alex:为什么你们现在的赌注没有押在那个看起来像是“世界模型”的版本上?那种视频能理解物体该去哪里的模型显然对 robotics 很有用。既然你们在 Sora 上已经看到了实打实的进步,那为什么你们偏偏要把宝押在 GPT Reasoning 上呢?
Greg:这个领域最大的问题,其实是“机会太多”。我们很早就发现,只要一个想法在数学上是合理的,基本都能做出不错的结果。只是不同方向在工程复杂度、算力需求、落地难度上差异很大。
这恰恰说明了深度学习的底层能力:它可以抓住问题的本质,理解生成数据背后的规律,而不是只记住数据本身,并且能迁移到新的场景。这意味着你可以在很多方向上取得进展,比如世界模型、科学发现、编码等等。
过去一直有个争论:文本模型到底能走多远?它能不能真正理解世界?现在我们已经非常明确地看到答案了:它可以,而且是通向 AGI 的路径。我们已经能“看见终点”,并且今年还会有更强的模型出来。与此同时,我们在内部面临的“算力分配痛苦”是随着时间推移只增不减的。所以,我觉得核心在于节奏和时机。
在这个时刻,那些我们梦寐以求的应用已经开始触手可及了。举个例子,最近有一个物理学家把一个研究了很久的问题交给我们的模型,12 小时后就得到了答案,他说这是第一次感觉模型在“思考”。这感觉就像是一个也许人类永远无法解决的问题,被我们的 AI 搞定了。当你看到这样的事情发生时,你就必须加倍下注,因为我们真的能解锁人类的所有潜力。
所以这不是说哪个方向更重要,而是关于 OpenAI 向世界交付 AGI 的使命,以及我们确实看到了一棵科技树,已经找到一条清晰可推进的路径,就必须优先把它做出来。
Alex:我之前和 Google DeepMind 的 Demis Hassabis 聊过,他说对他而言,最接近 AGI 的,是他们的图像生成模型 Nano Banana。因为生成图像和视频,本身就需要理解物体之间的关系和世界的运作方式。你们会不会因为押注另一条路径而错过什么?
Greg:有这个可能。这个领域就是这样,你必须做选择,本质上就是在下注。我们选择了一条我们相信能通向 AGI 的路径,然后全力推进。
不过,还有一点很关键:图像生成其实在 ChatGPT 里已经非常成功,我们也在持续投入。而且它之所以能继续推进,是因为它并不完全属于 diffusion / world model 那条分支,而是建立在 GPT 架构之上。这也是 AGI 很“反直觉”的地方:看起来完全不同的应用,语音、图像、文本、科学研究、编码,甚至个人健康建议,其实可以在同一个技术框架里实现。
所以我们在做的一件核心事情,是尽可能把技术统一起来。因为我们相信,这项技术最终会赋能整个经济体系。而这个体系太大了,我们不可能覆盖所有,但可以把“通用”的那一层做好,也就是 AGI 里“G”的意义。
“我们现在的起点是 Codex”
Alex:说到“统一”,那这个 Super App 到底是什么?
Greg:简单来说,它会把 coding、browser 和 ChatGPT 整合在一起。我们的目标,是做一个真正的“终端应用”,让你直接体验 AGI 的能力。
你可以把现在的 chat 想象成一个正在进化的个人助理,一个了解你、与你目标对齐、值得信任、在数字世界中“代表你”的 AI。而 coding 这部分,本来是为开发者设计的工具,但它正在变成“人人都能用”。
这不再仅仅是关于软件本身,而是“使用计算机本身”。比如我自己,有时候连怎么设置电脑的 hot corners 都会忘,直接让 Codex 去做,它就帮我搞定了。这其实才是计算机本该有的样子,是它来适应人,而不是人去适应它。
所以你可以想象一个应用:你想让电脑做什么,直接说就行。AI 可以自己用浏览器操作,你也可以实时查看它在做什么。无论是聊天、写代码,还是知识工作,所有内容都在一个统一系统里。而且它会有 memory,会了解你。这其实只是“冰山一角”,更重要的是底层的技术统一。
过去几年真正的变化在于:不再只是模型本身,而是“系统”。包括模型如何获取上下文、如何连接现实世界、能执行哪些操作、以及与用户的交互循环。以前这些是分散的、各自实现的,现在我们在把它们收敛成一个统一体系,形成一个 AI layer。在这个基础上,你可以针对某些场景加一层很薄的定制,比如金融、法律的插件或 UI。但大多数情况下,你甚至不需要这些,因为这个 Super App 本身就已经足够通用。
Alex:这个 app 是面向企业,还是个人?
Greg:两者都是。就像你的 laptop,它既是工作工具,也是个人设备。本质上,它是“属于你”的一个接口,连接你和数字世界。
Alex:从个人用户的角度,如果我在生活中用这个 Super App,我的生活会发生什么变化?
Greg:你可以把它理解为现在的 ChatGPT,但更深入。现在大家用 ChatGPT 做的事情已经非常多样了:写婚礼致辞、头脑风暴创业想法、让它帮你点评一个点子……这些其实已经在模糊“个人”和“工作”的边界。未来,这些都会变得更自然,而且更强。
关键在于两点:记忆和上下文。过去的 ChatGPT 是“无记忆”的,每次对话都像在和一个陌生人聊天。但如果它记得你,记得你所有的互动,它就会变得强大得多。再进一步,如果它还能接入你的邮箱、日历,理解你的偏好和历史经验,它就可以真正帮助你实现目标。比如现在已经有一个 feature,会每天基于它对你的了解,推送你可能感兴趣的内容。而 Super App 会把这一切做得更深入、更丰富。
Alex:这个 Super App 什么时候会推出?
Greg:接下来几个月,我们会一步一步往这个目标推进。理想状态下,我们当然希望一次性把完整形态发布出来,但现实是它一定会以“分阶段”的方式出现。
我们现在的起点,其实就是 Codex。它本质上是两样东西的结合:一方面是一个通用的 agent harness,可以调用各种工具;另一方面,它本身也是一个会写软件的 agent。你可以把它接到 spreadsheets、word 文档上,它就能帮助你完成各种知识工作。
所以我们接下来会做的一件事,是让 Codex 在“通用知识工作”这件事上变得更好用。因为在 OpenAI 内部,我们已经看到很多自发的使用场景在出现了。这会是第一步,后面还有很多步。
Alex:我昨天和你们一个同事聊,他提到有人用 Codex 帮他做视频剪辑,结果 Codex 直接给 Adobe Premiere 写了一个插件:自动分章节,然后开始剪视频。
Greg:我太喜欢这个例子了,这正是我们希望这个系统能够做到的事情。其实很有意思的一点是:Codex 最初是为软件工程师设计的。对于非软件工程师来说,目前的可用性其实相当低。比如在设置过程中,可能会遇到一些报错,开发者一看就知道怎么解决,但普通用户会一脸懵:“这是什么?”
即便如此,我们还是看到一些从没写过代码的人,已经开始用它来搭建网站、自动化不同软件之间的流程,甚至完成你刚才说的那种复杂任务。比如我们传播团队的一位同事,把它连接到了 Slack 和他们的邮箱上,用来批量处理反馈并做总结。
所以现在的状态是:那些足够有动力的人,愿意跨过这些门槛,就能获得非常大的效率提升。从某种意义上说,我们已经完成了最难的那部分——打造一个真正聪明、能执行任务的 AI。接下来要做的,其实是相对“简单”的那部分:把它变得人人可用,降低门槛。
如何与 Claude Code 竞争
Alex:Anthropic 有他们的 Claude App,你可以用 Claude chatbot、Claude Cowork、Claude Code,他们已经有了自己版本的“Super App”。你觉得他们是看到了什么,才更早走到这个位置?你们有多大把握追上?
Greg:如果把时间往回拨 12 到 18 个月,我们其实一直很重视 coding 这个方向,在各种编程竞赛上成绩也一直很好。但我们当时投入不够的,是“最后一公里”的可用性。我们没有真正去思考:我们的模型很聪明,可以解决各种编程题,但它没真正见过现实世界的代码库,那些代码往往很混乱,不像训练数据那么“干净”。这确实是我们当时落后的地方。
但大概从去年年中开始,我们非常认真地补这块,专门组建团队去研究真实世界的复杂性,比如如何构建训练环境,让 AI 体验真正的软件开发流程,包括被打断、需求变更等各种非理想情况。到现在为止,我们已经追上来了,甚至很多用户更偏好我们的产品。当然,在前端体验上我们还会继续优化。
更重要的是,我们的思路发生了变化:不再是“先做模型,再单独做产品”,而是一开始就把它当成一个完整产品来设计。当我们做 research 的时候,我们就会考虑它未来会怎么被使用,这是 OpenAI 内部一个很重要的转变。
我们今年会有一系列非常强的模型发布,整个 roadmap 让人非常兴奋。同时,我们也在全力补齐“最后一公里”的可用性。
竞争带来更强的内部对齐
Alex:从 2022 年开始,OpenAI 几乎是无可争议的领先者,但现在竞争明显变激烈了。甚至有传言说内部已经没有“side quests”,全部资源都集中在核心目标上。你认为公司内部的氛围有没有变化?
Greg:对我个人来说,其实最“可怕”的时刻,是 ChatGPT 刚发布之后。我记得当时在节日派对上,现场弥漫着一种“我们已经赢了”的氛围,但我从来没有这种感觉。我当时的反应是:不对,我们一直都是 underdog,从来都不是领先者。
这个领域里有很多成熟的大公司,它们有更多资本、更多人、更多数据,OpenAI 凭什么能竞争?我认为,答案很大程度上就是因为我们从不自满,一直把自己当成挑战者。
所以现在看到竞争对手出现、并且做得不错,其实对我们来说是件好事。当然,你不能过度关注竞争对手。如果你总盯着他们的位置,那你只会停在他们现在的位置,而他们已经往前走了。某种程度上,过去是别人盯着我们,而我们在往前走。
现在的竞争环境,反而带来了更强的内部对齐和统一感。比如之前我们是把 research 和 deployment 分开看的,现在我们在努力把它们融合起来。这对我来说是一个非常积极的变化。
我从未觉得我们像别人说的那么好,也从未像别人说的那么差,我觉得一直很稳健。在模型生产的核心方面,我对我们的路线图和我们正在做的研究投入感到极其有信心。在产品方面,我们也有巨大的能量汇聚在一起,要把这一切交付给世界。
Alex:你前面提到接下来会有一些很强的新模型,那 Spud 到底是什么?有消息说你们已经完成了它的预训练,Sam Altman 也跟内部说,几周内就会有一个非常强劲的模型问世。团队觉得它真的能加速经济发展,而且事情的进展比我们很多人预期的都要快。
Greg:它是个好模型。但我觉得,重点其实不在于某一个模型。
我们的开发流程大致是这样:先做预训练,产出一个新的基础模型,它是后续一切能力提升的基础。过去 18 个月,我主要精力其实都花在这上面,包括 GPU 基础设施、训练框架,支持这些大规模训练顺利进行。接下来是强化学习阶段:让模型把它对世界的理解应用起来。再往后是后训练:也就是“最后一公里”,让模型在行为和可用性上真正变得好用。
所以我会把 Spud 理解为一个新的 base model,是一次新的预训练成果。可以说,这里面凝聚了大概两年的研究积累,现在终于开始落地。它会非常令人兴奋。但从用户视角来看,感知方式其实很简单,就是能力整体提升。
对我来说,这从来不是“某一次发布”的问题。因为当这个版本发布时,它其实已经是后面更强版本的一个早期形态了。我们真正构建的是一个持续加速的“进化引擎”,Spud 只是其中一步。
Alex:那它具体会做到哪些现在做不到的事情?
Greg:首先,它会能解决更难的问题。其次,它会更细腻(nuanced),更能理解指令,也更能理解上下文。
有个说法叫“big model smell”,意思是,当模型真的变得更聪明、更强大时,你是能“感觉到”的,它会更顺着你的意图来。现在很多时候,你问一个问题,AI 没完全理解,你还得补充解释,那种感觉其实挺让人失望的,会觉得“你应该能懂啊”。未来,这种情况会大幅减少。
所以变化一方面是能力提升的量变,但更重要的是质变:以前你不会用 AI 做的事情,现在会下意识地用它。
我特别期待两点:一是“天花板”被抬高,比如我们已经看到在物理研究上的应用,未来可以解决更多开放性、更长期的问题;二是“地板”也被抬高,无论你做什么,它都更有用。
Alex:但普通用户有时候不太容易感知这种变化。比如 GPT-5 发布前预期很高,但刚发布时不少人反而有点失望,后来才发现它在某些任务上其实很强。那这一代模型,你觉得是会在某些行业里特别明显,还是会让所有人都感受到提升?
Greg:我觉得会是类似的情况。刚发布时,一定会有人觉得“这是质的飞跃”;也会有一些场景,原本就不是“智能瓶颈”,所以你未必立刻感知到变化。但随着时间推移,你一定会感受到。因为真正改变的是:你对这个系统的“信任程度”。
我们每个人心里,其实都有一个“AI 能做什么”的心智模型,而这个模型变化得很慢。只有当你多次被它“惊艳到”,你才会逐渐提高预期。比如在医疗信息领域,我有个朋友用 ChatGPT 研究癌症治疗方案。医生当时已经判断是绝症,但他通过 AI 查找各种方案,最后真的找到了治疗路径。
这种事情的前提是:你得先相信 AI 在这个场景里是有帮助的,才会投入精力去用它。未来的变化在于,这种“帮助是有效的”的感觉会变得越来越明显。所以,一方面是技术在进步,另一方面也是人类对技术的理解在“追赶”它。
加速起飞实现 AGI,当前进度超 70%
Alex:听说你们正在开发一个自动化的 AI Researcher,预计今年秋天推出,那是什么?
Greg:我们现在正处在一个“takeoff(起飞)”的早期阶段。
Alex:“takeoff”是什么意思?
Greg:就是一种加速状态。一方面,AI 在指数级变强;另一方面,我们开始用 AI 来改进 AI,本身就会进一步加速研发过程。但我理解的 takeoff,不只是技术层面的,还有现实世界的影响。很多技术发展都会呈现 S 曲线,如果拉长看,有些阶段会变成指数增长,我觉得我们现在正处在这个阶段。
一边是技术在加速,另一边是外部环境的“顺风”:芯片公司在加大投入,整个生态里有越来越多的人在基于 AI 构建应用,探索各种可能性。这些力量叠加在一起,让 AI 从一个“边缘工具”,逐渐变成推动经济增长的核心引擎。而这个过程,不仅仅关于我们公司正在做的事,而是整个世界、整个经济体系共同推动的结果。
Alex:这个 AI researcher 具体会做什么?
Greg:它会承担越来越多研究任务,而且比例会不断提高,我们会逐步让它以更高程度“自主运行”。当然,这不意味着完全放任它自己运行。更像是你带一个初级研究员:如果你完全不管,他可能会走偏;但如果有一个有经验的资深研究员给方向、做 review、提供反馈,那效率会很高。
未来也是类似的模式:人类提供方向、判断和反馈,AI 负责执行大量具体工作。我把它看作一个系统,可以显著加速我们做模型、做研究、实现突破的速度,也能让这些模型更快变得实用、可落地。
Alex:你会对它说“去找 AGI”,然后它就会去尝试吗?
Greg:我认为大致就是这样。更具体一点说,就是把一个研究科学家从头到尾做的事情,用“硅基系统”完整复现一遍。
Alex:还有一种对“takeoff”的理解是:AI 的进步会从渐进式,逐渐变成积累动能,最终演变成一种几乎不可阻挡的趋势,走向超越人类智能。那你会不会担心,既然有可能一切顺利发展,也同样存在“走偏”的风险?
Greg:绝对是有的。要获得这项技术的好处,就必须同时认真对待它的风险。从技术角度来看,我们在安全上投入了非常多。比如 prompt injection,如果你有一个非常强大、能调用各种工具的 AI,就必须确保它不会因为某些恶意指令而被操控。这方面我们投入很大,也取得了不错的成果,有专门的团队在做。
这些问题其实和人类很像,人也会被 phishing 欺骗,也会在信息不完整时做出错误判断。所以我们在开发过程中,会借鉴这些类比,去思考模型在真实世界中的行为。每一次发布模型,我们都会问:它是否真正与人类目标对齐?是否是有帮助的?
当然,还有更大的问题,比如整个社会、经济会如何变化,如何让所有人都从中受益,这些就不是纯技术问题,也不是 OpenAI 一家能解决的。但对我来说,推动技术进步的同时,确保它带来正向影响,是同等重要的。
Alex:但问题在于,这本质上是一场竞赛。你们在公司内部做的东西,也会被开源社区复制,而他们在安全方面的约束要少得多。而且你之前也说过:创造需要很多人都做对,但破坏只需要一个人做错。在这种情况下,这个“加速竞赛”还在继续,甚至没有减速的迹象。那这个回报,真的值得这个风险吗?
Greg:我认为回报是值得的,但这个问题本身太“粗粒度”了。我们从一开始就在问:一个理想的未来是什么样?这项技术如何真正造福所有人?
你可以从两个角度来看。一种是“高度中心化”的路径:只有一个主体来开发这项技术,这样就没有竞争压力,可以慢慢把事情做对,然后再统一发布。但这其实很难实现,也有很多问题。
另一种是我们更倾向的路径,可以称为“resilience”(韧性):这是一个开放系统,有很多参与者在推进技术发展。但关键不只是技术本身,而是围绕它建立起一整套社会基础设施。可以类比电力的发展:它本身也有风险,但我们通过标准、监管、工程体系、检测机制等,建立了一整套安全体系,让它可以被大规模、安全地使用。
AI 也需要类似的生态:不仅是技术,还包括制度、规范、监管、公众认知。如果这项技术真的会影响每一个人,那每个人都应该参与讨论,而不是由一个封闭的中心化组织来决定一切。所以我们相信的,是一个围绕 AI 建立起来的“韧性生态系统”。
Alex:最近 NVIDIA 的 CEO 黄仁勋说,他认为 AGI 已经实现了。你同意吗?
Greg:AGI 对不同人来说定义不一样。确实会有人认为我们现在已经达到了。但我认为,现在的 AI 很“jagged”(锯齿状)。在很多任务上,它已经是超人级别的,比如写代码,几乎可以无缝完成,大幅降低创造的门槛。但与此同时,也有一些非常基础的人类能力,它依然做不好。
所以问题变成了:你把“分界线”画在哪里?这更像是一种“感觉”,而不是一个严格的科学定义。
对我来说,我们确实已经接近那个时刻了。如果五年前让我看到今天的系统,我一定会说:“这就是我们当时说的 AGI。”但现实又有点不一样,它和我们曾经想象的形态差别很大,所以我们需要调整自己的心智模型。
如果非要量化,我会说大概 70% 到 80%到了。而且很明显,未来几年内我们就会迎来 AGI,尽管发展过程仍会曲折不平,但几乎所有依托计算机完成的智力类任务,AI 都将能够胜任。
基础模型更强,AI 从程序员蔓延到普通人
Alex:2025 年 12 月发生了什么?那似乎是一个拐点,从“让 AI 连续写几个小时代码”还是理论,变成大家开始觉得“可以信任它持续工作”。
Greg:核心变化是模型能力从“能完成你 20% 的任务”,跃迁到了“能完成 80%”。这带来了一个质变,从“有点用的工具”,变成“你必须围绕 AI 重构工作流”。
我自己有一个测试 prompt,用了很多年:让 AI 帮我做一个网站。这个网站我当年学编程时花了几个月才做出来。到了 2025 年,它可能需要 4 个小时、很多轮提示才能完成。但在 12 月,我只问了一次,它就直接生成了,而且效果很好。
Alex:那这个跃迁是怎么发生的?
Greg:很大一部分来自更强的基础模型。OpenAI 一直在持续优化预训练技术,那一刻,其实只是提前让我们看到了接下来一整年的发展方向。但它也不是某一个单点突破,而是多个维度同时推进的结果。这些模型很有意思:一方面是连续进步,另一方面又会出现“跳跃式提升”。它并不是从 0% 到 80%,而是从 20% 到 80%。本质上是一直在变好,只是在某个节点跨过了“可用性阈值”。
而且这种提升还在持续。比如从 5.2 到 5.3 的版本更新,我们内部一个工程师之前无法用它完成复杂的底层系统开发,但现在可以直接给它一个设计文档,它就能实现、加监控、跑 profiler、再优化到目标状态。
所以你可以把它理解为:缓慢积累,然后突然爆发。而且可以很明确地说,现在看到的这些能力,在一年内,甚至更快,会变得极其可靠。
Alex:之前你还说 Codex 主要是给开发者用的,现在却说“人人都可以用”,这个认知是怎么改变的?
Greg:一开始我确实是从“coding”这个角度来看 Codex 的,名字里就有 code,自然会觉得它是给程序员用的。而且在 OpenAI 内部,我们很多人本身就是工程师,很容易默认是在为自己构建工具。
但随着技术发展,我们逐渐意识到:这项技术的本质,其实不是“写代码”,而是“解决问题”。核心能力是理解上下文、管理 harness、把 AI 融入实际工作中。一旦这样理解,就会发现不仅是 coding,Excel、PPT、各种重复性操作,本质上都是“机械技能”。
只要 AI 有足够的上下文和智能,它都可以做得很好。所以关键不在于能力,而在于“可用性”。一旦我们把门槛降下来,它就会从“程序员工具”,变成“所有人的工具”。
Alex:在那一波能力跃迁之后,硅谷又出现了一个有点轰动的现象,就是 OpenClaw。很多人开始真正“信任”AI,比如给它完整的桌面权限,甚至专门弄一台 Mac Mini,让它接入邮件、日历、文件,然后基本让它去“运行”自己的生活。你们还把 OpenClaw 的创始人招致麾下了,这是不是代表着 AI 将帮你“运行”生活的愿景?
Greg:这项技术的核心在于弄清楚它如何有用、人们想如何使用它、Agent 的愿景是什么、它将如何融入人们的生活。这是一个难题。
我观察到一个现象,每一代技术变革中,那些真正“all in”的人,有好奇心、有想象力、有愿景,本身就是一种非常稀缺的能力。而在正在形成的新经济体系里,这种能力会变得越来越有价值。OpenClaw 的创始人就是这样的人,他有很强的想象力和创造力。
所以某种程度上,这件事不只是技术,而是我们如何把这些能力真正嵌入到人们的日常生活中。作为技术人,这当然很让人兴奋;但从“为用户创造价值”的角度来说,这也是我们正在加倍投入的方向。
使用 Agents,不能推卸你的责任
Alex:你之前有一句很有意思的话,说当你使用这些 autonomous agents 时,你会变成一个“CEO”,管理成百上千个 agent,帮你完成目标,而你不再关心具体细节。但你也提到,这种方式有时会让你“失去对问题的感知”,这是好事吗?
Greg:我觉得这是一把双刃剑,我们既要认可这些工具能带来的优势,也要设法弥补其短板。
它们能赋予人类力量与自主掌控力。如果你有一个清晰的目标,你可以让一整支 agent 舰队去帮你执行。但问题在于:现实世界里,责任是必须落在某个人身上的。比如你让 agent 帮你做网站,结果出了问题,影响了用户,那责任不在 agent,而在你。所以,你必须在意。
对于使用这些工具的人来说,人类的代理权和问责制,是整个系统里非常核心的一部分。你不能推卸责任,不能只是说“啊,AI 会搞定一切的”。
Alex:但你说的“失去对问题的感知”,好像不是责任问题,而是认知层面的距离感?
Greg:其实这两件事是相关的。你可以类比一个 CEO:如果你离业务细节太远,失去了“对一线的感知”,那通常不会带来好结果。
所以我当时的意思不是说“人不需要了解细节”是好事,确实有些细节你可以不必关心,就像你请一个总承包商盖房子,有很多施工细节你可以信任对方。但如果出了问题,你仍然需要知道、需要在意。
关键在于,不是盲目放手,而是在建立信任的前提下,有选择地“放开低层细节”。你必须理解系统的能力边界和风险,才能决定哪些事情可以交给它。
“我们还没有完全理解模型”
Alex:回到模型本身的发展路径。我们经历了预训练、微调、强化学习,让模型可以一步步解决问题、调用工具。那接下来下一步是什么?
Greg:我们现在所处的阶段,是机器能力在不断加深、不断拓展。
一方面,我们已经有了 tool use,但接下来还需要构建更好的“工具生态”。比如 computer use,当 AI 可以操作整个桌面,它理论上就可以做任何你能做的事。但与此同时,我们也需要补上很多配套能力,比如企业里的权限管理(credentialing)、审计(audit trails)、可观测性(observability)等等。也就是说,模型能力已经跑在前面了,而系统层的基础设施还在追赶。
整体方向上,有几个很明确的趋势:比如语音交互,你可以自然地和电脑对话,它能理解、执行,还能给出建议。再比如,你早上醒来,AI 给你一个“日报”:告诉你你的 agents 昨晚做了什么进展,也许它在帮你运营一个业务,还会提醒你“有个客户不满意,想和真人聊一下”。
我觉得其中一个非常大的应用,是“创业的民主化”,更多人可以借助 AI 去启动和运营业务。同时,还有一个更宏观的变化:人类能解决的问题上限会被不断抬高。
我特别期待的一件事,是类似 AlphaGo 的第 37 手那样的时刻,那一步棋没有任何人类能想得出来,它很有创造力,它改变了人类对下棋的理解。这种事情会在各个领域发生:科学、数学、物理、化学、材料科学、生物、医疗、药物研发,甚至文学、诗歌。AI 会在我们还无法想象的层面,扩展人类的创造力。
Alex:既然模型已经这么强,为什么这些突破还没大规模出现?
Greg:我觉得这是因为模型的能力和人们实际使用它们的方式之间存在一个“overhang”(悬差)。换句话说,我们还没有完全理解这些模型到底能做什么。所以我觉得,即便技术不再进步,仅仅是更好地使用现有模型,也会带来巨大的变化。AI 驱动的经济仍然会发生。
另外一个原因是,我们过去更擅长训练“可衡量任务”的模型,比如数学题、编程题,这些有明确的评判标准。但对于更开放的问题,比如“这首诗写得好不好”,评价标准就模糊很多,这也限制了训练。不过这一切都在改变,而且我们已经看到了清晰的路线图。
Alex:有人说,如果你是搞数学的,面对这些模型的冲击,你的处境可能比搞文科的人更危险。你会担心吗?
Greg:人类很容易看到“我们失去的东西”,但不容易看到“我们获得的东西”。比如你会说:以前我做数学竞赛,现在 AI 也能做了。但问题是,数学竞赛本身,从来就不是人类真正的核心价值。
如果你看今天的工作方式,每天对着电脑输入文字,这其实也不是“人类的本质状态”,只是最近几十年的产物。生而为人是关于“在场”,关于与他人建立连接。我觉得我们将看到的是, AI 会释放大量时间,让人类有更多机会建立连接、增强人与人之间的关系。
Alex:随着 agent 能力增强,有人开始认为,也许不再需要那么大规模的预训练,只要模型够好,让它在现实世界中学习就可以了。你怎么看?
Greg:这个观点忽略了一点:模型训练的每一个环节其实是“相乘”的关系,你必须同时优化所有步骤。预训练变强,会让后续所有阶段变得更容易。因为模型一开始就更聪明,在尝试新方法、从错误中学习时,效率更高。
现在的变化是:不再只是“把模型做大”,而是结合真实世界使用、不断反馈优化。但这并不意味着预训练不重要了。
另外一个变化是,我们开始更加重视 inference(推理阶段)。因为模型不仅要强,还要能被实际使用,支持强化学习,也要能服务全球用户。
所以现在的目标,不是单纯“最大模型”,而是优化“智能 × 成本”的综合指标。
Alex:那 NVIDIA 的 GPU,还会继续重要吗?
Greg:非常重要。一方面,大规模训练仍然需要集中算力,这是不可替代的。另一方面,即使推理需求增加,整体算力需求也只会更高。而且 NVIDIA 团队本身做得非常出色,我们和他们合作非常紧密。
Alex:会不会有一天,人们会说“我们已经预训练得够多了,模型已经够聪明了”?
Greg:这就像在问:“人类什么时候可以说,我们已经解决了所有问题?”现实是,我们的目标和野心在不断提高。比如医疗,不仅是治病,而是提前预防、优化生活方式、在疾病发生前就干预。这类问题,很可能需要更强的模型才能解决。也许在某些具体问题上,你会说“够用了”。但总会有新的问题,需要更高的智能。
如何面对巨额算力投入
Alex:OpenAI 今年融资约 1100 亿美元,这背后的账是怎么算的?这笔钱是直接投进数据中心吗?你打算怎么把这些钱回报给投资者?
Greg:最大的支出是算力,但算力不应被视为成本中心,而应视为“收入中心”。可以把它想象成雇佣销售人员,你想雇佣多少销售?只要你能卖出产品,只要你有可扩展的销售方式,那么你的销售人员越多,你的收入就越高。
当前的现实是:算力始终供不应求。我们不得不做出艰难决策:哪些产品上线、算力分配给谁。未来整个经济都会面临类似问题:谁哪些问题将获得巨大的算力?你如何扩展,以便每个人都能拥有一个运行中的个人 Agent?如何让每个人都能用上像 Codex 这样的系统?
世界上根本没有足够的算力来做这些事,所以我们正试图在这个问题之前抢先布局。
Alex:在一个新赛道上投入如此巨额资金,你们如何保持信心?
Greg:首先,有历史经验支撑。从我们推出 ChatGPT 的那一刻起,我和团队有过这样一段对话,他们问:“我们应该买多少算力?”我说:“全部。”他们又追问不是开玩笑,到底该采购多少,我告诉他们,无论我们搭建多少算力资源,都绝对跟不上市场需求。从那以后的每一年,这一判断都成立。挑战在于:算力采购需要提前 18–24 个月决策,因此必须对未来有清晰预判。
到目前为止,我们的大部分收入来自消费者订阅,这部分业务始终至关重要,同时我们也在拓展其他营收渠道。而当下愈发清晰的新机遇,是知识工作领域。我们能切实地看到,所有企业都意识到 AI 切实有效,想要保持竞争力就必须采纳。软件工程师们自发使用的热情十分高涨,随后企业内部各类知识工作者也开始逐步使用这项技术。行业内清晰展现出用户的付费意愿与营收增长态势。展望未来,我们能窥见外界未必了解的模型优化发展路径。
综合这些因素来看,未来整体经济发展的核心关键,将取决于对 AI 的利用程度,以及支撑 AI 运行的算力储备。
Alex:未来收入结构会从消费者转向企业吗?
Greg:企业层面的变化速度极快,而且这并不只局限于传统意义上的企业,因为 “企业” 这个概念本身也在发生改变。实际上,更多人是在利用它开展高效的知识工作这类事务。而在我们思考定价策略时,有一点可以参考 Codex 当前的运作模式,如果你订阅了 ChatGPT 的个人版服务,就可以使用 Codex。所以我认为,未来不会有那么清晰的品类划分,核心在于用户本身,就像你的笔记本电脑一样,它是你通往数字世界的入口,而营收本质上也将来源于此。
Alex:Dario(Anthropic CEO)谈到你们时说,“有些玩家在‘All-in’,把油门踩得太狠了,我非常担心。”我想他指的是你们的基础设施赌注。你怎么看?
Greg:我不认同。我们的每一步决策都经过深思熟虑,也清晰预判了行业趋势,我认为就在今年,所有入局者都会面临算力紧缺的问题,而我们是最早意识到这一趋势、并提前围绕技术发展布局建设的一方。据我观察,其他同行大多是去年下半年后知后觉,才开始匆忙争抢算力,结果根本无算力可用。所以这类说法说得轻松,但行业内所有人其实都明白,这项技术已经落地生效、成为现实,软件工程只是第一个应用案例,而我们的发展核心受制于现有算力。
Alex:他还说,就算自己的预判只出现一点偏差,公司都有可能面临破产风险,你们也会面临同样的情况吗?
Greg:在我看来,我们拥有更多缓冲调整的空间(Offramp)。我们押注的并非某一家企业,而是整个行业赛道,核心在于是否相信这项技术能落地,并释放出我们预期的巨大价值。我可以举些实际例证,哪怕不是软件工程师、没使用过 Codex ,也很难形容它带来的改变有多颠覆,而且人们很快就能亲身体会到。半年前这还只是我们内部的判断,外部缺乏足够佐证,如今已经有了实际案例,再过半年,所有人都会真切感受到,即便有效果极佳的模型,也会因为算力不足而无法使用。
人人都使用 Agent 的未来
Alex:去年年底我们在节目里对 2026 年做预测时,Ron John Roy 说,2026 年会成为“人人都在用 agent 的一年”。我当时还说要眼见为实才信,结果现在我自己都在用了。
Greg:那你主要拿它做什么?
Alex:我用它搭建内部工具,方便团队同事同步视频上线时间、封面设计要求等信息,还会整合 YouTube 相关数据,可以根据缩略图对视频的表现进行排名。就像定制软件一样,我以前绝不会为此付费,现在我自己就能做出来。
我觉得这正是当下一个特别有意思的点:传统软件是面向大众规模化的,但正因为它要服务所有人,所以很多地方其实并不真正适合你。而现在这种方式,让我们可以用一种更自然、更贴合自己的方式去“定制”和使用软件。
Greg:我觉得这正是关键。而且我一直在想,我们过去构建计算机的方式,其实是在把人“拉进”数字世界。你想想,你每天花多少时间在手机上滑来滑去、不停点按钮?可问题是,为什么非得这样?为什么一定要你去适应机器?
而 AI 的方向,恰恰是反过来:把机器拉近你,让它更个性化、更理解你的目标。我们一直在流行文化里看到那种可以对话、可以替你完成任务的计算机,现在这件事开始变成现实了。而这种变化的“惊艳之处”,其实是你必须亲自试过才会明白。
Alex:为什么 AI 在公众中这么不受欢迎?比如 YouGov 的一项调查显示,预期 AI 对社会产生负面影响的美国人是预期正面影响的三倍。你觉得背后的原因是什么?你会担心 AI 的“品牌形象”吗?
Greg:我们确实还没有很好地向整个社会解释清楚:AI 到底“为什么对他们有好处”。不仅仅是宏观经济增长 GDP 之类的,而是更具体的,比如它如何真正改善普通人的生活?
其实我每天都能听到很多非常具体、非常真实的案例。比如有一个家庭,他们的孩子一直头痛,但却被拒绝做 MRI。后来他们用 ChatGPT 去查症状,发现可以据此向保险公司提出更有力的申请理由。最后成功做了 MRI,发现孩子有脑肿瘤,救了孩子的命。类似的故事还有很多,很多人的生活被深刻地改善,甚至被拯救,都是因为他们在真正“与 AI 协作”。但这些故事,其实并没有被广泛传播。
另一方面,我们过去的流行文化,尤其是上世纪九十年代以来的那些叙事,对 AI 的描绘大多是负面的,总是在强调“可能出什么问题”。但一旦人们真的开始用 AI,他们就会发现它是有用的。
所以我确实很担心,我们还没有成功地帮助大家理解:这一波技术浪潮,实际上会改善他们的生活,甚至增强人与人之间的连接。
而如果你再从更宏观的角度看,AI 的重要性还不止于此。我认为它将成为未来经济实力和国家安全的核心来源,关乎国家之间的竞争力。像中国这样的国家,在 AI 上的推进方向甚至是完全相反的路径。
我认为这件事非常重要,我们必须正视它,并且真正思考,如何让这项技术的红利能够被所有人共享。
如何看待建造数据中心的负面影响
Alex:我跟很多人聊到 AI 时,他们都会问:“我的工作还能保住多久?”另外,公众对数据中心的态度甚至比对 AI 本身还要负面。Pew 的调查显示,很多人认为数据中心对环境、家庭能源成本和附近居民的生活质量弊大于利。
现在的情况是,一方面好工作本来就不好找,另一方面数据中心又不断进入社区,但人们却觉得它对环境和生活都不友好。他们的这种看法是错的吗?
Greg:关于数据中心,其实确实存在很多误解。比如说用水这件事。以我们在 Abilene 的设施为例,它可能是全球最大的数据中心之一,但它一整年的用水量,大致和一个普通家庭差不多,几乎可以忽略不计。但外界普遍存在一种认知,觉得这些数据中心会消耗大量资源。同样在电力方面,我们也承诺不会把成本转嫁给普通用户,不会推高居民电价。
整个行业现在也在逐步做出类似承诺,我们必须让社区从中受益,而不是被负担。在建设数据中心时,我们也会尽量融入当地社区,了解当地的实际需求,看看我们能提供什么帮助。与此同时,这些项目会带来税收,也会创造就业机会。整体来看,是有不少正面效益的。所以在我看来,这更多是一个“如何去呈现和实践”的问题,而这也是我们非常认真对待的一项责任。
Alex:但即便电费不会上涨,你也得引入电力,这就意味着可能产生更多污染。这难道不值得担心吗?
Greg:所谓“不提高能源成本”,并不意味着简单地增加消耗。如果你看现在的电网,其实有很多“闲置电力”,也就是已经存在但没有被充分利用的能源。与此同时,很多地方的输电系统也需要升级。在这种情况下,我们把这部分升级的责任由我们承担,而不是让纳税人去承担。
另外,有很多地方其实拥有清洁能源,但没有被充分利用,相当于被“浪费”掉了。通过引入数据中心,反而可以推动电网的升级,这对整个系统是有益的。举个例子,在 North Dakota,我们就看到因为数据中心的落地,当地的电价反而下降了,基础设施得到了改善,最终让所有人受益。
Alex:你曾向 MAGA 捐赠了 2500 万美元,这是一个偏向支持 Trump 的 PAC。你在采访中说过,你愿意为推动这项技术造福所有人做任何事情。那如果这让你成为一个“单一议题选民”,你也接受。
一个更强大的国家,是否本身就能让你的目标更容易实现?即使某位候选人并不完全支持你的具体立场,那一个更强的国家,难道不应该是所有政治行为的北极星吗?这是否也是你做出这类捐赠的原因?
Greg:我和我妻子确实做出了这笔捐赠,我们也向两党都支持过的超级 PAC 进行过捐赠。
我之所以这么做,是因为我认为这项技术正在快速发展,在未来几年内会彻底改变一切,成为经济的基础设施。而目前,它在公众中的接受度其实并不高。所以我们希望支持那些真正愿意投入、认真对待这项技术的政客,让他们愿意去理解、去推动它的发展。
在我看来,这项技术本质上是在提升一个国家的整体实力。我确实可以说自己是一个“单一议题捐赠者”,因为我觉得这是我能做出的、最有价值的贡献之一。但核心还是一点:我们应该支持这项技术,让国家整体能够在这一波浪潮中受益。
建立对 AI 的掌控感
Alex:你会对那些害怕 AI 的人说什么?他们可能会担心它会取代工作、污染环境、甚至改变世界太快,你会怎么回应他们?
Greg:我最想说的第一件事是:去尝试用这些工具。只有亲自体验过 AI,了解现在这些技术到底能做什么,你才能真正理解它的价值。这种感受,是别人很难用语言传达的。
我们已经看到,这项技术正在释放大量机会。比如,现在任何一个没有编程经验的人,都可以用 AI 去做网站。如果你想创业,它可以帮你处理后台流程、管理系统等很多复杂问题。
所以我建议你去想在你的生活里,它能帮你做什么?在健康、家庭、赚钱、节省开支这些方面,它能提供什么帮助?人们往往更容易看到“会改变什么”,却很难看到“会带来什么”。但我认为,我们应该公平地去看待这两面,然后再做判断。
Alex:调查数据里也显示,那些只是“听说过 AI 但没有用过”的人,或者从没用过的人,态度往往更负面;而真正用过的人,甚至只是轻度使用的人,对 AI 的评价通常都更正面。
Greg:我们已经思考这项技术很多年了,而现在我们看到的现实,比我们当初想象的还要更令人惊讶、更有益,而且它带来的正面影响,很可能远超预期。
Alex:你会建议人们如何为未来做准备?我有朋友来问我,他们说不知道自己的工作会怎样,也不知道未来会怎样,他们只想知道“我该做什么”。
Greg:我认为最重要的一点,是理解这项技术本身。那些真正从中获得最大价值的人,往往是带着好奇心去使用它的人,他们会主动把它融入自己的工作流程里。更重要的是,要建立一种“我可以掌控它”的能力感。你可以当“管理者”,可以设定方向、可以分配任务,也可以做监督。
我们正在构建的是一种帮助人类、服务人类的技术,它的目标是养更多的人与人之间的连接、让人们有更多时间去做真正想做的事情。所以关键问题其实是:你真正想要什么?尝试去明确这一点,然后借助这项技术,把它一步步实现出来。
原视频链接:





