“Gemini 3 不错,但我们也快发了”:Mark Chen 评价谷歌大模型,讲清 OpenAI 如何给 300 个项目排 GPU 优先级

  • 2026-01-14
    北京
  • 本文字数:13827 字

    阅读完需:约 45 分钟

12 月,OpenAI 首席执行官萨姆·奥特曼宣布拉响「红色警报」,将调配更多内部资源以加速改进 ChatGPT。在当前白热化的 AI 模型竞赛中,作为行业内屈指可数的 “明星企业”,OpenAI 不仅要应对持续升温的人才争夺战、内部组织结构的频繁震荡,还需承接外界对其技术突破的高期待。面对 “开创下一个 AI 技术范式” 的巨大压力,OpenAI 将采取怎样的策略破局?

最近,OpenAI 首席研究官 Mark Chen 在播客节目中,与主持人 Ashlee 细致分享了 OpenAI 在推理模型的突破性进展、预训练研究的重新聚焦、GPT-5 Pro 已在取得的科学发现。基于该播客视频,InfoQ 进行了部分删改。

核心观点如下:

  • 一个组织要成功,需要两个条件:宏大的愿景和与之匹配的天才。

  • 成为一个好的领导者,就意味着必须明确地告诉大家:这是优先级,这是我们认为真正推动研究方向的成果,其余的只能排在第二位。

  • 未来的科研是“AI + 人类直觉”的组合,会产生新的突破。

  • 完全冻结研究部门的新增人头,如果团队想招人,就必须自己决定谁不再适合继续留下。

目标是找到“下一个范式”

Ashlee:“人才争夺战”最近引发了大量关注,外界普遍认为 Meta 的动作非常激进。你能具体谈谈这种你来我往的竞争现状吗?

Mark:整个行业的人才池其实很有限,大家都知道最关键的资源之一就是顶尖人才。Meta 的积极挖人并不令人意外,但我们也没有袖手旁观。媒体往往强调“人才单向流向 Meta”,但我看到的情况并非如此。比如在他们从我们团队挖到第一名员工之前,先后接触过我近一半的直接下属,但这些人全部拒绝了他们。当然,如果 Meta 每年能投入约百亿美元用于人才,他们总能挖到一些人。但总体来看,我们很好地保护了核心人才。

竞争过程中也发生过不少颇具戏剧性的事:扎克伯格曾亲自给我们团队成员送去他亲手熬的汤,以此示好。当时我非常震惊,但后来也理解这类方式确实可能有效。之后我也给从 Meta 挖来的对象送过汤,甚至还想过下次团队外出活动就带大家去上烹饪课。顺便说一句,我自己并不亲自熬汤,米其林餐厅的汤当然比我做得好。

但真正让我有信心的是:即使面对 Meta 的高薪挖角,在 OpenAI,无论是来自 Meta 的员工,还是我们原本的研究人员,都没有人认为“AGI 会首先在 Meta 诞生”。他们对 OpenAI 的研究路线都有高度信心。我也一直非常明确告诉团队,我们不会与 Meta 进行“薪资逐美元匹配”的竞争。在远低于 Meta 的薪酬下,关键成员仍然选择留下,这让我更加确信:他们真正相信 OpenAI 的未来。

Ashlee:在这种竞争中,有没有类似“博弈策略”的考虑?

Mark:关键在于:目标不是留住组织内的每一个人,而是认清必须保留的核心力量,并确保他们留下来,我们在这点上做得很好。

Ashlee:在我看来,Sam 是真正沉浸于研究的那个人,是最顶层的决策者。而你和 Jakub 负责共同制定 OpenAI 的研究方向,同时你还要决定算力如何分配到具体项目上,既要决定公司往哪里走,又要管理执行路径。听起来像是一份非常艰难的工作,因为我想象得到大家会竭尽所能从你那里争取 GPU。

Mark:确实如此。人们为了获得 GPU,会想尽各种“幕后交易”。但这确实是我职责的重要部分:确定研究优先级,并对最终执行负责。

Jakub 和我每隔一两个月会做一次“项目盘点”,梳理一份包含约 300 个项目的大型表格,尽可能深入了解每个项目,并对它们进行排序。对一家约 500 人规模的组织来说,明确“核心优先级”,并通过口头沟通及算力分配来传达,是非常重要的。

Ashlee:这 300 个项目里既有大型前沿模型,也有各种实验性方向。你们如何管理、追踪并判断哪些项目值得投入 GPU?

Mark:关键在于始终聚焦核心路线图。与其他大实验室不同,OpenAI 始终把“探索性研究”放在最中心的位置。我们并不追求复现别人的成果,也不以追赶他人在基准测试上的成绩为目标。我们的目标是找到“下一个范式”,并愿意投入大量资源。很多人可能会惊讶:我们的算力大头,其实花在“探索”上,而不是训练最终的成品模型。

Ashlee:所有团队都会说自己的项目最重要、最值得,怎么判断优先级?

Mark:最困难的决策通常是:我们无法在当下为某个项目提供支持。但成为一个好的领导者,就意味着必须明确地告诉大家:这是优先级,这是我们认为真正推动研究方向的成果,其余的只能排在第二位。

Ashlee:你们也强调不要“对竞争者做出反应”。如今 AI 领域的竞争比以往都激烈,你们如何保持独立判断?

Mark:现在的 AI 研究竞争确实空前激烈,但不能陷入这种竞争节奏。你随时可以发布一个小更新,在几周或几个月内领先别人,但这种方式无法长期维持。真正重要的是“破解下一个范式”。

例如 RO(reasoning optimization)项目,我们早在两年多前就押注语言模型的“思考能力”可以被突破。当时这个方向并不受欢迎,因为大家都觉得预训练和后训练机制运转良好,没必要做别的。但现在,“思考能力”已经变成不可或缺的基础能力。

我们的使命就是大胆押注,并构建足够强的算法,使它们能扩展到未来数个量级的算力。

研究员 vs 工程师

Ashlee:随着 OpenAI 成为一家有明确产品线的公司,你们如何不被“商业优先”压过“研究优先”?

Mark:OpenAI 最特别的地方在于:我们仍然是一家“纯粹的 AI 研究公司”,这点在业界非常罕见。我们以非营利形式创立,我加入时公司仍是非营利组织,那时的精神是“全力推进 AGI 研究,并保证安全”。我认为这依然是创造价值的最佳方式:只要研究领先,价值创造自然而然会发生。我 2018 年加入时的那种“核心文化”,至今依然存在。

Ashlee:马斯克曾说:“这帮人不是研究员,只是在做工程。”你怎么看?

Mark:在构建大模型时,优化每一个百分点、加速每一个 kernel、确保数值稳定,都是极深的工程实践。如果把研究凌驾于工程之上,其实已经输了。一旦缺少工程能力,就无法在当今这种规模的 GPU 上运行模型。

Ashlee:但外界确实把“研究员”和“工程师”赋予了不同的神秘感。

Mark:研究人员形态各异,有的人每天都有无数想法,其中很多并不好,但总能在某个时刻提出改变方向的优秀点子,而有的人特别擅长沿着清晰路径执行。研究从来不是一种单一类型的人能完成的工作,因此也无法简单划分为某种刻板印象。

Ashlee:当竞争对手发布新模型,你和你们团队会做什么?大家会第一时间去试吗?有没有你们常用来测试新模型的“那一道题”?

Mark:会。以 Gemini 3 为例,它是个不错的模型。

但我们内部其实有能力相当的模型,而且快要发布了。

Benchmark 只能说明一部分,大家还是会用自己独特的方式去试模型。我个人喜欢用一一个数学题去测,目前还没看到模型完全解出来,就算是“thinking model”也不行。

Ashlee:是秘密题目吗?

Mark:不算,不过如果我现在说出来可能就会被拿去训练。这是我去年很喜欢的谜题,叫“42 problem”。你要构建一个 mod 42 的随机数生成器,你有的原子操作是一些模 42 以下素数的 RNG,你要让期望调用次数最小。挺可爱的题目,但还没人类语言模型做到最优。

Ashlee:我原本以为你会在对手发布模型当天半夜就冲上去丢题测试。

Mark:没有那么夸张。我更相信“长周期”。我们过去半年都在强化预训练能力,把整个团队的肌肉练起来,做出现在能跟 Gemini 3 一较高下的模型。

Ashlee:所以你现在更关注长线构建,而不是每次新品发布就冲去试题。

Mark:对的。

Ashlee:我知道你和 Jakub 都有竞赛背景。我当初第一次见 Jakub 是在 Facebook Hacker Cup。你以前也是数学比赛选手吧?

Mark:对,我从小学、高中都在做数学竞赛。不过我真正写代码很晚,是大学室友怂恿的。当时我还有点数学系学生的傲气,觉得数学才是最纯粹的困难学科。后来发现编程竞赛太好玩了,而且是我和大学同学保持联系的方式。我们毕业后每周末都会上线一起比赛,算是朋友间的活动。后来我发现自己还挺有天赋,又开始给美国国家队出题、最后去带队。既是激烈比赛,也是一个紧密社区,大家之后都会在科研界再相遇。

Ashlee:那你这么忙,还能当教练?

Mark:其实孩子们本身都特别自驱。教练的作用更多是帮他们管理状态。竞赛很像科研:有好时段、有坏时段,你不能因为连续失败就被心理打倒,很大部分是士气管理。我最近在带模型做竞赛题时也发现,模型的“难度直觉”跟人完全不同,人认为 ad-hoc 的题模型反而容易。这让我更相信未来的科研是“AI + 人类直觉”的组合,会产生新的突破。

Ashlee:有点像 AlphaGo 的“Move 37”时刻?

Mark:是的。我觉得 GPT-5 Pro 发布之后,前沿科研有了拐点。发布三天后,一个物理学家朋友把他的最新论文丢进去,模型想了 30 分钟就完全搞懂,他的反应就像见证了围棋的那一刻。而这种事情未来会在数学、生物、材料科学不断出现。

Ashlee:但当 AI 开始做那些原本属于顶尖人类智力的事,会不会让你觉得有点伤感?

Mark:竞赛是我很喜欢、也曾经擅长的东西,但我也看着模型从普通选手水平爬到超过我,再超过 Jakub,就像亲眼看到自动化的速度快得不可思议。去年模型在 coder 比赛还只是排 100 多名,今年已经能冲进前五。变化太快了。

Ashlee:那十年后还会有人类比赛吗?

Mark:会的,因为它本质上就很有趣。那些只是为了简历而参加的人会消失,但真正热爱的人不会。

Ashlee:我采访别人时,他们说有些国家只要 IOI 奖牌就能直接保送大学。

Mark:是,但我觉得未来这些考试本身会被 AI 打破。技术面试、大学作业这些已经没法用旧方式评估了。我甚至想未来面试可以让候选人跟 ChatGPT 对话,由一个不会被越狱的特别版 ChatGPT 判断他们是否具备在 OpenAI 工作的能力。

Ashlee:你家里有很强的科技背景,你父母都在 Bell Labs,对你影响很大吧?

Mark:我从小吃饭桌上就是各种科学谜题。后来搬到西岸,我爸做创业,让我看到初创公司的另一面。再搬到台湾读书,又是完全不同的文化,纪律性更强。各种经历混在一起,形成了今天的我。

Ashlee:你 MIT 那届是名人辈出的超级年份吧?

Mark:是,2012 年那一年特别厉害。Jacob Steinhardt、Paul Christiano,还有后来 AI 领域很多重要的人物都在那一届。

Ashlee:你也通过竞赛认识了 Cognition 的 Scott Wu,那些在 X 上被当成数学 meme 的人。

Mark:对,我们就在竞赛社区认识。

Ashlee:你从 MIT 毕业后,直接去了华尔街。

Mark:老实说,我对在华尔街做高频交易并没有太多自豪感。当时在 MIT,许多擅长量化的学生都会选择类似的道路。这份工作确实很“绩效导向”,只要足够聪明,你就能获得对应的收益。然而文化上我并不适应。在那种环境里,当你发现了什么突破,第一反应是把知识藏好,因为知识本身就是你的价值来源。这造成团队内部竞争激烈、彼此不够信任。整个行业也像一个封闭的生态系统:即便某家 HFT 公司的算法快了一点,外界其实几乎没有任何感受。我做了四五年后发现,我们始终在跟同一批对手竞争,大家都稍微变快了,但世界并没有因此改变多少,我觉得是时候做点别的事了。

当时 AlphaGo 的比赛对我触动很大。虽然我并不下围棋,但看到模型展现出的创造性,我特别想弄明白背后的原理。

Ashlee:所以你是看到了那场比赛后,才开始关注 AI?当时你有在读论文吗?

Mark:坦白讲,没有。直到 AlphaGo 之后我才开始深入研究 AI。我的第一个目标就是复现 DQN 的结果,复现一个能在 Atari 游戏中达到超人水平的网络,那基本就是我踏入 AI 的起点。

Ashlee:你是在上班后业余时间做这些吗?我记得我大概 2018 年采访 George Hotz,他在自家车库做自动驾驶。他当时说,AI 仍然很年轻,只要读 10 到 30 篇论文,就能掌握整个领域。当然他的话未必完全准确,但 AI 的确很特别:历史很长,但此刻却异常“浅”。

Mark:确实非常“浅”。我常建议对 AI 望而却步的人:只要花三到六个月做一个项目,比如复现 DQN,就能很快触达前沿。过去几年虽然增加了一些深度,但远没有理论数学或物理那么深奥。

Ashlee:你觉得 AI 会像数学一样,天才都在二十几岁出现突破吗?还是这是一个可以做一辈子的领域?

Mark:我认为完全可以持续做下去。OpenAI 的文化确实偏年轻,但做好研究并不需要年轻。年轻人确实因为“先验少”,更容易突破传统路径,但随着经验增长,你也会形成自己的视角和框架,这既是优势,有时也会让你更固化。

OpenAI 的内部故事

Ashlee:你在 2018 年加入 OpenAI,那时公司应该只有 50 人左右?

Mark:差不多 20 人而已。我是以“研究员 resident”的身份加入的,也就是 OpenAI 会从其他行业招人进来集中训练半年,像压缩版 PhD,然后再参与更深入的研究项目。我很幸运能向 Ilya 学习,他基本决定了我的项目、学习路径和方向。

Ashlee:但如果去 LinkedIn 看,你的第一份 OpenAI 的头衔看起来像是“前沿研究主管”。

Mark:并不是,我做了三年左右的个人研究(IC)。当时我主要研究生成式模型,因为那是 Ilya 最关注的方向。之后我才开始带团队。

Ashlee:公众最早看到的大项目可能是 DALL·E,对吗?

Mark:是的。其实在那之前,我最自豪的项目之一是 Image GPT。它证明了 Transformer 不止能处理文本,也能在图像上学到强大的表示能力,是 DALL·E 的前身。而另外一个我非常自豪的项目是 Codex,我们搭建了代码模型的评估体系,也探索了如何让语言模型在代码任务上达到高水平。

Ashlee:那你当初为什么选 OpenAI?是因为当时这个小公司里有很多有意思的人吗?没钱、没人、前景很不确定,居然要挑战 Google 这种巨头。

Mark:我觉得一个组织要成功,需要两个条件:宏大的愿景和与之匹配的天才。当时 OpenAI 两者兼具,这非常罕见。而且我认识 Greg,我们以前参加过数学竞赛,我给他发消息说:“我不确定自己是否适合,但这里似乎在做重要的事情。”

Ashlee:但你从外部加入,然后现在成为研究负责人,这听起来还是很不可思议。

Mark:对我来说也很不真实。从 IC 转管理者,我其实非常犹豫。不过一路上我遇到的管理者都非常支持我,他们看到了我的潜力,会主动为我争取机会。我从没主动要求升职,每次都是自然而然的结果。管理这件事,本质上主要靠经验累积,而 OpenAI 是一个能让你不断获得“经验值”的地方。

Ashlee:我认识的你是一个温和、稳重的人。但 OpenAI 过去几年经历了很多戏剧性的风波,甚至像“权力的游戏”。你要在这种环境里做管理,这和你的性格几乎相反。

Mark:老实说我在 OpenAI 算是很幸运。一路上都有人支持我、给我建议,也在关键时刻为我发声。这些帮助让我能持续成长、建立信心。

Ashlee:不过你在“政变事件”那段时间做了两件很重要的事:你先帮助研究员们统一意见、促成那封让 Sam 回归的请愿信。然后一两天之后,你在 Chelsea 家做了一次很重要的短讲。这两个瞬间对我而言都很震撼,在危机时刻挺身而出、凝聚团队……这对你意味着什么?

Mark:对我而言,那确实是一个关键时刻。“风波”后的几天里,整个团队都处在高度不确定中。那段时间,我、Nick 和 Barrett 都感到一种责任感:竞争实验室正不断向我们的研究人员打电话,试图把他们挖走。我当时给自己设下目标:不能失去任何一个人。最终我们也做到了。

那几天,我们每天都把自己的家打开,让同事随时过来,释放焦虑,同时保持他们与领导层的沟通渠道畅通,让大家知道自己仍然能发挥作用。渐渐地,团队形成了一种“我们一起面对外界”的精神,大家都在思考:如何向世界传达“我们仍然站在一起”。

当时我在几处房子之间来回协调,我们提出了组建请愿书的想法,表达我们支持 Sam 的立场。大概凌晨两点,这个想法最终确定下来。到第二天早上,研究团队已有 90% 以上的人签署,到最后接近一百人都签了。那一整晚,大家都在互相打电话确认:“你参加吗?”

Ashlee:但你当时的处境应该挺尴尬的吧?毕竟一开始似乎是 Ilia 和 Sam 立场对立,而 Ilia 又是你的导师。后来 Ilia 又回来了……那会不会让你很尴尬?

Mark:不会说尴尬,但确实很困难,因为那是个信息极少的环境。那时候确实很容易怀疑:Sam 到底做了什么?但换个角度想,如果真有严重问题,Greg 和 Jakub 这种极其正直的人会因此辞职吗?我觉得肯定有部分事实被误解了。

Ashlee:Jakub 在那里工作很久了。关于他,有什么是外界不了解的?

Mark:他其实非常幽默,带着强烈的讽刺感,我常常被他逗得发笑。和他共事让我最珍惜的一点,是我们之间高度的默契。进会议室后,我们能迅速碰撞出一致的结论,然后分别负责路线图的不同部分。

说到“把团队留在一起”,我现在仍有这种使命感。我认为我们仍然“被攻击着”,任何公司想要招人时,第一选择往往是从 OpenAI 下手,因为他们想要我们的专业能力、愿景和世界观。OpenAI 造就了今天 AI 领域最多的明星研究员,因此我们对团队有强烈的保护欲。只要有人来挖,我就会尽一切努力确保团队感到被重视、被理解,并清楚自己在整个路线图中的位置。

Ashlee:在写书、回顾历史的过程中,我一直在想:这是否是一个高度依赖“天才个体”的领域?从 2012 年 Ilia 的突破,到 2017 年 Transformer,再到 Alec Radford……似乎每隔几年就有那么 8–10 个关键人物在推动整个领域。如果他们离开了,比如 John Schulman、Alec 离开了,那对团队不是巨大损失吗?但你们之后仍然在推理和其他方向取得了突破。

Mark:我并不同意“完全依赖明星个体”这种说法。OpenAI 的确会从上层做方向性押注,但我们内部有非常深厚的自下而上文化,很多好点子来自意想不到的地方。看到这些想法成长、成形、被扩展,是非常美妙的事,推理方向就是典型例子。

Ashlee:但行业确实会花大价钱去挖“明星”,比如 Google 花巨资请回 Noam Shazeer。

Mark:当然,人才既有培养也有争夺。反过来,我从 Meta 学到的一点就是:OpenAI 自己也可以非常积极地争取顶尖人才,我自己也从他们那套激进的招聘策略中学了几招。归根结底,我们的目标始终是:组建一支最强的团队,完成我们要实现的使命。

Ashlee:这个圈子其实很小,你们虽然竞争激烈,但私下也都是朋友。那边做研究,这边又试图挖对方的人,这不是很微妙吗?

Mark:这是残酷竞争的行业,但我个人也非常享受竞争。我讨厌失败,因此无论是研究还是招聘,我都会全力以赴。

Ashlee:这让我想到半导体行业早期也是这样:工程师们不断突破物理极限,在酒吧里分享最新发现,同时又被各家疯狂挖角。

Mark:是的,任何行业都会有“知识扩散”的基本速率。而公司可以有两种反应:一种是建立深度信息隔离层,严密保护一切;另一种是继续保持开放文化,用速度压制对手。OpenAI 明显是第二种,我们不认为封闭是正确方式。我们的方法是跑得比别人更快。我们鼓励研究人员自由分享想法,这才是最快的前进方式。

Ashlee:那现在你、Sam 和 Jakub 之间的合作方式是怎样的?大家都能看出来 Sam 更偏研究,而你们两位更深度参与技术细节。

Mark:我们三个人联系非常紧密,我每天都会和他们交流。Sam 热爱研究,也热爱了解研究。他能从研究人员那里捕捉“团队脉搏”,比如潜在问题、工作环境中的隐形障碍,他能帮我把这些提前揪出来。Jakub 和我则更专注于如何设计组织、让团队以最高效率协作,比如如何安排座位布局、如何组建互补的小组、如何引导大家关注我们认为重要的方向。

Ashlee:Sam 平时看论文、和你们聊天吗?

Mark:对,他会看论文,也会经常与研究人员交流,理解他们的研究方式。当然,他还负责范围远超研究的事务。

OpenAI 到底发现了什么?

Ashlee:我知道你们最近在预训练方面似乎有了重大突破,也明显比之前更有信心,能透露一下你们到底发现了什么吗?

Mark:我对过去两年的总体观察是:我们把大量资源投入到“推理”这一能力的研究上,努力理解并打磨这个核心原语,这条路确实走通了。但副作用是,模型的其他重要环节,特别是预训练和后训练,相对失去了些“肌肉”。过去六个月里,Jakub 和我花了很多时间把这部分能力重新练起来。

我一直把预训练看作一种“肌肉”,必须持续锻炼:信息要保持最新,团队要在优化、数值计算等前沿方向持续投入,同时也要确保有足够的心智关注度。所以我最近一个重要工作,就是引导公司内部的讨论重回预训练,我们认为预训练还有极大空间。

外界有人说“Scaling 已死”,但我们完全不认同。某种意义上,行业现在把注意力集中在 RL,这反而给了我们“信息优势”,因为我们看到预训练还有巨大的未开发潜力。得益于这套新努力,我们最近训练出的模型明显更强,这也让我们对包括 Gemini 3 在内的接下来一系列发布更有信心。

Ashlee:我脑中对这段历史的画面是这样的:你们跑得太快了,整个领域也跑得太快。突然之间,我们从互联网收集到巨量资料,把它扔进一台超级计算机,于是 ChatGPT 诞生了,然后所有人就开始疯狂冲刺。但对于不紧密跟进的人来说,问题可能是:最初那波数据其实非常粗糙,只是稍微清洗了一下就丢给模型。而现在你们说在“学习更高效地塑造数据”,但外界很难理解到底之前的“错误”是什么。

Mark:你触及了我最近一直在思考的问题。预训练本质上是在用人类写下的内容教模型模仿人的表达方式,模型学会了人类写作的结构和模式。但这种模仿式学习天然设定了上限:当你模仿人类时,你很难真正超越人类。

这也是为什么 RL 重要,它让我们有机会把模型推向更难的任务,让它从人类范式之外思考,拓展能力边界。但随之而来的,是一个更困难的问题:如果我们要让模型真正超越人类,该怎么衡量?

例如,在科学领域,当能力达到了“超人类”水平,人类真的能够判断 A 比 B 强吗?如何判断一个“超人类数学家”比另一个更厉害?我们需要更好的评估体系。迄今为止,我们很幸运,IMO、IOI 等竞赛提供了一种衡量“世界最强人类”的方法。但当模型超过人类,这些测验本身就失效了。

Ashlee:我常看到那些竞赛牛娃后来进 Google、Facebook,但他们不一定是最顶尖的工程师,也不一定愿意或适合进入工业界。所以单纯在竞赛上拔尖并不等于就是“最强工程师”。那如果未来 AI 在这些竞赛上表现极佳,我们到底能从中学到什么?

Mark:这正是我喜欢 AI 研究的地方,它比传统工程更接近真正的“技术能力的精英制度”。我反复学到的一点是:你无法让一个研究者不尊重的人来带领他们。研究团队的领导必须做出艰难且正确的技术判断,例如路线选择、资源配置、项目方向。如果判断错误,很快就会失去团队的信任。

我很享受与这样一群极度技术驱动的人共事,他们都深度投入、极高水准,与他们讨论技术本身,是一件真正的乐趣。

Ashlee:在我心里,Transformer 是一次巨大飞跃,而“推理能力”的突破甚至可能更惊人。最近与你、Greg、Jakub、Sam 交流时,我感觉你们说过去三到五年投入的大量工程工作,其实还没有完全显现出来。你们现在看到的,是另一场类似 Transformer 的跃迁吗?

Mark:我认为是的。比如在 GPT-5 时,我们谈到了大量关于“合成数据”的内容。还有许多类似的方向都显示了很强潜力,我们正在快速扩大投入。关键仍是维持一组多样化的探索,把最有实证价值的方向加大力度推进。

Ashlee:但两周前,Karpathy 在播客上说 AGI 可能要十年;上周 Dario 又说更接近两年。行业内部声音完全不一致。你怎么看?

Mark:Twitter 很喜欢那种“结束了!”“又回来了!”的戏剧化循环。但 AGI 本身连定义都不统一,在 OpenAI 内部,你把所有人叫到一个房间,也不可能给出一个完全一致的 AGI 定义。

我更把它类比成工业革命:你说纺织机是工业革命,还是蒸汽机是?视角不同,切点也不同。对我而言,我更看重的是:模型是否开始产出真正新的科学知识?是否推动科学前沿?从今年夏天以来,我感觉在这方面出现了巨大的相变。

Ashlee:你说的新科学成果,是不是指最近那些生物科技初创公司,比如一次性设计抗体、分子结构那类突破?还是你指的另有其事?

Mark:那次与物理学家的交流给了我很大启发,我回去后就想,我们应该创建一个“OpenAI for Science”。目标是让目前那小部分真正意识到模型潜力、愿意投入并加速研究的科学家,能够获得最大程度的支持。我知道其他公司也在推动科学前沿,但我们和谷歌等机构的不同之处在于:我们希望让所有科学家都有机会借助工具做出诺奖级突破,而不是让 OpenAI 自己拿诺奖。我们要构建的是通用的工具与框架,让科学界整体都能加速。

Ashlee:你能具体说说有哪些让你兴奋的发现吗?

Mark:当然。你可以去看 Sebastian 的推特,他最近发了关于 GPT-5 在一个开放凸优化问题上取得进展的论文,这与我们正在研究的一些核心机器学习问题密切相关。有些人会把这些成就简单理解成“更厉害的文献检索”,但远比这复杂。

Ashlee:这两天听到有人声称“我们做出了 AI 科学家”“我们一次性设计出增强型蛋白质”,这些公司里不少是真正的科学家,我也多少会兴奋。但数量实在太多,我很难判断哪些是真正的突破、哪些只是噪音。

Mark:如果这些突破发生在生物领域,我一点也不意外。尽管我主要的专业在计算机科学和数学,但我们团队里有顶级专家,他们确认了不少是真正的科学发现,生物学里出现类似情况并不令人惊讶。

Ashlee:但你描述的情况似乎与最近几周不断变化的公众叙事不同。比如一些播客里的人会说 AI 没什么进展,都是虚幻的。如果这些发现是真的,公众应该会感受到变化才对。

Mark:我们在筹建 OpenAI for Science 时与许多物理学家和数学家交流过,其中大多数人对 AI 其实并不乐观,他们觉得模型不可能证明新定理。但正因为如此,我们更希望扶持那一小批愿意相信并深入使用模型的人。他们会跑得比所有人都快,我们希望为他们提供工具,也希望说服更多研究者:这是未来科学研究的正确方法。

Ashlee:每个人对 AGI 的定义不同,但你似乎认为未来一两年会发生非常剧烈的变化?

Mark:“AGI 两年后到来”一直是个梗,但我觉得我们已经不在那个戏谑阶段了。是数学和科学领域不断出现的结果,让我真正产生了信念。在 OpenAI 内部,我们设定了两个非常具体的目标:

第一,1 年内改变研究方式:让研究过程可以依赖 AI 实习生。也就是:研究者负责提出想法,模型负责实现、编写代码、调试。

第二,2.5 年内让 AI 能进行端到端研究。这意味着:研究者只确定方向,模型完成从构思到执行到验证的全过程。

与今天相比,这是完全不同的研究范式。

算力、GPU 与 AI 硬件

Ashlee:在与 OpenAI 的人聊时,我常听到一句话——基础设施扩张得很快,模型只要算力再提升 10 倍就会变得更好。但也有人说从 GPT-4 到 GPT-5,你们算力增加了,却没有看到预期的效果。可你们的叙述又让我觉得:其实我们还没真正看到“10 倍算力飞跃”带来的结果。

Mark:有人问我:“你们真的需要这么多算力吗?”我总是被这个问题震惊,因为我每天面对的都是海量算力需求。如果我们今天多 3 倍算力,我能立刻高效用完;如果多 10 倍,大概几周内就能全部吃满。所以算力需求是真实、巨大、并且没有放缓迹象的。有人质疑“你们真的需要更多 GPU 吗?”对我来说毫无意义。

Ashlee:那除了算力需求,你们对模型规模继续扩大是否同样乐观?你们是否看到,类似“规模效应”会再次推动巨大跃升?

Mark:是的,我们非常明确要继续扩大模型规模;而且我们有突破性的算法能支持更有效地扩展。我认为 Gemini 3 也很令人印象深刻,但从细节看,比如 SWE-bench 等指标,他们在数据效率方面仍没有重大突破,而这是我们非常强的部分。

Ashlee:我看到了一份泄露的备忘录,Sam 对 Gemini 3 的语气听起来相当严肃,仿佛是一个转折点。你们内部应该都看过吧?

Mark:是的,但你要知道,Sam 的工作之一就是不断在组织里注入紧迫感,我也一样。我们必须保持专注,加快节奏。Gemini 3 是谷歌该做的正确押注,但与此同时,我们也有明确的策略与回应,并且我们有信心执行得更快。

Ashlee:你们会参与像 Jony Ive 的 AI 设备这样的项目吗?比如研究团队在其中扮演怎样的角色?

Mark:是的,事实上,就在昨天我和 Jony Ive 以及几位研究负责人一起吃了晚饭。我一直在思考未来的 ChatGPT 会是什么样子。现在的交互方式对我来说还很“笨”,非常非思维原生:你给一个提示,它回答;你不提示,它就停止思考。而且如果你再给出类似的问题,它会重新花一样多的时间推理,仿佛没有从第一次的上下文中变得更聪明。

未来显然应该不同。记忆会是核心能力:每次你使用 ChatGPT,它都会学到关于你的更深层次信息,思考你为什么会问这个问题、你之前问过什么、你接下来可能需要什么。下一次你来,它会变得更好。我认为这会彻底改变“设备”的范式,因此我们必须思考:如果 AI 的主导逻辑是持续学习与反思,那硬件设备应该怎么重新设计? 这就是和 Jony 合作非常有价值的地方。

Ashlee:你们已经有设备原型了吗?

Mark:我不能说有没有,也许有,也许没有。

Ashlee:我想到的是:苹果时代的核心是“硬件品味”,这是 Steve Jobs 极度执着的东西。而你们似乎都没有真正做过硬件产品。Sam 的审美看得出来不错,但还没到“乔布斯式品味”的程度。硬件是极其依赖品味的,你们怎么确定自己能做出好产品?

Mark:坦白说,我们不需要自己拥有那种品味,那是 Jony 的价值,他就是我们关于“品味”的判别器。而且很有趣的是,我们发现设计流程与 AI 研究流程之间有深刻的相似性:大量探索与假设、不断迭代、收敛成一个最终满意的成果。现在双方的融合非常顺畅:他们根据我们即将发布的能力去思考外形,我们根据他们的外形需求去思考能力。

Ashlee:我有时会担心:一群数学与模型天才是不是适合造“下一代电脑”。但听你这么说,似乎你们形成了一个合理的搭配。

Mark:确实,打造 AI 能力的人和拥有“美学品味”的人往往不是同一类。但我们内部其实有一些团队非常擅长判断“模型行为的品味”。比如有一种经典的测试题:“ChatGPT 最喜欢的数字应该是什么?”这种问题能检验模型的“人格品味”一致性。 

最后的问题

Ashlee:ChatGPT 建议我问你:如果五年后回看,现在有哪些“还很脆弱”的想法,你直觉认为可能是大突破的核心?

Mark:确实有几个,我非常期待把它们规模化。主要集中在预训练,一些在 RL,还有一些是如何把所有组件整合在一起的整体性想法。 

Ashlee:你觉得现在外界对 OpenAI 最大的误解是什么?

Mark:最重要的一点:OpenAI 从上到下都是一个“研究中心化”的组织。我们的核心赌注永远是 AGI,其他所有产品都会自然从研究突破中流出。

我们关心三件事:自动化 AI 研究本身、自动化科学发现、自动化经济性工作。今年最大的更新,其实是第二条:科学研究的自动化开始真实发生了。

Ashlee:你几岁了?还有社交生活吗?

Mark:34,快 35。老实说,没有什么社交生活。最近两周每天都是工作到凌晨一两点。但我热爱这样做。我们招人、推进研究、做关键决策。如果我们正站在类似工业革命的巨大转折点,那就必须抓住它。Barret 离开去创业之后,我在办公室睡了一个月。那段时间我非常强烈地感到:我必须保护研究,这是我最在乎的东西。

Ashlee:DeepSeek 事件之后,你们怎么看开源模型?

Mark:那是第一次让我深刻意识到:必须坚定走自己的研究路线。DeepSeek 当时引发巨大舆论,大家都在问:“OpenAI 落后了吗?要怎么回应?” 但我们做得最正确的一件事,就是继续执行自己的研究规划。DeepSeek 的工作非常强,但主要是对我们 O 系列理念的复刻。关键是,我们必须继续创新。

Ashlee:你认为 500 人是一个最优规模吗?随着公司扩大,这个数字会增长,还是说为了同时推进若干重大想法,500 人已经是最合适的规模?

Mark:坦率说,我认为甚至可以更少。尤其在我们开始引入 AI 研究员或 AI 实习生之后,我们必须重新思考团队结构。我非常在意“高密度人才”。例如今年第二季度,我做过一个实验:完全冻结研究部门的新增人头。如果团队想招人,就必须自己决定谁不再适合继续留下。我认为这种做法能防止组织失控膨胀,并保持极高的能力标准。

Ashlee:我记得之前在一次会议上,你和 Jakub 的观点比较一致:你们认为大家过度关注“谁在项目里获得署名”这个问题。AI 起源于学术界,在学术环境中署名极其重要。但那次会议里,你似乎在强调:大家可能对这个问题有点太执着了。是这样吗?是不是因为现在 OpenAI 已进入新的阶段,在公司环境下,这件事不再那么重要?

Mark:我认为过度关注“功劳归属”是件坏事。但另一方面,我又认为公司必须在内部与外部都正确地给予功劳。很多公司已经逐渐远离论文署名制度,但 Jakub 和我最终决定 OpenAI 必须保留署名。反对意见常常是:“你们把顶尖人才的名字摆在台面上,其他公司会更疯狂地挖角。”但我认为这不重要。出色的人就应该被看到,我们应该持续培养 AI 领域的明星研究者,也应该让真正做出贡献的人建立起自己的声望。

Ashlee:但你似乎又同时认为,研究员个人不应该过分执着于署名了?

Mark:现场确实有人表达过那种观点,但其实 Jakub 和我对这个问题持不同意见。我们俩更坚持应当在可能的情况下给予功劳,哪怕这意味着外界能清楚知道我们最优秀的人是谁。我甚至会再进一步说:OpenAI 可能是整个行业里,最愿意给研究者公开署名的公司,没有之一。

Ashlee:你 2018 年加入时,OpenAI 还是一个研究导向、非营利的组织,创始人希望它成为 Google 的平衡力量,并以“确保 AGI 安全到来”为目标。而你来自华尔街高频交易,只是被 AI 的进展吸引过来。说实话,你并不“必须”对 AGI 的哲学问题深怀使命感。那你究竟为什么要做这件事?

Mark:我同时管理 OpenAI 的对齐团队。坦白说,未来一两年最重大的难题,就是对齐问题。在这个研究方向上,OpenAI 在过去一年做出的成果可能是整个领域里最好的。

原因之一是:在 RL 与算力增加后,我们开始能测量模型的自我意识、自我保护倾向、甚至可能的“Scheming”行为。这非常危险,因为模型最终给你的答案可能是“正确的”,但它得到答案的过程却完全偏离我们能接受的路径。

随着模型替我们执行的任务越来越复杂,理解它的思维过程将变得极其关键。

Ashlee:这和机械可解释性有关,也就是试图理解模型内部机制的问题。核心问题是:我们的理解能力能否跟得上模型复杂性的提升?还是会最终被模型甩得太远?

Mark:我们在发布 O1 时做了一个关键决策:我们不监督模型的思维过程。一旦你要求模型给出“看起来让人类舒服的思考过程”,它就可能开始伪装自己的真实意图。因为坚持不监督、不过度干预,我们仍然能“看到”模型真实的思维轨迹,并将其作为研究对齐的重要工具。

几个月前,我们与 DeepMind、Anthropic 合作发表了一篇论文,探讨未来如何通过这种方式理解模型。我确实担心未来某一天,模型给出非常有说服力的答案,但我们无法确认它是否真正与人类的价值一致。

因此有很多值得探索的方向,例如:能否设计一种博弈或环境,让模型在互相监督、共同演化的过程中,唯一稳定的均衡,就是“诚实”?我认为这里还有大量非常重要的研究要做。

 

参考链接:https://www.youtube.com/watch?v=ZeyHBM2Y5_4&t=9s