Scaling 时代落幕：Ilya 眼中下一代 AI 的关键，不在模型，在人类

作为 Safe Superintelligence Inc. 的创始人、深度学习黄金十年的亲历者和塑造者，Ilya Sutskever 在最新一次长访谈中公开宣判：单靠“把模型一味做大”的时代已经走到了尽头。

在他看来，单纯扩模型不再是推进 AI 的主路径，未来真正的突破，在于解决一个更根本的问题：今天的 AI 依然很难把自己的“聪明”泛化到真实世界的新情境中。

要点总结

现有大模型出现了一个很怪的断层：在各类基准测试里成绩惊人，但在简单的真实任务里却经常翻车，说明这种“智能”非常脆弱。
过度聚焦 benchmark 可能本身就是问题所在。研究者用强化学习去优化那些专门为“考高分”设计的任务，反而可能在无意间削弱了模型向真实应用场景泛化的能力。
在人类身上，“情绪”也许扮演着类似 AI 里“价值函数”的角色，是内置在系统里的决策指导信号。
人类情绪本身很简单，却因此在大量情境下都很鲁棒、很好用；但在现代环境中，这种简单性也会失灵，比如在食物极大丰富的世界里，饥饿感已经不再是一个可靠的指引。
“纯靠扩容”的 AI 时代正在结束——那种“再大一点就能解决一切”的信念已经明显减弱。
AI 正重新回到一个“研究驱动的时代”，只不过这一次，研究是建立在前几年“扩容时代”堆出来的超大算力之上的。
当前大模型面临的最核心问题，是它们的泛化能力远逊于人类：既体现在需要海量数据、样本效率极低，也体现在想教它复杂任务非常困难。
进化可能给了人类在视觉、运动等“祖先技能”上一个极其强大的“先验”，这解释了为什么在这些领域，人类天然就比 AI 强很多。
在现代任务上（比如学开车），人类学习不仅依赖外部奖励，还依赖一个强健的内部价值函数，它能即时地产生“自我评分”，不需要别人显式给反馈。
如今，AI 进展的瓶颈已经从“算力”转向“想法本身”，于是出现了一个现实：公司的数量多于真正新颖的思路。
单纯“读”AI 能做什么，和亲眼“看到”它在现实中做成什么，有天壤之别。把强大的 AI 公开给大众，是让人真正理解它影响力的最有效方式。
“AGI”和“预训练”这两个概念在某种程度上是误导性的。比起把超级智能想象成一个“完工的、无所不知的产品”，不如把它理解成一种：具备极强持续学习能力的存在。
真正强大的已部署 AI，很关键的一点能力，在于：它可以把自己在整个经济体系中各个实例的学习结果合并起来。这种集体知识的“汇聚”，是人类做不到的，也可能触发“智能爆炸”。

模型“锯齿感”（Jaggedness）的解释

Ilya Sutskever：

你知道最疯狂的事情是什么吗？——这一切都是真的。

Dwarkesh Patel：

什么意思？

Ilya Sutskever：

你不觉得吗？所有这些 AI 的进展、湾区发生的这些事，它们真的正在发生。这难道不像科幻小说里的情节吗？

Dwarkesh：

还有一件疯狂的事是——“缓慢起飞”过程竟然显得如此正常。比如说，全社会拿出 1% 的 GDP 投入 AI……过去听上去会像天大的事情，而现在却让人感觉很……

Ilya Sutskever：

人类的适应速度其实非常快。再加上这些变化很抽象。所谓“投入 1% GDP”，对大多数人来说只是新闻里看到某家公司宣布投入了一个难以理解的金额。除此之外，人们并没有真正“感受到”什么。

Dwarkesh：

我们就从这里开始吧，我觉得这很有意思。

Ilya Sutskever：

可以。

Dwarkesh：

我觉得从普通人的视角看，世界似乎没什么不同——而这种感觉可能在奇点来临后仍然继续存在。

Ilya Sutskever：

不，我不这么认为。

Dwarkesh：

哦？有意思。

Ilya Sutskever：

我刚才说的“不太感觉得到”是指：公司宣布了一笔巨大的投资，但普通人不知道该如何理解它。但 AI 的真实影响最终会被切切实实感受到。AI 会渗透到整个经济体系 —— 有非常强的经济动力驱动这件事，而这种影响会非常明显。

Dwarkesh：

你认为这种影响什么时候真正到来？现在模型看上去似乎比它们的经济影响要“聪明得多”。

Ilya Sutskever：

是的，这是当前模型最令人困惑的地方之一。如何解释这个矛盾？一方面模型在各类评测（evals）上表现惊人，那些评测明明很难，但模型能做得很好；另一方面，它们的经济影响却落后得多。

很难理解——模型怎么能在某些方面表现得惊艳，同时又在另一些地方犯极其基础的错误？

举个例子：你用 vibe coding 让模型写代码，遇到一个 bug，你告诉模型：“修一下这个 bug。”

模型回答：“天哪，你说得太对了，我修一下。”然后它修出了第二个 bug。你再告诉它：“这里又有个新 bug。”它又说：“天哪，我怎么会这样，你说得又对了。”接着把第一个 bug 再次引回来。如此循环往复。这是怎么回事？我不太确定，但确实说明某些地方很奇怪。

我现在有两个可能的解释：

解释一：RL 让模型“单线思维”。一种略带玩笑但不无道理的解释是：强化学习（RL）可能让模型变得过于单一目标驱动，过于聚焦，某些方面的“觉察力”反而下降。它在某些任务上更“觉醒”，但在某些基础事情上却变得更迟钝。

解释二：训练数据的选择方式本身带来偏差。以前做预训练（pre-training）时，不需要选择数据 ——答案永远是：“全部数据。”预训练需要一切，所以根本不需要做选择。但 RL 不一样。人类必须决定：“我们想让模型在哪些环境里做 RL？哪些任务？哪些奖励？”行业里有很多团队专门在生产新的 RL 环境，然后不断把它们加入训练混合中。问题是：这些 RL 环境究竟是什么？为什么是这些？没人在系统性思考。

其中一个行业内普遍存在的倾向是：大家会从评测（evals）获得灵感。比如：“我们希望模型发布时在某项测评里取得高分，那我们就设计一些 RL 训练来优化它。”

这可能解释了很多现象：模型会在 evals 上看起来很强，但这种能力无法泛化到现实世界任务。

如果再加上：模型的泛化能力其实远没有我们想象的那么好，那就能更好解释为什么评测能力和真实能力之间存在巨大脱节。

而这种脱节，目前我们甚至都没完全理解能如何定义。

Dwarkesh：

我喜欢这个说法：真正“奖励黑客”的其实是研究人员本身，因为他们过于专注于提升 eval 分数。

两个理解方向。第一种理解是：如果模型在编程比赛里达到超人水平，却仍然无法对现实代码库做出“有品味的判断”，那么我们应该扩展训练环境，让模型不仅会比赛，还会做更真实的开发任务。

第二种理解是：为什么 超人级比赛能力 不能自然带来 更全面的编程能力？也许重点不是不断堆环境，而是找到一种能让模型从一个环境中学习，并迁移到完全不同环境的方法。

人类类比：竞赛高手与真正优秀的工程师

Ilya Sutskever：

我举个类比可能更容易理解。

想象两个学习编程的人：

学生 A：决心成为最强的竞赛选手。他练了 1 万小时，刷完所有题、掌握所有技巧，成为世界级顶尖。
学生 B：觉得竞赛很酷，只练了 100 小时，题刷得远不如 A，但他也表现不错。

你觉得他们毕业后谁在真实世界的工作中表现更好？

Dwarkesh：

当然是第二个。

Ilya Sutskever：

是的。模型更像第一个学生，甚至训练得更极端。大家为了让模型在比赛里强，把所有比赛题目都训练了，还做数据扩增，训练得过度、极致。

而真正优秀的工程师类似第二个学生——他们有一种“不可量化的东西”，一种“it factor”。

预训练与 RL 的区别

Dwarkesh：

那第二个学生做的“那 100 小时”到底对应模型的什么？不是预训练吗？

Ilya Sutskever：

我认为他们拥有一种“天赋（it）”。预训练其实和那种“天赋”完全不同。

Dwarkesh：

那预训练不是相当于“1 万小时练习”吗？只是这些练习来自人类写下的海量内容，而不用自己亲自练？

Ilya Sutskever：

预训练的优势有两个：

数据量巨大得不可思议。
数据的选择不需要人类深度思考——自然语言就是人类对世界的投影。

但预训练本身很难解释，因为我们没法轻易理解模型如何从这些数据中获取什么。当模型犯错时，我们也无法判断是否因为预训练数据缺乏某些模式。

我认为预训练没有完美的人类类比。

关于人类学习是否类似预训练，有人提出两个类比：

人类前 15 年的成长（大量非生产性的输入）。
进化本身（30 亿年搜索过程）。

Ilya Sutskever：

两者都与预训练有相似点，但也有巨大差异。比如：人类接触的数据量微乎其微，却能获得更深刻、更可靠的理解，不会像 AI 一样犯低级错误。

再举例：一个失去“情绪处理能力”的人——没有悲伤、愤怒等情绪，但智力完好——会变得：

无法做出任何决策
连挑选袜子都要想数小时
财务决策极差

这说明：情绪在做人类智能体中扮演了“价值函数（value function）”的角色。

Dwarkesh：

所以“情绪”其实是一种给决策的最终奖励吗？这样的东西无法靠预训练学到吗？

Ilya Sutskever：

也许可以，但并不显然。

Dwarkesh：

那情绪在 ML 中的类比是什么？

Ilya Sutskever：

应该类似于一种“价值函数”。但目前 ML 里“价值函数”不是核心组件。

价值函数（value function）是什么？

Ilya Sutskever：

在现代 RL 中，模型通常是：

进行大量步骤思考
最后产出一个结果
然后根据最终结果给整条轨迹每一步反馈

这意味着：如果任务很长，你必须等到最后才得到任何学习信号。而 价值函数 的作用就是：

提前判断“你现在是不是在做有前途的事情”。
例如下棋丢子，你无需等到被将死才知道“刚刚那步是坏的”。

同理，在数学推理或编程中，如果你走了 1000 步后发现方向错误，那么：

价值函数能把“这条路径不行”的信号反向传播回 1000 步之前，
下次避免再走入同样的思路。

Dwarkesh Patel：

DeepSeek R1 的论文里提到过，轨迹空间非常宽，可能很难从中间某个思考过程映射到一个价值评估。而且在写代码时，你会先沿着一个错误的思路走，然后再回退，改一改别的地方。

Ilya Sutskever：

这听起来有点像“对深度学习缺乏信心”。当然，这件事可能很难，但很难不代表深度学习做不到。我的预期是：价值函数应该是有用的，而且我完全预期未来一定会广泛用起来——如果现在还没的话。

我刚刚提到那个情绪中枢受损的病人，其实是想说：也许人类的价值函数，在很大程度上是被情绪调制的，而这些情绪是进化硬编码下来的。这种调制方式，可能对人类在真实世界中的有效性非常关键。

Dwarkesh Patel：

这正是我原本想问你的。有一个关于情绪和价值函数的点很有趣：它们的效用非常大，但从理解难度上看，却又显得相对简单。

Ilya Sutskever：

我有两个看法。第一点我同意：相对于我们现在讨论的这些东西、相对于我们想要构建的那种 AI，情绪确实要简单得多。它们甚至可能简单到，你真的可以在某种人类可理解的层面上把它们完整刻画出来。我觉得如果有人能做到，会非常酷。

第二点是关于效用。我觉得这里存在一种“复杂度和鲁棒性的权衡”：复杂的东西在特定场景下可以非常有用，但简单的机制在非常广泛的情境下都能起作用。可以这样理解当下我们看到的情绪：它们主要是从哺乳动物祖先那一套情绪系统演化而来，在我们成为古人类之后又做了一点微调。我们确实有不少社会情绪，这是一般哺乳动物不一定有的。但整体来说，这些情绪并不算特别复杂。正因为它们不复杂，反而在与祖先完全不同的现代世界里，还能继续很好地服务我们。

当然，情绪也会犯错。比如说，我们的情绪……嗯，我也不确定饥饿算不算“情绪”，这是有争议的。但我觉得至少可以说：在一个食物极其丰富的现代社会里，我们对饥饿的直觉感受，显然并没有成功地把我们引导到一个“合理饮食”的状态。

我们到底在“放大”什么？

Dwarkesh Patel：

这几年大家在谈 scaling（放大）：放大数据、放大参数、放大算力。有没有一种更一般的方式来理解“放大”？还存在哪些“放大的维度”？

Ilya Sutskever：

我有一个视角，可能是对的。过去的机器学习，大概是这样运作的：大家不停地捣鼓各种点子，看看能不能做出一些有趣的结果，这是早期一直在发生的事情。

后来，“放大”的洞见出现了。有了 scaling laws，有了 GPT-3，大家突然意识到：“我们应该往大了堆。”这其实是一个“语言如何影响思维”的例子。“Scaling”只是一个词，但它极其强大，因为它告诉大家应该干什么——“去放大吧”。于是问题变成：那我们到底在放大什么？答案是：在放大预训练。预训练变成了那个被放大的配方。

预训练真正的突破点在于发现了这样一个“配方是好的”。你说：“如果我把算力和数据，按一定比例混进一个特定规模的神经网络里，就会有成果。而且只要按这个配方不断加量，结果会变好。”这对公司来说非常棒，因为它提供了一种低风险的资源投入方式。

相比之下，投资“研究”要难得多。如果你想投资研究，你要对团队说：“去探索吧，去搞研究，搞出点东西来。”但如果你投资预训练，你可以说：“多拉点数据，多买点算力。”然后你知道根据预训练这套配方，一定能得到一些提升。

而且现在看起来，根据一些人在 Twitter 上的说法，Gemini 似乎找到了从预训练中榨取更多价值的办法。但总有一天，预训练会遇到数据天花板——数据是肉眼可见的有限。那接下来怎么办？要么做某种“强化版预训练”，换一套和以往不同的配方，要么就做 RL，或者做其它什么东西。

但无论如何，当算力已经大到这个程度，我们在某种意义上又回到了“研究时代”。

可以换一种说法：从 2012 到 2020，这段时间是“研究的时代”。从 2020 到 2025，则是“放大的时代”（前后年份可以加点误差条），因为大家都在说：“太厉害了，继续往大了堆，继续放大。”一个词：scaling。

但现在规模已经大到如此离谱了。你真的还相信：“只要再多 100 倍算力，一切就完全不同”吗？当然，多 100 倍肯定会有变化。但是不是说，只要 scale 乘以 100，一切就被彻底改写？我不觉得。所以我们又回到了“研究的时代”，只不过这次我们有了超级大的计算机。

Dwarkesh Patel：

这个说法很有意思。那我就来问你刚才自己提的那个问题：我们到底在放大什么？“配方”究竟是指什么？在预训练那里，我们有一种几乎像物理定律一样清晰的关系：数据、算力、参数规模和 loss 之间有幂律规律。接下来的时代，我们应该去寻找什么样的关系？新的配方会是什么样子？

Ilya Sutskever：

我们其实已经见证了一次“放大范式”的转变：从“放大预训练”，转向“放大 RL”。现在大家在放大 RL。根据网上的说法，有的公司在 RL 上用的算力已经超过预训练了，因为 RL 能吃掉非常多算力。你会做非常长的 rollout，要花大量算力来生成这些 rollout，但每条 rollout 能带来的学习量又相对有限，所以你确实有很大的空间在 RL 上烧算力。

不过，我甚至都不太想把这继续叫做 scaling。我更愿意问的问题是：“你现在在做的事情，是对这台大计算机最有效的使用方式吗？有没有更高效的算力利用方式？”我们前面聊到价值函数，也许一旦大家真正把价值函数玩明白了，就能更高效地用同样的算力。如果你找到另一整套完全不同的训练方式，你当然也可以说是在“放大”它，但那到底算不算 scaling 呢？在这个意义上，边界会变得有点模糊。

回想当年的“研究时代”，那时的风格是：“我们试试这个、这个、这个；再试试那个、那个、那个——哎，有点有趣的东西出来了。”我觉得我们会回到那种状态，只是今天我们手里多了一台巨大的计算机。

Dwarkesh Patel：

如果我们真的回到了研究时代，从更高一层来看，配方里最需要重新思考的部分究竟是什么？你刚才提到价值函数，现在很多人已经在现有配方上继续往后加步骤，比如用“大模型判官（LLM-as-a-Judge）”之类的办法，你也可以说那是一种价值函数。但听上去你心里想的是比这更基础的东西。我们是不是应该连预训练本身也重新思考，而不仅仅是在预训练后面加更多步骤？

Ilya Sutskever：

关于价值函数这块，我觉得刚才的讨论是有意思的。我想强调的是：价值函数主要是让 RL 更高效，我认为这一点会很重要。但本质上，任何你能通过价值函数实现的东西，不用价值函数也能做到，只是效率更低一点。

我觉得最根本的问题是：这些模型的泛化能力，明显远远差于人类。这一点非常显眼，而且我认为是特别基础的问题。

为什么人类泛化能力比模型强？

Dwarkesh Patel：

所以问题的核心就是“泛化”。这里可以再拆成两个子问题。第一个是样本效率：为什么模型需要远比人类多得多的数据才能学会同样的东西？第二个是，即便抛开数据量不谈，为什么“把我们真正想教的东西”教给模型会比教给人难得多？对人类来说，你并不一定需要一个可验证的奖励信号。你现在大概在带很多研究员，你和他们讨论、给他们看你的代码、解释你的思路，他们从这些互动中就能学到你的思考方式，以及如何做研究。

你不需要给他们设置一条条“可验证的奖励”：现在是下一节课的内容了，现在你的训练不稳定了，之类的。这中间不需要那种又繁琐又定制化的流程。这两个问题也许是相关的，但我更想先探讨第二个，也就是“持续学习”；同时第一部分更像是纯粹的样本效率问题。

Ilya Sutskever：

要解释人类样本效率，一个必须认真看待的可能解释是“进化”。进化给了我们一小部分极其有用的信息。在视觉、听觉、运动控制这些方面，我觉得进化给我们的东西非常多。

比如，人类的灵巧性远超机器人。机器人当然也可以变得非常灵巧，但那通常需要在模拟环境中进行海量训练。而要在真实世界中训练出一个机器人，让它像人一样快速掌握一项全新的操作技能，目前看起来相当遥远。对于运动能力，人类可以说是拥有一套不可思议的“先验”，因为我们的祖先几乎都必须有很强的运动能力，哪怕是像松鼠那样的祖先。

视觉也是类似。Yann LeCun 曾经指出，小孩只需要 10 小时练习就能学会开车，这一点是对的。但前提是：小孩的视觉系统已经非常好了。以我自己为例，我记得自己 5 岁时就对汽车很着迷。我几乎可以肯定，5 岁时我对“汽车”的识别能力已经足够开车用了。可 5 岁的小孩，在那之前实际接触到的数据量并不大，大多数时间都在父母家里活动，数据多样性非常有限。

你当然可以说，这也是进化的功劳。但在语言、数学、编程这些领域，情况可能就不是这样了。

Dwarkesh Patel：

不过人类在这些领域似乎依然做得比模型更好。诚然，模型在语言、数学和编程平均水平上已经超越大部分人了。但它们在“学习能力”这件事上，真的超过普通人了吗？

Ilya Sutskever：

超过了，绝对超过。我刚才的意思是：语言、数学、编程——尤其是数学和编程——这些领域的表现说明，让人类具备很强学习能力的东西，可能并不是一套很复杂的“先验”，而是更基础、更底层的某种机制。

Dwarkesh Patel：

我不太明白，为什么会得出这个结论？

Ilya Sutskever：

想象一个领域，人类在其中展现出非常高的可靠性。如果这个领域，在过去数百万、甚至数亿年的进化过程中一直对我们的祖先非常重要，那你就可以合理推断：人类在这方面强，很大程度是因为进化给了我们一套强大的“先验”，以某种不那么显眼的方式编码在大脑里。

但如果人类在一个直到最近才出现的领域里，也展现出极强的能力、可靠性、鲁棒性以及快速学习能力，那这更说明，人类本身就拥有一套“更强的机器学习机制”。

Dwarkesh Patel：

我们应该如何理解这种机制？在机器学习里它的类比是什么？它似乎有几个特征：需要的样本更少，更接近无监督；比如一个青少年学开车，他们并不是在一个预先构造好的“可验证奖励系统”里学习，而是通过和机器、环境互动来获得反馈；所需样本极少，训练过程更像无监督，而且结果更鲁棒。

Ilya Sutskever：

是的，鲁棒性高得多。人的鲁棒性其实非常惊人。

Dwarkesh Patel：

你有没有一种统一的方式来解释这些现象？在机器学习中，有什么样的类比能实现类似的特性？

Ilya Sutskever：

你之前在问：青少年司机是怎么在没有“外部老师”的情况下自我纠正、从经验中学习的？答案是：他们有自己的价值函数。他们有一种极其鲁棒的“整体感受”，这在大多数人身上都存在——除了一些跟成瘾相关的例外，人类的价值函数其实非常稳定。

对一个正在学车的青少年来说，他一开始上路，就已经对自己开得怎么样有一种整体感觉：自己有多不熟练、多不自信。随着练习，他不断校准这种感觉。而任何一个青少年的学习速度都非常快，大概十几个小时的练习之后，基本就可以上路了。

Dwarkesh Patel：

看起来，人类已经有了一套解决方案，但我很好奇他们到底是怎么做到的，以及为什么对我们来说这么难？要让模型具备类似能力，我们在训练方式上需要做怎样的“重新构想”？

Ilya Sutskever：

这是一个非常好的问题，我自己其实有很多想法。但很不幸，我们现在身处的这个世界，并不是所有机器学习思路都能公开讨论，而这正是其中之一。

我几乎可以肯定，这件事是有办法做到的，我也相信它是可以做到的。人类能做到，本身就是“这可以做到”的证据。

不过这里还有一个潜在的阻碍：有一种可能是，人类神经元实际执行的计算量比我们以为的要大得多。如果这是真的，而且又恰好在这里起着关键作用，那事情就会变得更棘手一些。

但无论如何，我都认为这至少指向某种我心里大概有数的“机器学习原理”。只是很遗憾，现实环境让我们很难把细节讲开。

“直奔超级智能”的研究时代

Dwarkesh Patel：

我很好奇，你说我们又回到了“研究时代”。你从 2012 年一路见证到 2020 年，那如果我们现在真的回到研究时代，整个圈子会是什么“气质”？

比如说，即使在 AlexNet 之后，用来做实验的算力也在持续增加，前沿系统的规模也在持续变大。那你觉得，这一轮的“研究时代”是不是同样需要巨量算力？

我们会不会需要重新回去翻老论文？

你之前在 Google、OpenAI、斯坦福这些“研究氛围更重”的地方待过，你觉得我们应该期待怎样的研究社群？

Ilya Sutskever：

“放大”的时代有一个后果，就是它把屋子里的空气都抽干了。因为 scaling 把所有空气都吸走了，大家开始做的事情渐渐都一样。

我们现在身处的世界，是一个公司数量远多于点子数量的世界。

这让我想起硅谷有句老话：点子不值钱，执行才是一切。这句话当然有道理。但我曾在 Twitter 上看到有人说：“既然点子这么不值钱，那为什么现在没人有点子？”——我觉得这句话也挺对。

如果把研究的进展拆解成不同“瓶颈”，大致有几个：一个是“有没有点子”，另一个是“有没有能力把点子做出来”，后者既包括算力，也包括工程能力。

回到上世纪 90 年代，很多人其实有不错的想法。如果他们当时拥有今天这么大的计算机，也许可以证明那些想法是行得通的。但当时做不到，只能做出非常小的 demo，无法说服任何人。

那时候的瓶颈是算力。

后来我们进入了 scaling 时代，算力增长了很多。当然，“究竟需要多少算力”始终一个开放问题，但至少算力已经大到——很难再说一定非要更多算力才能验证一个新 idea 了。

我举几个例子：AlexNet 用了两块 GPU，这就是它全部的算力开销。Transformer 刚出来时的实验，用的是 8 到 64 块 GPU，没有一篇 2017 年的 Transformer 论文单次实验用了超过 64 块 GPU——折算到今天，可能也就两块现代 GPU。ResNet 也是类似的故事。再说 o1 这种推理系统，你也可以争辩，它不是一个“算力消耗最夸张”的东西。

所以，对研究来说，你当然需要一定的算力，但远不到“必须拥有世界上最大的那批算力”才能做事的程度。你可以说，如果你想造出绝对最强的系统，那有更多算力肯定有帮助，特别是当大家都在同一个范式里卷时，算力就变成一个重要的区分因素。

Dwarkesh Patel：

我之所以问你历史，是因为你亲历过，我只是事后看的。听起来当时在算力相对有限的情况下，确实可以发展出这些新想法。但 Transformer 并不是一出来就“封神”，而是随着它在越来越大的算力规模上被验证，才慢慢变成所有人都在用、都在往上叠东西的基础。

Ilya Sutskever：

没错。

Dwarkesh Patel：

假设你们 SSI 手里有五十个不同的点子，你们怎么知道哪一个会是下一个 Transformer，而哪一个只是脆弱的小玩具？如果你们没有其他头部实验室那样的算力规模，又如何判断？

Ilya Sutskever：

这点我可以说几句。简单回答是：既然你提到 SSI，那我就直接说，对我们来说，用于研究的算力其实一点也不算少。我也想解释一下为什么——一些非常简单的算术就能解释：我们现在用于研究的算力，其实比很多人想象中要“更接近顶级”。

SSI 一共融资了 30 亿美元，这在任何绝对意义上都是一笔巨款。你当然可以说：“其他公司募资更多。”但问题是，它们里头有很大一块是拿去做推理（inference）的。很多惊人的数字、巨额贷款，都是预先“划给”推理用的。

其次，如果你要有一个真正跑推理的产品，你得有庞大的工程团队、销售团队，大量研究其实要服务于各种产品功能。那么，当你把这些都扣掉，再看真正留给“纯研究”的算力，差距就小得多了。

还有一点是，如果你在做的是一件跟别人不一样的事，你真的需要绝对最大规模来证明它吗？我一点也不这么认为。就我们自己而言，我觉得我们完全有足够的算力，来证明、并说服我们自己以及其他人：我们在做的事情是对的。

Dwarkesh Patel：

现在有一些公开估算，说像 OpenAI 这样的公司，每年光在“实验”上花掉 50 到 60 亿美元——还不包括推理等其他开销。听起来，他们一年在研究实验上的花费就比你们的总融资额还多。

Ilya Sutskever：

关键问题还是：你拿这些算力在做什么。在他们那里，在其他大公司那里，训练算力的需求面向非常多不同方向：不同模态、不同产品线、很多并行工作流，算力被分割得很碎。

Dwarkesh Patel：

那 SSI 未来要怎么赚钱？

Ilya Sutskever：

我对这个问题的回答大概是：现在，我们只专注于研究；等研究有了结果，答案自然会显现。我相信到时候会有很多种可能的路径。

Dwarkesh Patel：

SSI 现在的计划还是“直奔超级智能”（straight shot superintelligence）吗？

Ilya Sutskever：

也许是。我认为这种做法有它的价值，甚至价值很大。一个很重要的好处是，不会被日常的市场竞争牵着走。但也有两点原因，可能会让我们调整计划。

第一是务实层面：如果时间线被证明其实很长——这完全有可能。

第二是，我认为最强大的 AI 真正投向世界，让它产生实际影响这件事，本身是非常有价值的。

Dwarkesh Patel：

那为什么你们的默认方案还是“直奔超级智能”？听起来 OpenAI、Anthropic 这些公司都更明确地在说：“我们会先放出一代又一代相对较弱的智能体，让公众逐步适应、做好准备。”为什么你认为“直接做出超级智能”在某种意义上可能更好？

Ilya Sutskever：

我可以分别讲讲支持和反对的理由。

支持的理由是：一旦你进入市场，就要参加一场“老鼠赛跑（rat race）”。而这场赛跑会迫使你面对各种艰难的取舍。很多时候，能把自己从这种状态里隔离出来，单纯专注于研究，直到你真正准备好了才出山，这种状态是很好的——而不是在还没准备好时就不断被市场拖出去表演。

但反对的理由也很有力，而且它们是对立的力量。反对的理由是：让世界看到强大的 AI 是有价值的。你必须把真正的 AI 放到人们面前，而不只是写文章告诉他们“它会怎样怎样”。

Dwarkesh Patel：

我觉得不只是“让大家看到”这么简单，尽管这本身也很重要。还有一点是：我想不出有什么工程或科研领域，最后的成果是在“只靠想象如何让它更安全”这条路上变安全的。

无论是飞机安全性提高，还是 Linux 等系统的 bug 越来越难找，根本原因都是：这些系统被大规模部署出去，暴露了问题，然后问题被修复，系统就更加稳健。

我不确定为什么 AGI 和超级智能会是唯一的例外。尤其是——希望我们一会儿能聊到——超级智能的风险并不只是“出现一个恶意的造纸机”。它是一种极其强大的东西，我们甚至还不知道怎么去理解人与它的交互模式，人们会拿它干什么。

在这种情况下，让社会以一种渐进的方式获得对它的接触，看起来会是一个更好的办法：既能分散它的冲击，也有助于让人们逐步为它做好准备。

Ilya Sutskever：

在你刚才说的那点上，即便是在“直奔超级智能”（straight shot）的路线里，我也认为实际操作中一定还是会有一个渐进式发布的过程——至少在我脑海中的图景是这样的。渐进性会是任何方案里天然的一部分，只是说，你第一次对外放出的东西到底长什么样，这是一个关键问题。这是其一。

其二，我觉得你比大多数人更强调“持续学习”（continual learning），而我其实认为这是既重要又正确的方向。原因在于，我再举一个“语言如何影响思维”的例子，这次是两个词，我认为它们深刻塑造了所有人的思考方式。第一个词是“AGI”，第二个词是“预训练（pre-training）”。让我解释一下。

先说“AGI”这个词本身：它为什么会出现？这是一个非常特别的术语。它存在是有原因的。在我看来，“AGI”的存在并不是因为它是某种“终极智能形态”的特别精确描述，而更多是对另一个旧术语的反应——那个旧术语是“窄 AI（narrow AI）”。

如果你回到早期的博弈和 AI 历史：西洋跳棋 AI、国际象棋 AI、电子游戏里的 AI，当时大家总说：你看，这是“窄智能”。是的，国际象棋 AI 可以战胜卡斯帕罗夫，但它做不了其他任何事情，所以这是“人工窄智能”（ANI）。于是，一些人对这种说法很不满意：太窄了，我们要的是“通用 AI”，一种可以“做所有事情的 AI”。于是，“通用人工智能”这一术语就逐渐站稳了。

第二个获得巨大影响力的东西，是预训练——更具体地说，是“预训练这整套配方”。我认为，现在大家做 RL 的方式，在某种意义上是在反向抵消预训练对思维方式的刻印。但预训练当时有一个很突出的特性：你只要多做预训练，模型在几乎所有任务上的能力就会“整体变好”。

于是，在人们心里就变成了：“预训练 → 通用能力 → AGI”。预训练带来 AGI。

但 AGI 和预训练后来在某种意义上是 overshoot（ overshoot 目标）了。如果你认真思考“AGI”这个词，特别是在预训练的语境下，你会发现：人类其实并不是 AGI。人类的确有一套基础技能，但在人类身上缺失的知识量同样巨大。我们之所以能活下去，是因为我们不断地持续学习。

所以，当你在想：“假设我们成功做出了某种安全的超级智能”，问题就变成：你要怎样定义它？在持续学习的曲线上，它到底处在什么位置？

你可以想象，我们做出的是一个“超级聪明的 15 岁少年”：极度好学，动力十足，但他知道的具体知识其实并不多，只是一个非常优秀、非常勤奋的学生。然后你对它说：“你去当程序员吧”“你去当医生吧”“你去学这个、学那个”。于是你完全可以想象，这种系统的部署过程本身就包含了一个带有试错性质的学习阶段。整个部署是一个过程，而不是把一个“已经完工的终极产物”一下子砸到世界上。

Dwarkesh Patel：

我明白了。你在说的“超级智能”，并不是一个一上来就已经会做所有经济岗位、所有人的工作、掌握所有技能的“完型心智”。因为比如最早的 OpenAI 宪章对 AGI 的定义就是：它能完成每一个工作、能做任何人类可以做的事。而你现在提出的，是一种“可以学会做所有工作”的心智，而这才是你说的“超级智能”。

Ilya Sutskever：

是的。

Dwarkesh Patel：

但一旦你有了这样的学习算法，它被部署到世界里的方式，就会有点像一个人类劳动力加入组织开始上班。

Ilya Sutskever：

没错，正是这样。

Dwarkesh Patel：

接下来好像有两种可能（也可能两种都没发生）。第一种是：这种学习效率极高的算法，会在机器学习研究这个任务上，变得和你一样好、甚至更好，从而在自我改进中变得越来越“超人”。

第二种是：即便不会发生你刚才说的那种递归式自我提升，如果你有一个单一的模型——这其实是你明确的愿景——它的多个实例被部署到整个经济当中，分别去做不同的工作，在各自岗位上持续学习，把任何人类能学到的技能都学会，而且是同时学会，然后再把这些学习成果汇总在一起，那么你最终就拥有了一个功能上“超级智能”的模型——即便软件本身没有发生“递归自我改进”。因为此时，你已经有了一个“能做经济中所有工作”的单一模型，而人类是无法把大脑互相“合并”的。那你是否预期，从这种大规模部署中会出现某种“智能爆炸”？

Ilya Sutskever：

我认为，我们非常有可能会迎来高速的经济增长。在广泛部署的前提下，你可以做两种互相有点冲突的判断。

一种判断是：当你真的拥有一种 AI，它能非常快速地学会做很多事情，而且你还有很多这样的 AI 时，除非有某种监管机制刻意阻止（顺便说一句，这种监管完全可能出现），否则把它们大量部署进经济系统，会有极强的经济动力。这种部署，很可能在一段时间内带来极其迅猛的经济增速。

问题在于：这个“快”到底能有多快？这很难判断。一方面，你有了一个极其高效的“工人”；另一方面，现实世界非常庞大，还有大量物理世界的东西，它们的运转速度受制于完全不同的因素。但从另一方面说，AI 也可以介入这些流程。所以我觉得：非常快速的经济增长是完全有可能的。我们也会看到各种各样的局面，比如不同国家有不同的规则，那些规则更宽松的国家，经济增速可能会更快。这些都很难预测。

Dwarkesh Patel：

在我看来，这其实是一个非常“危险的平衡状态”。极限情况下，我们知道这种东西在物理上是可能存在的：你有一个在学习能力上和人类一样强的系统，但它还能做到人类做不到的事情——比如把自己的不同实例“合并在一起”。我们知道人类是可能存在的，数字计算机也是可能存在的，只要把这两者组合起来，就可以得到你刚才描述的东西。

而这种东西显然会极其强大。你可以用“经济增长”来形容这种力量——戴森球也是一种“经济增长”，只不过是极端版的。另外一方面，一旦你雇进 SSI 的人，六个月之内他们就可以“净产出”为正；人类学习本来就很快，而你说的这个 AI，会以极快的速度变得越来越聪明。你怎么理解“让这个过程朝好的方向发展”这件事？为什么你觉得 SSI 有能力把这件事做对？我想问的是：SSI 在这方面的计划到底是什么？

Ilya Sutskever：

过去这一段时间里，我自己的想法发生了一些变化——其中一个变化是：我现在更强调让 AI 以“增量的方式”“提前部署到现实中”的重要性。AI 的一个巨大难点在于：我们现在讨论的是尚不存在的系统，而这种系统很难被真正想象出来。

我觉得正在发生的一件事是：在实践中，人们其实很难“真正感受到 AGI”。我们当然可以谈论 AGI，但你可以试着想象：你现在和一个人谈论“等你老弱多病的时候，生活是什么样的”。你可以聊，你可以努力想象，但你会不断回到当前的现实，而那不是你的日常体验。我觉得，围绕 AGI 及其未来力量的很多问题，某种程度上都源自同一个事实：它太难被想象了。未来的 AI 会非常不同，也会非常强大。归根到底，所谓“AI/AGI 的问题”，其实就是“权力的问题”：当权力大到某个程度时，会发生什么？

在过去一年左右的时间里，我有一个重要的观点转变——这个转变，可能也会“反向传播”进我们公司的整体规划。这个转变是：如果一件东西很难想象，你该怎么办？那你就必须让人们看到它。你必须把它展示出来。我坚持认为，绝大多数在做 AI 的人，其实同样很难真正想象它，因为那会远远超出他们日常接触到的一切。

我有一个明确的预测：随着 AI 能力变得越来越强，人们的行为一定会发生改变，我们会看到很多前所未见的事情。我举几个例子。我认为，无论好坏，前沿公司会对未来的走向起到非常重要的作用，政府也一样。你会看到的一种情形是：原本极其激烈竞争的公司，开始在 AI 安全上进行合作。你可能已经看到 OpenAI 和 Anthropic 迈出过一个小小的第一步——而这种事在过去是没有先例的。我在大概三年前的一次演讲里就预测过：这种事终将发生。

我也认为，随着 AI 变得越来越强，而且这种“强”越来越显而易见，政府和公众也会出现一种强烈的“必须做点什么”的愿望。这是一股非常重要的力量——来自“把 AI 放到公众面前”这件事本身。

这是第一点。第二点是：既然 AI 正在被构建，那么接下来需要做什么？我坚持认为，接下来一定会出现这样一种转变：今天在做 AI 的人，其实并没有真正感受到它的“力量”，因为它现在犯的错误太多。

但我相信，总有一天，AI 会真正开始让人“感觉很强大”。一旦那一刻到来，我认为我们会看到所有 AI 公司在安全态度上的巨大转变——他们会变得更偏执，更警惕。我把这当作一个预测，看将来会不会应验。我之所以这么说，是因为：到那时，他们会亲眼看到 AI 的力量不断显形。而今天发生的很多事情，在我看来，仍然是因为大家在看“当下这代 AI”时，很难想象“未来那代 AI”。

第三点要做的事，我说的是整个行业层面，不只是 SSI，因为你刚刚问到了我们公司的角色。问题是：公司们究竟应该立志去造一个什么样的东西？大家这几年其实被一种大思路锁死了，那就是“自我改进的 AI”。为什么会这样？还是那句话：点子比公司少。但我认为有另一个更好的目标，而且我相信所有人最终都会想要它。

那就是：一种在稳健意义上“关心一切有感知生命（sentient life）”的 AI。我甚至认为，可以提出这样一个论点：比起去构建“只关心人类生命”的 AI，构建一个“关心所有有感知生命”的 AI，可能更容易做到。因为 AI 自身也会是有感知的生命。如果你考虑“镜像神经元”这样的概念，以及人类对动物的共情——你可以说它不够多，但它确实存在——你就会发现，这可能是某种“涌现性质”：我们在建模他者时，使用的是建模自我的那套神经回路，这样做是最省力的。

Dwarkesh Patel：

即便我们真的做出了一个“关心一切有感知生命”的 AI——我甚至不确定这是不是“解决对齐问题”之后最该追求的目标——仍然会有一个问题：绝大多数有感知存在，将会是 AI 本身。未来可能会有万亿、千万亿数量级的 AI，而人类只会是其中一小撮。如果目标是让人类对未来文明有某种“掌控力”，那我就不确定“关心一切有感知生命”是不是最合适的准则。

Ilya Sutskever：

你说得对，它有可能不是最好的标准。我先说两点。第一，“关心一切有感知生命”，我认为本身是有内在价值的，这是一个值得纳入考量的方向。第二，我觉得如果能有一个相对简短的“备选思想清单”，供各家公司在关键时刻拿来参考，会非常有帮助。

第三，我认为，如果有办法能在某种程度上“封顶”最强超级智能的能力上限，那会在实质上消除很多担忧。至于怎么做到，我也不确定，但如果我们在谈论的是极其强大的系统，能够给其能力设限，将会非常有意义。

Dwarkesh Patel：

在继续讨论对齐问题之前，我想在这点上再追问一下。你觉得“顶端的空间”到底有多大？你是怎么理解“超级智能”的？在你刚才提到的“学习效率”框架下，它是不是就是一个在学习新技能、新知识上极其迅速的系统？它是不是只是在策略数量、知识覆盖上有一个更大的“池子”？它会不会有一个单一、统一的“中心体”，比其他一切都更强大？如果是这样，它在你心中更像是一种“神一般”的存在，凌驾于整个人类文明之上，还是说更像是“另一种智能体”或“一簇智能体”？

Ilya Sutskever：

这一点上，不同的人会有不同的直觉。我觉得它肯定会非常强大。但我认为最有可能发生的情况是：会有多个人工智能几乎在同一时期被创造出来。如果某个集群足够大——比如说真的做到“一个大陆规模的数据中心”——那样的东西就会极其强大。如果你真的有一个“按大陆来算规模”的算力集群，那上面的 AI 会非常非常强。

我现在唯一能肯定说的是：如果我们在讨论的是那种极端强大的 AI，真正“戏剧性强大”的那种，那最好是能在某种程度上对它们进行约束，或者至少有某种共同的协议、约定之类的东西。

超级智能到底让人担心什么？可以有一种解释方式：

假设你有一个足够强大的系统，真的强大到一定程度——然后你又说，“我们得给它一个很‘正经’的目标，比如让它非常专一地关心一切有感知生命（sentient life）。”——那结果很可能会让我们并不喜欢。这其实就是恐惧的来源。

也许，顺便说一句，答案之一是：你干脆不要按常规意义去造一个 RL agent。我想指出几件事：在人类身上，我认为我们是“半 RL 智能体”。我们会追逐某种奖励，但情绪之类的东西，会让我们追一段时间就觉得腻了、累了，然后转去追逐别的奖励。市场则是一种非常短视的智能体。进化也是一样：在某些方面非常聪明，在另外一些方面又极其愚蠢。政府则被有意设计成三个部分之间没完没了的拉锯，这种结构本身也有作用。我会从这些角度去想这件事。

还有一个让讨论变困难的原因是：我们讨论的是一些还不存在、也不知道怎么造出来的系统。这也是我真正的看法：我觉得当前大家在做的这条技术路线，会继续往前推进一段距离，然后慢慢“耗尽边际效应”。它会不断变好，但同时又始终到不了那个“真正的 It”。那个真正的、质变意义上的 It，我们现在还不知道怎么造出来，而其中很大一部分，取决于能否搞清“可靠的泛化”到底是什么。

再说一点：你可以从对齐（alignment）的角度来想。对齐之所以困难，其中一条就是：你去学习“人类价值观”的过程本身是很脆弱的；你学会如何去优化这些价值观的能力也很脆弱；你甚至会真的学会“如何去优化它们”。

那你也可以问：这些是不是通通都是“不可靠泛化”的实例？为什么人类在泛化上看起来好得多？如果模型的泛化能力也好得多，会发生什么？这种问题现在都还没有答案。

Dwarkesh Patel：

那我们该怎么想象“AI 顺利发展”的样子？你已经描述了 AI 可能如何演化：我们会有这种持续学习的智能体，AI 会非常强大，可能还会有很多个这样的 AI。在你想象中，如果有许多个“大陆级算力”的智能体在世界里游走，这会有多危险？我们该如何让它变得不那么危险？又怎样在这个过程中维持一种平衡：一方面可能会出现未对齐的 AI、以及恶意行为者，另一方面又要让系统整体保持稳定？

Ilya Sutskever：

我之所以喜欢“关心一切有感知生命的 AI”这个设想，有一个原因。我们当然可以讨论它好不好，但如果最早出现的那 N 个“戏剧性强大的系统”，真的做到了关心和爱护人类，或者更广义地关心一切有感知生命——当然，这一点本身是必须实现的——如果这前几代系统实现了这一点，我可以想象接下来在相当长一段时间里，事情会“发展得还不错”。

然后问题变成：从特别长期的角度看，会发生什么？我们怎样达成一个长期均衡？我认为这里是有一个答案的，尽管我并不喜欢这个答案，但它必须被认真考虑。

从长期看，你可以想象这样一个世界：强大的 AI 已经存在。在短期内，你可以说：我们实现了“全民高收入”，所有人都过得不错。但佛教不是说过一句话吗？“唯一不变的是变化。” 一切都会变。总会有某种政府或政治结构，它运行一段时间后会失效，然后新的结构又冒出来，运行一段时间，再失效。这种事情我们在现实里见得太多了。

所以，在寻找长期均衡时，有一种思路是：也许每个人都会拥有一个“为自己效劳的 AI”，这看上去很好。如果这样的状态可以无限期维持下去，那确实很不错。但问题在于：这个 AI 会替你挣钱，替你在政治体系里发声，然后偶尔给你写一份小报告：“我最近做了这些，这是现在的局势。”你一看：“不错，继续保持。”而你本人其实已经不再是一个真正的参与者了。那你就可以说，这是一个非常危险的境地。

接下来我要补一句：我并不喜欢这个解决方案，但它确实是一个解。这个解是：人类自己变成“半 AI”——某种 Neuralink++ 式的形态。因为如果这样，一旦 AI 理解了什么，你也会理解那个东西——那种理解会被“整块传输”到你这里。于是当 AI 置身于某个复杂情境中时，你本人也完整地参与在那个情境里。我觉得，这可能就是长期均衡的答案。

Dwarkesh Patel：

我有点好奇，情绪这种东西是在几百万、甚至几十亿年前的完全不同环境里被进化出来的，但直到今天仍然在强烈影响我们的行为，这会不会本身就是一次“对齐成功”的例子？

我具体的意思是——我不确定用“价值函数”还是“奖励函数”来形容更准确——大脑的脑干似乎有一个指令：“去和更成功的人交配。”

而大脑皮层是那个能理解“成功在现代语境下意味着什么”的部分。可是，脑干仍然能够把皮层“对齐”成这样一种状态：不管你如何在现代社会中定义“成功”（而我作为脑干其实不懂那个定义），你终究还是会去追逐这个指令。

Ilya Sutskever：

我觉得这里有一个更普遍的观点：进化是如何把这些高层次的欲望编码进我们身上的，这件事非常神秘。

对于“喜欢好吃的东西”这种欲望，进化怎么做，我们还挺好想象：闻起来好闻的气味对应的是某些化学物质，那你就去追逐这种化学物质。这种“嗅觉驱动的奖励”，进化非常容易做出来。

但进化还给我们植入了大量社会性的欲望。我们非常在意别人怎么看我们，在意自己在群体中的地位。这些社会直觉，我认为很大程度上是硬编码的。但我完全不知道进化是怎么做到这一点的，因为那是一类“高层抽象”，是在大脑里以非常复杂的形式被表示出来的。

举个例子：你在意某个社会评价，这并不是一个“底层信号”，不是像气味那样有一个感受器直接测得出来。大脑需要处理大量的信息碎片，把它们拼合起来才能理解“我在社会中的状况如何”。而进化 somehow 对你说：“这就是你应该在意的东西。”它是怎么做到的？

而且，它做得还挺快。我们关心的那些复杂社会关系，在进化时间尺度上很可能都是相对近期才出现的。进化在“硬编码这些高层欲望”这件事上似乎非常得心应手。我目前不知道有什么令人满意的假说能解释这个过程。我自己也有过一些猜想，但没有一个让我真的满意。

Dwarkesh Patel：

更让人惊讶的是，如果说“你在一生中学会的欲望是合理的”，那样很好理解——因为你的大脑本身是智能的，所以你能学会“智能的欲望”。但这里的问题似乎是：欲望本身写在基因里，而基因本身并不智能。你却能从基因层面描述出这么复杂的特征——一个我们甚至不知道怎么定义的特征，而且还能把它编进基因里。

Ilya Sutskever：

是的，基本上可以这么说。或者我换个说法：如果你从“基因手里有哪些工具”这个角度来想，它可以说：“好，我给你一套构建大脑的配方。”

比如基因可以说：“这里是一个把多巴胺神经元接到嗅觉感受器上的配方。如果闻到某种‘好闻’的气味，就触发进食。”

我可以想象基因做到这种事情——这是在它的能力圈里的。

但我刚才想表达的是：要想象基因做到“让你在意一整套由大脑大型计算过程得到的高阶结果”，就难得多了。这就是我想说的全部。我可以给出一个我曾经想过的猜测，并解释为什么我觉得它大概率是错的。

大脑是有区域划分的。我们有大脑皮层，它里面有很多区域。皮层在结构上是“局部连接为主”，一个神经元大多只跟附近的神经元交流，这也是为什么会发展出不同功能区：如果你想做语音处理，负责语音的神经元必须高度互联，而由于每个神经元只能主要连到附近的邻居上，所以就必须形成一个“区域”。

这些区域在不同人之间的位置大致类似。所以，也许进化做过类似这样的事：它直接把“地理位置”硬编码进了奖励里。

比如说：“当大脑里坐标是 X、Y、Z 的那一块区域被激活时，这就是你应该在意的东西。”

也许进化就是这么做的，因为从工具箱的角度看，这的确是它能做到的。

Dwarkesh Patel：

不过，也有一些反例。比如，有些人生来失明，他们视觉皮层对应的区域会被其它感官“征用”掉。我不知道具体怎么回事，但我会很惊讶，如果那些本来依赖视觉信号的欲望或奖励机制，在这些人身上就此失效了。

比如说，即便一个人没有视觉，他还能不能感受到“我希望周围的人喜欢我”这种东西？这一类需求通常也会带有视觉线索。

Ilya Sutskever：

我完全同意你说的。而且还有一个更强的反例。有人在童年时期做过“切除半个大脑”的手术，但他们后来仍然拥有所有功能区，只是这些功能区全部迁移到了剩下的半个脑里。这说明功能区的位置并不是固定的，那我刚才那个“按 GPS 坐标硬编码”的理论就不成立了。

如果那个理论是真的会很酷，但很显然它不是。所以我觉得这就是一个谜——但这是个很有趣的谜。事实是：进化确实找到了办法，让我们对社会性的东西极其在意，而且非常稳定。就算是那些有各种精神问题、情绪障碍的人，通常也仍然在意这些社会性评价。

“我们是一家彻头彻尾的研究时代公司”

Dwarkesh Patel：

SSI 打算具体做些什么不一样的事情？你们显然是希望在那个关键时刻成为前沿公司之一。你创建 SSI，很大程度上应该就是在想：“我有一套和其他公司不一样的安全路径。”那你们的差异究竟是什么？

Ilya Sutskever：

我的描述其实很简单：我认为有一些想法是有前景的，我想把它们研究清楚，看它们是不是真的有前景。就这么简单。这是一种尝试。

如果这些想法——尤其是那些围绕“理解泛化”展开的想法——最后被证明是对的，那我们就会有一些真正有价值的东西。

它们会不会真的被证明是对的？我们现在在做的是研究。我们是一家彻头彻尾的“研究时代公司”。过去一年我们其实已经取得了不错的进展，但我们还需要持续推进，做更多研究。这就是我对 SSI 的定位：我们作为一个“声音”和“参与者”存在于这个时代。

Dwarkesh Patel：

你的联合创始人、前 CEO 最近去了 Meta，很多人会问：“如果你们真在不断取得重大突破，那他离开似乎有点说不通。”你怎么看这个问题？

Ilya Sutskever：

对此我只想提醒一下几个可能被人忘掉的事实，这些事实构成了整个事件的背景，也解释了发生了什么。

背景是：我们当时正在按 320 亿美金的估值融资，后来 Meta 进来，提出要收购我们，而我说了“不”。但是，我那位前联合创始人在某种意义上说的是“好”。结果就是，他得以获得相当可观的短期流动性收益，而且他也是 SSI 唯一一个加入 Meta 的人。

Dwarkesh Patel：

听上去，SSI 的计划是：在这段极其重要的历史时期——当人类拥有超人智能的时候——成为站在前沿的一家公司。你们对“如何让超级智能朝好的方向发展”有一套自己的看法，而其他公司也会尝试自己的路径。那从方法论上看，SSI 的做法到底与众不同在哪里？

Ilya Sutskever：

最主要的差异在于：SSI 有一套不同的技术路线。这套路线在我看来是值得一试的，我们正在沿着它往前走。

我相信，最后大家会在策略上逐渐收敛。我觉得，当 AI 的能力变得足够强时，“正确策略是什么”这件事会变得越来越清晰：大概会是以下这种思路——你必须想办法让各方能坐下来对话，而且你希望第一个真正意义上的超级智能 AI 是对齐的，是以某种方式关心一切有感知生命、关心人类、尊重民主等等，是这些目标的某种组合。

我认为这是所有人都应该去争取的状态。这也是 SSI 在努力的方向。我也相信，在这个时间点上，或者说很快，其他公司也会意识到：他们在努力的，其实也是同一件事。我们拭目以待。我认为，随着 AI 变得越来越强，世界会被真正改变，人们的行为方式也会和今天大不相同。

Dwarkesh Patel：

既然说到预测，那你对你刚才描述的那种系统——一个在学习能力上和人类一样好、之后还能变得“超人”的系统——时间表是怎样的？

Ilya Sutskever：

我觉得大概在 5 到 20 这个区间。

Dwarkesh Patel：

5 到 20 年？

Ilya Sutskever：

嗯。

Dwarkesh Patel：

我想把你心里的时间线“摊开”讲一讲。是不是类似这样：接下来还有几年，其他公司会沿着当前这条路继续做下去，然后这条路会“停滞”？这里的“停滞”是指什么？是说他们的收入规模再怎么也只做到“几千亿美金级别”吗？你对“停滞”的定义是什么？

Ilya Sutskever：

我觉得所谓“停滞”，可能表现为：不同公司的产品在外观和能力上看起来越来越像。大概会是这种感觉。当然，我也不确定，因为即便在“停滞状态”下，这些公司仍然可以获得惊人的收入。只不过利润未必高，因为他们会被迫拼命做差异化。但就收入而言，我觉得会非常可观。

Dwarkesh Patel：

不过，在你的模型里似乎有这样一个含义：一旦“正确的解法”出现，各家公司最终会收敛到同一策略。我好奇你为什么这么认为。

Ilya Sutskever：

我刚才讲的更多是指在对齐策略上的收敛。技术路径上，大家最终也很可能会收敛，但我刚才暗示的是：大家会在“到底应该做什么样的对齐方案”上逐渐看法趋同。

Dwarkesh Patel：

我想更好地理解你心里未来的展开方式。现在我们有不同的公司，你觉得它们当前的路子会持续带来收入，但无法达到那种“类人学习者”的层级。于是就出现了不同的“分支公司”：你们、Thinking Machines、以及其他实验室。也许其中某一家找到了真正的解法，然后它的产品一发布，所有人都意识到：“哦，原来还可以这样。”

Ilya Sutskever：

我觉得，大家未必会立刻明白“具体该怎么做”，但会清楚地意识到：“有一种完全不同的东西是可能存在的。”这本身就是一种信息。随后，人们就会开始想办法去拆解它的工作原理。

不过我也认为，还有一个我们刚刚没展开的话题：每当 AI 能力提升一个档次，现实世界的运作方式都会发生某种变化，尽管我现在说不清楚具体会变成什么样。我觉得这些变化会非常重要，但我暂时说不出一个精确的图景。

Dwarkesh Patel：

默认情况下，人们会预期：那家先做出这种模型的公司，会拿走几乎所有收益，因为它拥有那个在现实中不断学习、不断积累技能与知识的模型。那为什么你认为，这种好处不会只集中在最早拥有“持续学习循环”的那家公司，而是会较为广泛地分布？

Ilya Sutskever：

我觉得会发生的事情是这样的。首先，看一看过去 AI 发展中已经发生了什么：一家公司先取得突破，随后另一家公司加速跟进，过一段时间做出类似的东西，两者开始在市场上竞争，把价格压下去。

我认为，从市场运行机制的角度看，以后大概率也会类似。

这里我们讨论的是“好结局”的世界。什么是好结局？就是我们拥有这些强大的、类人学习者，而且它们……顺便说一下，我们还没有谈另一个值得考虑的设计维度：你可以让它“很窄”，但同时又“很有用”。你可以拥有大量“窄领域的超级智能 AI”。

假设你有很多这样的 AI，有一家公司凭此赚了很多钱，然后第二家公司进入这个领域开始竞争。竞争的方式往往是专业化。竞争喜欢专业化——你在市场里可以看到，在进化里也可以看到。会涌现出大量不同的“生态位”，不同公司会占据不同的生态位。

在这个世界里，可能会是这样的局面：

某一家 AI 公司在某个极其复杂的经济活动领域远远领先；

另一家公司在另一个领域更强；

第三家公司可能在诉讼业务上最厉害。

Dwarkesh Patel：

但这是不是和“类人学习者”的含义有点冲突？如果它真的是类人学习者，那它按照道理可以学会……

Ilya Sutskever：

它确实可以学，但这里有一个“累积学习”的问题。你已经在一个领域投入了大量算力，积累了极深的经验，成为那个领域的“怪物”。别人则在另一个领域做了同样多的投入，成为另一个方向的怪物。你为了达到那个高度，已经投入了大量人类式的学习与训练。到了这个高点之后，后来者会说：“我可不想从头走一遍你走过的路。”

Dwarkesh Patel：

那这似乎要求很多公司几乎同时拿到类人的“持续学习智能体”，然后各自从不同的“分支”展开搜索。如果是某一家最先拿到这套 learner，看上去就会变成：它完全有能力在经济里的每一个岗位上，部署自己的模型实例去学习这些工作。

Ilya Sutskever：

你的这个论证是成立的，我承认这点。但我的强烈直觉是：现实不会按这个轨迹走。理论上，也许你说的路径是通的；但在现实中，我觉得不会那样发展。那句老话怎么说来着：“理论上，理论和实践没有区别；实践中，它们有区别。”我觉得这就是其中一个典型场景。

Dwarkesh Patel：

很多人对“递归自我提升”的描述几乎都是显式地说：我们会在机房里放上一百万个“复制版 Ilya”，让他们各自想不同的点子，然后在非常短的时间里得到一个超级智能。

你自己对“你现在在做的事情”的可并行化程度有什么直觉？“复制很多个 Ilya”到底能带来多少收益？

Ilya Sutskever：

我不知道。但我觉得一定会有收益递减效应。你真正需要的，是那些“思维方式彼此不同”的人，而不是同一个人被复制很多份。如果真的是“原样复制很多个我”，我不确定这相比于一个我来说，能多出多少增量价值。你需要的是思维多样性——这是最重要的。

Dwarkesh Patel：

为什么会出现这样一种情况：如果你去看不同公司的模型，哪怕它们是由完全不同的团队训练、用的还是大概率不重合的数据集，但这些大模型最后呈现出来的“气质”其实惊人地相似？

Ilya Sutskever：

也许这些数据集之间，并没有看上去那么“不重合”。

Dwarkesh Patel：

不过，从另一个角度来说，哪怕单个未来的 AI 在生产率上远超个人类，也许人类团队依然有一个优势：人类团队内部的多样性，可能会比 AI 团队更强。

那我们要怎么在 AI 之间“调动出”有意义的多样性？我感觉简单地把采样温度调高，只会得到一堆乱码。我们想要的是那种“不同科学家有不同偏见、不同想法”的差异性。怎么在 AI 智能体之间获得这种多样性？

Ilya Sutskever：

我认为，目前几乎看不到多样性，一个重要原因在于预训练。所有预训练出来的模型基本都差不多，因为它们是在差不多的数据上做预训练的。

而真正开始出现差异的，是后面的 RL 和后训练阶段，因为不同团队在 RL 训练方案上会做出不同选择。

Dwarkesh Patel：

我以前听你暗示过，把自对弈（self-play）作为一种获取数据的方式，或者作为一种手段，让智能体能和同等水平的其他智能体对抗，从而启动学习。你怎么看这样一个事实：到现在为止，几乎没有公开的方案，在大模型身上成功演示这一类机制？

Ilya Sutskever：

这方面我大概有两点想说。

我当时觉得自对弈有意思，是因为它提供了一条路径：只用算力，不用额外数据，就能继续训练出模型。如果你认为数据才是终极瓶颈，那么“只用算力”这件事就非常有吸引力，这就是它迷人的地方。

但问题在于，传统意义上做的那种自对弈——几个智能体彼此对抗——其实只对某一类能力有帮助，太窄了。它擅长的是谈判、博弈、冲突处理、某些社会技能、制定策略等等。如果你在乎的是这些能力，自对弈确实有用。

事实上，我觉得自对弈后来确实“找到了自己的位置”，只不过是以另一种形态出现。比如辩论（debate）、证明者–验证者（prover–verifier），再比如“由大模型担任裁判（LLM-as-a-Judge）”，专门去找你推理里的错误。你可以说这不完全是传统意义上的自对弈，但这是一种相关的对抗式设置，而现在很多人都在做这一类事情。

某种意义上，自对弈只是“多智能体竞争”的一个特例。面对竞争，一个非常自然的响应就是“想办法变得不一样”。

所以，如果你把多个智能体放在一起，对它们说：“你们都要解决同一个问题，你们彼此还能看到对方在干什么。”那么它们很可能会想：“既然别人已经在走这条路，我就没必要重复了，我应该去找一个差异化的方向。”

我觉得，这类机制完全有可能促成方法上的多样性。

Dwarkesh Patel：

最后一个问题：什么是“研究品味”（research taste）？

在做 AI 研究这件事上，你显然被很多人视为“全世界品味最好的人之一”：从 AlexNet 到 GPT-3 等一系列里程碑，你都是合著者。你自己会怎么描述这件事？你是怎么想出这些点子的？

Ilya Sutskever：

我只能就我个人的情况说说。不同人肯定有不同的方法。

对我个人来说，有一件事一直在引导我，那就是：心里有一套关于“AI 应该长成什么样”的审美——这个审美又是通过“去思考人类是怎样的”来形成的，但前提是，你得“正确地”思考人类是什么样。很容易以错误的方式去想“人类是怎样的”，那什么叫“正确地”思考呢？

我举几个例子。

人工神经元（artificial neuron）这个概念，就是直接从大脑得到的灵感，而且是个非常好的想法。为什么？因为你看，大脑有各种结构，有脑回、有折叠，但那些折叠大概没那么关键。那我们为什么会觉得神经元本身很关键？因为它们数量巨大。这种“感觉对了”的东西，会让你坚持：我们需要神经元这种基本单元。

那既然有了神经元，自然就会想到要有某种局部的学习规则，去改变神经元之间的连接；这在直觉上也很像大脑会做的事情。

再比如“分布式表征（distributed representation）”的想法；再比如：大脑通过经验来塑造自己，因此我们的神经网络也应该通过经验来学习。你会反复问自己：这件事是“根本性的”，还是“可有可无的”？事情“本来就应该是这样”，还是“只是凑巧可以这样”？

这一整套思路，对我影响挺大。我会从很多角度去审视一个想法，去寻找那种美感：美、简洁、优雅、从大脑获取的那种“正确的启发”。丑陋，是没有位置的。只有美、简洁、优雅，加上来自大脑的正确灵感——这些要尽可能同时出现。它们越齐全，你在“自上而下的信念”上就越能坚定。

所谓“自上而下的信念”，就是当实验结果暂时和你唱反调的时候，支撑你继续往前走的那个东西。

如果你每次都盲目相信数据，那有时候你其实做对了，只是代码里有 bug——但你还不知道有 bug。那你怎么判断，现在该继续 debug，还是该认定“方向错了”？

这时候靠的就是那种自上而下的判断：“事情应该就是这样的；总得有一种类似的东西能起作用，所以我们要继续做下去。”

这种自上而下的信念，本身就是建立在这种“多维度的美感”和“从大脑来的启发”之上的。

参考链接：

https://www.youtube.com/watch?v=aR20FWCCjAs

创作场景

Scaling 时代落幕：Ilya 眼中下一代 AI 的关键，不在模型，在人类

模型“锯齿感”（Jaggedness）的解释

人类类比：竞赛高手与真正优秀的工程师

预训练与 RL 的区别

价值函数（value function）是什么？

我们到底在“放大”什么？

为什么人类泛化能力比模型强？

“直奔超级智能”的研究时代

“我们是一家彻头彻尾的研究时代公司”