“英伟达也缺算力！”顶尖AI研究员转投xAI内幕：谁GPU管够，就去哪里

在 AI 行业，最硬的招聘福利，得加上“算力”了，而且连英伟达都无法置身事外。

曾在 NVIDIA 参与 Cosmos 世界模型、后加入 xAI 并参与打造 Grok Imagine 的 Ethan He，在参加“Latent Space”的访谈中提到，自己离开 NVIDIA 的关键原因，是意识到视频模型同样存在类似语言模型的缩放规律。模型要继续变强，就必须持续扩大训练规模；而一旦进入这个阶段，算力就不再只是基础设施，而是研究本身的上限。

看起来，在前沿视频模型面前，似乎即便是英伟达也会遇到算力不够自由的问题。于是，顶尖研究员的流动逻辑正在改变：谁能给更多 GPU、更快迭代、更少资源约束，谁就更有可能吸走前沿人才。

Ethan 加入 xAI 时，公司的视频和多模态团队几乎从零开始：没有完整基础设施、没有现成数据、没有成熟模型。几名工程师用了三个月，搭出了第一版 Grok Imagine 0.9。也正是在这段经历中，他形成了一个更激进的判断：视频生成的下一次跃迁，可能不再只是更强的扩散模型，而是视频智能体。

在他看来，视频生成正在走上一条类似 AI 编程的道路。AI 编程最早强调一次性生成代码，后来逐渐走向多轮推理、调试、测试、提交 PR 的智能体系统。视频生成也可能经历类似过程：从一次生成视频，走向能够规划整套创意任务、调用扩散模型和传统编辑工具，并交付生产级内容的视频智能体。

他指出，视频模型的真实成本被严重低估。除了 GPU，数据标注、VAE 压缩、PB 级存储、云端带宽、音视频时间戳级对齐，都会成为隐性吞金兽。Ethan 还表示，当扩散模型技术逐渐成熟后，视频模型的很多关键进步，已经不再主要来自视频模型本身，而是来自语言模型。换句话说，视觉智能很大程度上正在由语言智能驱动。

下面是对话详情，我们进行了翻译，并在不改变原意基础上进行了删减，以飨读者。

从英伟达到 xAI，为了算力“叛逃”

Swyx：给我们讲讲你转去 xAI 的过程吧，我其实都不知道你是什么时候加入的。

Ethan： 在加入 xAI 之前，我在英伟达做 Cosmos 世界模型。Cosmos 是一个大型视频基础模型，目标是模拟世界，并作为所有机器人研究者在其上继续构建的基础。做完 Cosmos One 后，我意识到这类模型也有类似语言模型的缩放规律（scaling law），我们需要继续把视频模型做大。所以我认为我需要去一个拥有更多算力资源的地方。这就是我后来转去 xAI 的原因。

Swyx：比英伟达还要多？

Vibhu： “GPU 富人”也出来找算力了。Cosmos 是什么时候？

Ethan： 那是 2024 年底，然后我在 2025 年中去了 xAI。我加入时，xAI 正准备做视频模型和多模态模型。当时没有基础设施、没有数据、也没有模型，就是我们几个工程师，三个月把它做出来，并发布了第一个模型：Grok Imagine 0.9。从那以后，我一直在做视频模型，然后逐渐从视频模型的训练转向后训练，比如参考生视频（Reference-to-Video），有点像 cameo 功能，还有视频延展。我离开那会儿，在做世界模型，带着一个小团队专注在实时长时程视频生成。

Swyx：能不能给我们一个大致路线图？Grok 之前只是文本，图像生成方面可能是和 BFL （黑森林实验室）合作，那你们要做什么？

Ethan： 我觉得一方面要感谢我在英伟达的经验。因为我们第一次做 Cosmos 时，做了大概一年。这是我第二次做这类事情，大致知道要做什么。

在我看来，最重要的是人才。每个人都很强、很聪明，而且彼此非常紧密地朝着共同目标努力，这会极大加快速度。人与人之间的沟通带宽减少，每个人都能朝同一个目标推进。当时，每天日历上没有太多会议，可能一天一次同步会，之后就是全力建设。那段时间挺有意思的。

另一个原因是，xAI 在数据推理、模型推理和相关支持方面有非常强的基础，这些能够极大帮助模型开发。我看训练模型时，最重要的事情其实是：你每天能做多少次迭代？迭代越多，模型训练得越快。如果你有很强的基础设施，也有大量算力，就能在很短时间内训练这些模型。这会给错误留下更大的缓冲空间，也让你有机会发现更多 bug。

Swyx：所以是在你加入之前，已经有人把这些东西搭好了，让你们可以很快迭代。

Ethan： 我觉得那里的基础非常适合开发和研究模型。我经常发现一件有点无聊的事情：很多提升并不是来自新算法，而是来自在数据管线和模型训练管线里发现各种小 bug。这些东西反而会给模型质量带来最大提升。

Swyx：你有没有尝试用大模型来找 bug？

Ethan： 我记得那是 2025 年中期，编程模型还没那么强，到了 2025 年 12 月，它们已经非常好了。那时我已经在用，确实有帮助。有时候它能非常快地第一次搭出东西，但生成的代码很难维护，像“意大利面条代码”（spaghetti code）一样，几千行，我自己维护不了，大模型本身也搞不清哪里有问题以及该怎么在上面继续改进。但现在我发现它好很多了。

我还想提出另一点：现在编程模型高效得多，可以帮助我们更快实现想法，但算力可能又会重新成为瓶颈。

以前如果你想训练一个新模型，比如想生成新的合成数据或者写一个新算法，可能要花几周时间。在这段时间里，你可能没有实验能跑。但现在你可以在几个小时内把东西做出来，然后马上训练模型。那你就必须有足够的算力去尝试所有想法，所以算力可能会再次成为迭代速度的瓶颈。

Swyx：我觉得这类工作挺有压力的，你会想：“我应该把所有东西都试一遍。如果我没试，那就是我工作做得不好。”

Vibhu：还有另一种压力，就是你每小时消耗几千张 GPU，这非常贵，而且算力也会给其他研究员用。

Swyx：你有马斯克这个“爸爸”可以获得支持。

Ethan： 当时确实挺有压力的。是的。我觉得一方面，现在有了编程模型，很多工作可以自动化，这要好很多。另一方面，这是一场马拉松，所以你必须保持健康和规律作息。

视频模型的第一课：先学会“看图说话”

Vibhu：最开始几个月是什么样子？小团队、很多 bug、很多迭代，但具体怎样做出一个当时最先进的图像生成模型？

Ethan： 我不能具体评论 xAI 是怎么做的，但这是一个相当标准的流程。

我可以从 Cosmos 举一些例子。主要来说，要做视频模型，实际上你需要先做图像模型。做这两个模型时，你需要的数据，百分之百是语言与图像、或者语言与视频的合成配对。因为在互联网上，视频并不会天然和文本关联。你可以说，YouTube 上有标题、描述和评论，但通常它们和视频本身并不相关。比如一个视频可能是山景这样的自然场景，但标题是“我今天太开心了”，它们之间根本没有相关性。

所以第一步是，你必须生成语言和视频之间的合成配对。你从互联网上收集视频，然后用视觉模型给视频加字幕。

最开始是让人类尽可能详细地描述视频。比如要求他们描述所有物体、所有角色、所有交互，以及视频中的对话。这也是 Cosmos 标注协议里的要求。我们给标注员的目标是：必须尽可能详细地描述视频，让一个盲人听到这段文字后，可以在脑海里重构出视频大概是什么样子。

Swyx：无监督有一个解锁点。当你已经有足够基础可以启动之后，就可以把 Common Corpus 或其他东西直接丢进去，也就是进行无监督的视觉与语言配对。你有交错出现的图像和文本，然后它自己学习。对我来说，这才是不同于 CLIP、也不同于语言模型时代的视觉语言模型突破。

Ethan： 有意思的是，你其实两种数据都需要。比如在生成模型训练里，通常也会有一小部分未标注数据。模型会被要求在没有任何文本指令的情况下生成视频，这也能帮助模型泛化。

在完成生成合成配对这个阶段之后，一个非常重要的共同步骤是训练图像或视频的压缩器（compressor）或者分词器（tokenizer）。因为理论上你当然可以直接在纯像素上训练图像或视频模型，但问题是 token 太多了。比如一张 1000*1000 的图像，就是 100 万个 token，100 万个像素，不可能在这上面训练 Transformer。所以你需要训练一个分词器，它能把图像映射到潜空间（latent space），再从潜空间映射回图像。

Swyx：那什么程度算不可能？一百万是不可能？

Ethan： 在生成模型里，词表是连续的，是一个连续空间。你可以把它理解为把一张图像映射成一个向量。它是一个固定长度向量，比如十六或者四十八之类，然后你再把这个向量映射回图像空间。这个映射是基于 patch 的，比如你有一个 16*16 的 patch，你把这一小块像素映射到潜空间里。

Swyx：人们也会把这种 patching 和卷积做很多比较。你某种程度上是在用新范式重构旧范式。

Ethan： 其实在变分自编码器（VAEs）里，既有卷积网络，也有 Transformer。两种都可以做。有了 VAEs 之后，你就得到了潜空间 token，也得到了语言 token。

接下来，diffusion transformer 的训练，也就是生成模型通常使用的架构，其实非常标准。它和训练语言 Transformer 模型非常相似，没有太大区别，只是输入是视觉 token、输出也是视觉 token。唯一不同的是这里有一个去噪过程。你训练模型去除一部分噪声，也就是向视觉 token 加入随机噪声，然后训练模型移除这些噪声，生成干净 token。在推理时，模型可以从百分之百噪声开始，迭代地移除噪声。

Swyx： 我觉得在这条线上，Stability 这些公司显然开创了很多架构，不知道你想不想深入讲？

Ethan： 当你训练好这样的图像模型后，它之所以成为视频模型的基础，是因为图像模型更便宜，而且语言和图像之间的连接紧密。比如，你用十亿张图像训练，就有文本到图像之间的映射，而如果要训练同样数量级，比如十亿段文本到十亿个视频，成本要高得多，因为视频天然比图像有更多 token。扩散模型对语言的理解，纯粹来自这种映射。如果你没有足够多的映射，比如你只训练了 1000 万个视频，训练中可能看不到足够多的语言 token，你的模型就不能充分理解人类意图。所以你真的需要先训练图像扩散模型，然后再从那里启动视频模型。

Swyx：视频压缩里有很多技巧，比如逐帧之间差异并不大，所以实际上不需要重新生成或保存整个帧，对吧？像 MP4 压缩或者类似的，你们会想用这种方法吗？还是大家大致都是：“不，我们就生成每一帧。”

Ethan： 有几种不同的方法。先说如果你想直接使用 MP4 压缩结果，并把它作为 Transformer 训练时使用的 token，确实已经有人尝试过。但主要挑战在于，MP4 token 所对应的潜空间，对模型来说并不好理解，因此训练起来极其困难。所以人们才会引入 VAEs。

VAEs 能够生成更加连续的潜空间，让模型更容易理解这个潜空间，并从中学习。不过，即便在 VAEs 内部，不同潜空间的训练难度也存在差异。你可以想象，最简单、最朴素的 VAE 做法是：给定一张图像，只是把图像中的所有像素直接打平成一个向量。这样一来，理论上你甚至不需要训练任何 VAE，对吧？但问题是，这样得到的潜空间对模型来说极难训练。因此，围绕如何压缩 token，本身就存在很多讨论。

你刚才提到的，可以逐帧压缩，也可以压缩时间维度。两者的区别在于，如果压缩时间维度，就可以获得更高的压缩率。因为帧与帧之间存在时间冗余，这一帧和上一帧很可能大部分内容都相似，只存在一些小差异。比如我记得在某个 VAE 里，他们采用的是 8×8×4 的压缩率，也就是把四个时间 token 压缩成一个 token。这样可以大幅节省上下文长度。

如果采用逐帧压缩，可能就是 8×8×1，这意味着上下文长度会变成前者的四倍。话虽如此，逐帧压缩也有自己的优势，那就是实时性和交互性。因为如果模型可以逐帧流式输出结果，就能够立刻响应用户的任何请求。但如果采用四倍的时间压缩，那么天然就会产生延迟。

Swyx：有一些实时视频生成的前沿应用，比如最近走红的 Flipbook。Flipbook 是什么？

Ethan： Flipbook 有点像一个网页浏览器。你可以看到，它上方保留了浏览器式的 UI。不同之处在于，里面所有 UI 都是由图像生成模型实时生成的，页面中的一切都是虚构的。但你可以在这个想象出来的世界里继续探索。

Swyx：在一个推理完全免费的世界里，这会比生成代码和文本更好吗？

Ethan： 我觉得这是 Viva 或世界模型最终会走向的状态。想象一下，如果互联网不存在，然后你输入 google.com，模型应该给你显示什么？模型可以想象出一些东西，这就是模型想象出来的东西，而这些网页完全不存在。

所以我认为，随着推理成本下降，我们会为一切都配上生成式 UI。你想想编程模型现在是怎么工作的：它们先为网页写代码，再渲染代码，代码可能被转换成二进制，最后由二进制把像素渲染到屏幕上。而在机器学习里，每一次突破，显然都会让交互变得更加直觉化。那么，为什么我们不能直接从用户指令走向像素呢？

所谓生成式 UI，本质上就是从用户意图直接生成像素。比如邮箱，假设现在大家使用的是同一套界面，但我希望它稍微不一样：我想让邮件像 TikTok 一样展示给我，可以左右滑动浏览；也许别人会想要另一种完全不同的形态。再比如我在看 Instagram Stories 时，不喜欢 Like 按钮，因为我总是可能误点，而生成式 UI 就可以解决这个问题。

所以，它会成为一次革命性的界面替代。未来，我们可能会有更强大的大语言模型和编程模型在后台运行，而前端真正负责把内容展示给你的，会是扩散模型；换句话说，扩散模型会成为前端。这就是我想象中的样子。

Swyx： 我觉得这非常贵，不过……

Ethan： 如果你考虑成本，假设 H100 每小时一美元，你每天用八小时、每个月三十天，那么每个月要付 240 美元。你其实不太愿意付这个钱。这甚至比 Claude Code Max 还贵。但如果你考虑算力成本每年下降两倍，我觉得这个未来很可能几年内就会到来。

Swyx：网页设计师肯定会指出可访问性是一个问题，比如屏幕阅读器怎么办？但没错，这是一种比你用代码能生成的任何东西都高带宽的叙事方式。

Ethan： 我想补充一点：人类在看东西、看视频时，天然有最大的输入带宽，我们说话时也有最大的输出带宽。所以未来可能会变成：我们和 AI 模型说话，AI 模型用生成式 UI 回应我们。在 Neuralink 发生之前，这可能就是人与 AI 模型交互的最大输入和输出带宽。

GPU 之外，视频模型还有一张更贵的账单

Swyx：我们之前讲过一篇关于记忆注意力的论文。我一直觉得，任何能够跨时间维度保持某种一致性的东西都很迷人。计算机视觉侧渗透到视频生成侧，是不是还没有被充分探索？

Ethan： 也有一些完全不同的方法。你刚才提到了“世界模型”这个词，所以我们的讨论也可以从视频模型进一步延伸到世界模型。这里既有扩散模型这一路线，也有其他人正在探索的不同路线。不过我觉得，我们其实应该先回到刚才那一点：我们原本在聊从图像生成训练过渡到视频模型训练的步骤，其中有一件事还没有充分展开，就是训练数据差距。

视频模型可能没有那么容易泛化，但更关键的问题是：训练一个大型视频模型的成本到底是什么？对于 LLM，我们大致知道该怎么估算。比如今天刚出来的 Poolside，它是一个 Gemma 级别的模型，用大约四十万亿 token 训练，在多少块 H200 上训练了多长时间，对吧？基于这些信息，你可以算出相对精确的成本，比如用了多少 GPU 小时，H200 的成本是多少。

那么，对于视频模型和图像模型，我们该如何做这种后端计算？又该怎么拆解成本？

我可以先分享一些粗略估算。令人意外的是，视频模型的训练成本其实和语言模型相当。当然，最大规模的模型仍然是语言模型；视频模型的成本可能更接近中等规模的语言模型。

我会说，光是存储视频本身就已经非常昂贵。你可以去 AWS 或其他平台查一下相关价格。比如，如果你有十亿个视频，每个视频假设是 5MB，那么光是存储这些视频，就需要 5PB 的空间。而且别忘了，我们刚才说过，通常会用 VAE 来压缩视频；与此同时，你还需要把这些连续特征（continuous features）也存下来。它们占用的空间通常也和视频本身差不多。

所以，光是存储这些视频和对应特征，就已经是几十 PB 级别的规模，存储成本可能就是 20 万美元。而比存储更贵的，是入口和出口流量，也就是通过互联网传输数据的成本。光是下载这些视频，我相信在 AWS 上的费用就可能比单纯存储这些视频还高。而且每次训练时，你可能都需要重新拉取一次数据；如果训练多次，成本还会继续增加。所以，仅存储和网络传输这两项成本，每个月就可能达到几百万美元，这还没有计算 GPU 成本。

Swyx：我插一句，算力租赁，比如 GPU 租赁，其实效率非常高。像 xAI 建了自己的数据中心，那我们是不是也应该自己建设存储和计算？

Ethan： 当然。这是个好想法，但它也有挑战。比如建设 GPU 数据中心的人，可能不会预期会有这么大量的存储需求。而建设存储的人，通常只是把它建在某个只有 CPU 的地方。

Swyx：我刚查了一下。AWS 只对出口流量收费，不对入口收费。5 PB 的第五档出口流量是 23 万美元。

Ethan： 甚至比存储还贵。所以总结一下，我这个粗略估算里，如果只算 GPU 小时乘以 GPU 成本，其实漏掉了不少存储成本。在 Cosmos 里，我们做了很多优化，尽量避免训练过程受到 I/O 限制。

蒸馏获得推理收益，模态对齐是一大挑战

Swyx：推理侧有很多针对扩散的工作，这些能有重叠应用吗？

Ethan： 推理侧完全是另一回事。我认为，训练侧的成本可能比较难降下来，而推理侧最大的收益，主要来自对这些模型进行蒸馏。

这里可以做一种叫阶梯蒸馏（step distillation）的技术，它和 LLM 里的知识蒸馏略有不同。通常来说，对于流匹配模型，生成一张好图或一段好视频大约需要一百步；扩散模型甚至可能需要更多，比如一千步。阶梯蒸馏要做的，就是让模型学会用更少的步数完成生成。

举个例子，我们先用完整模型通过一百步生成结果，然后再训练一个只需要十步生成的模型，让它去学习那个完整模型的输出。

为什么这种方法能起作用？它有点像“强模型教弱模型”。从建模角度看，强模型也就是教师模型，试图建模的是互联网上图像和视频的整体分布，而这个分布极其复杂。但经过阶梯蒸馏的模型，只是在学习教师模型本身。教师模型是一个大小固定的模型，因此它的分布比整个互联网简单得多。这就是我对阶梯蒸馏为什么能够生效的直觉理解。

通常，这些模型在生产环境中服务时，只会运行很少几步。在 Cosmos 里，我记得我们有四步和八步的版本。如果是一些更简单的任务，比如图像到图像翻译，甚至可以用更少的步数完成，比如 Cosmos Transfer 里的一步生成。

Swyx： OpenAI 曾经发过一篇让我印象非常深刻的论文，它提出了一个统一一致性模型的宏大概念。不知道你对此有没有评价？

Ethan： 有几种不同方法，不过我们其实也不应该忘记 GAN。GAN 才是阶梯蒸馏的 OG，因为它从一开始训练的就是一步生成。所以，实际上很多方法都会把 GAN 用进来。比如分布匹配蒸馏就会使用 GAN 作为蒸馏损失之一。

GAN 的逻辑是告诉模型：“生成一张图像。”然后用一个判别器（discriminator）判断这张图像到底真实不真实。这样一来，模型只需要学习其中一种分布，而不是完整分布。因为在普通训练中，模型会被要求从互联网上的真实图像中重建 ground truth，这是一件非常困难的事。而训练 GAN 时，它是一个一步过程：你生成一张图，然后判断这张图看起来是否和互联网上的真实图像一样真实。相比之下，这是一个简单得多的任务。

所以，人们通常会把很多方法结合起来，比如一致性模型、分布匹配和 GAN。通过这些方法的组合，就可以得到少步模型（few-step models）。

Swyx：还有音频和视频方面可以补充一些。

Ethan： Grok Imagine 0.9，我相信它是第一个大规模部署的音视频联合生成模型。它也是 Grok Imagine 的第一个模型，做的是音视频联合生成。

我觉得难点在于模态对齐。在这个跨模态模型之前，我们已经有文本到视频对齐。通常来说，大多数视觉语言模型（VLMs）可以理解图像和视频，虽然真正理解视频的模型还比较少，但它们大多并不理解音频。

如果你看 LLM 侧的音频生成，它们可以和你正常对话，但如果你让它们唱歌，通常效果并不好。它们也不具备真正的音乐能力。难点在于，音频其实包含两个组成部分：一个是离散部分，另一个是连续部分。离散部分有点像语言，我们说话时，它可以被理解为带有一些特征的文本 token；但音乐完全不同，它非常连续，不能像语言模型里的离散 token 那样建模。这对模型来说本身就是难点，更不用说我们还要把文本、视频和音频三者全部对齐。

Vibhu：那要怎么对齐？

Ethan： 这里有一些重大挑战。首先，就像我们刚才说的，大多数 VLM 并不能理解音频，所以你必须找到某种方式为音频生成合成数据，也就是必须给模型加字幕。这背后涉及大量合成数据和人工数据工作。

令人意外的是，大多数 LLM 在识别节拍、音调和音乐细节方面都很差。它们可以大致判断这是哪首歌，但很难描述音乐里的具体细节。就像我们前面讲图像生成时说的，你必须尽可能详细地描述一张图像，让一个盲人也能根据这段描述重构出画面。放到音频里，就是要让一个聋人在没有真正听到音乐的情况下，也能重构出这段音乐听起来是什么样。也许你可以把它理解为需要某种……

Vibhu：字幕？

Ethan： 对，你必须拥有音乐和对话的所有细节。

模型必须知道视频和音频之间的时间对齐，也就是在什么时间步上，视频 token 和音频 token 彼此对应。但对大多数其他模态来说，我们其实没有这种对齐。文本和图像、文本和视频，它们之间都是松散对齐。你可以描述视频里发生了什么，但通常不需要精确到每一个时间步。

Swyx：那理想的时间步是多少？

Ethan： 这取决于你如何设计模型，让模型意识到时间也是一种模态。换句话说，模型要具备时间感知。LLM 在这一点上就非常明显。比如你让 LLM 完成一个任务，它可能会说：“这个任务大概要十二小时完成。”结果一小时后它回来告诉你：“我已经花了两天处理这个任务，并且把所有方法都试尽了。”所以，LLM 本身并没有真正的时间感知。

世界模型不是几秒动画，而是实时、交互、长记忆

Vibhu：你怎么定义世界模型？

Ethan： 先声明一点，我不打算争论“世界模型到底是什么”。它有很多种定义，所以这里只讲我自己的定义。因为我来自多模态领域，所以会主要从视频角度来理解它。

对我来说，世界模型就是实时、交互式、长时程视频。这里面包含三个部分，我们可以一个个来看。

第一是交互性。所谓交互性，是指世界模型允许你通过键盘、鼠标，甚至语音来和它互动。这些都可以被视为不同模态。你可以向模型输入操作，模型也应该做出合理回应。

第二是实时性。比如你移动鼠标，如果世界模型生成的是一款游戏，它需要多快响应？如果是职业 CS: GO 玩家，可能会要求 10 毫秒以内，甚至更低。大多数视频模型目前都做不到这一点。当然，如果这个视频模型生成的是数字人，响应时间可以宽松一些。通常实时语音交互可能允许两百毫秒左右的延迟，这已经宽松很多。但即便是 200 毫秒也并不容易，因为我们刚才提到过，VAE 会带来时间压缩。如果你不压缩时间维度，序列长度就会爆炸。所以，如果希望模型具备实时性，就必须解决上下文问题。

第三是长时程。因为我们不会只玩几秒钟的视频游戏，而大多数视频模型目前只能生成几秒钟内容。真正需要的是几分钟，甚至几小时的长内容生成能力。也就是说，模型必须能够持续生成长视频。

把这三点放在一起，我认为最终形态可能会是某种视频版 Playbook。你可以和一台神经计算机交互，移动鼠标、点击生成式界面，而它会通过实时生成像素来回应你。不过，要达到这个目标，还有很长的路要走。

所以在 Grok Imagine 里，我带领的一个小型世界模型团队，最先做的一步就是视频延展。视频延展可以说是交互性的第一步。之所以这么说，是因为它首先解锁了长时程视频。

通常来说，对大多数视频生成模型而言，你给它一个提示词，或者给它一张图像作为初始帧，它生成一段视频，然后就结束了。这是一次性完成的过程。有些创作者会尝试把上一段视频的最后一帧，作为第二段视频的第一帧。有时候这样做是可行的，但如果重复几次，质量就会下降。因为模型并没有完整视频的上下文，只拿到了最后一帧，所以时间一致性会变差。

这其实是一个挺有趣的 hack。比如我记得 Veo 3 会使用上一段视频的几秒上下文，这比只使用最后一帧稍微好一些，但仍然存在类似问题：视频质量会逐渐下降。如果你连续延展几次，把视频拉长到一分钟左右，后面的视频质量就会明显不如第一段。

第二个问题是，模型缺乏长期知识，不知道前面具体发生了什么。比如它生成一段对话，两个人在说话，但随着时间推移，他们的声音可能发生变化。尤其是当第二次生成时的条件没有覆盖之前上下文，这个问题会更明显。这些都是核心挑战。

所以，Grok Imagine 的视频延展会包含此前所有生成视频的历史上下文。它知道谁在说话，知道出现过哪些物体，也知道之前发生过的其他信息，并利用这些信息来生成下一段视频。

但如果我们用最朴素的方式来做，可以想象，就是把所有历史视频 token 都塞进上下文里。这样一来，上下文长度很容易爆炸。尤其对视频模型来说，上下文长度可能会达到几百万。

比如在 Cosmos 里，我记得 5 秒视频大约就是 5 万-6 万个 token。那么如果生成 50 秒视频，就会达到 50 万 token。再长一些，就很容易爆炸。因此，长时程问题就是我们尝试解决世界模型时迈出的第一步。

结果证明，大家真的很喜欢视频延展。很多创作者都喜欢用视频延展来制作更长的视频。我也很喜欢这一点，因为它不是直接冲向最终版本，而是在通往最终目标的路上，先提供了一个可用的中间步骤。

Vibhu：这看起来像是一个效率问题？比如直接拿一部电影，它有完整的上下文。另外你说它需要是交互式和实时的。那我们是不是应该先有一个方案，比如一个能够很好交互的世界模型，先解决这个问题，再做推理优化，把它服务出来，之后再蒸馏它，让它实时？

Ethan： 这是非常好的问题。视频里其实有大量冗余。我们通过 VAE 解决了很多像素冗余，但长距离和长时程视频里还有更多冗余。比如某个角色出现在第一段，然后消失，只在视频结尾重新出现。你可能并不需要在生成中间部分时一直保留它的上下文，你只需要在需要那个角色的时候拿到它，所以我帮忙做了另一个功能：参考生视频。

参考生视频允许你上传最多七张图作为条件，然后生成视频。模型应该能够选择性地知道，我应该从哪里抽取参考。比如我想生成一部电影，我用自回归方式生成，每次 10 秒之类。

Swyx：这不是你的错，但 xAI 没有很好地传播你们做的这些工作。他们只是发布模型，然后就结束了，但这些细节其实非常好。

Ethan： 不同实验室的沟通风格略有不同。

Swyx：参考功能有点像一个补丁式方案，现在你们可以做七个，但如果是一百个呢？

Ethan：我认为，这本质上是一种从历史记录中选择上下文的机制。你可能并不需要把整个历史都放进上下文里。比如有一篇叫 Frame Pack 的论文，里面采用了一种启发式方法：对于最近的历史，比如最后一秒，保留完整内容；而更早之前的历史，则进行压缩，把视频变小。它们遵循的是这样一种整体模式：最大序列长度是固定的，离当前帧越远，图像就越小。

但这仍然只是一种启发式方法。我觉得它可以变得更加自动化。模型本身应该知道，历史中的哪些部分值得被选择。现在很多人都在积极研究这部分内容，也非常有意思。我甚至觉得，在长上下文这件事上，视频模型其实有点走在 LLM 前面。

比如在 LLM 里，如果你调用工具，工具调用历史非常长，它仍然会留在上下文中，然后上下文不断增长、不断增长。即便你已经切换到另一个话题，整个上下文仍然还在那里。有一些智能体框架（agentic harnesses）会帮你处理，比如裁剪工具结果。再比如，当你查询一个文件时，它可能只显示前二百行之类。但这些方法都非常依赖启发式规则。我认为，未来的一个重要突破，可能就是让模型能够自动管理自己的上下文。

Swyx：这些现在都是启发式方法，未来会被机器学习取代。

Ethan：有意思的是，同样的事情正在 LLM 和视频模型里同时被研究。

Swyx：我觉得这也是一种注意力形式，但它又有点像推理注意力。

Ethan：先不谈稀疏注意力，普通注意力必须关注所有 token。你没有一个更高层的机制，来决定哪些 token 是不想关注、可以丢掉的。而人类的注意力范围其实小得惊人。比如，你通常只能记住十一位电话号码。但人类的上下文，也就是人类注意力之所以能工作，是因为我们可以从不同地方动态拉取上下文。我觉得，同样的机制最终也会出现在 LLM 和视频模型里。

xAI 被低估的工作、文化

Vibhu：你当时在 xAI 时候，还有没有什么被低估的东西？

Ethan：我觉得 xAI 的文化本身很有意思，也有点被低估。它的文化可以用几句话概括：快速行动、建设、再宏大的目标都不为过，以及第一性原理。早期设定的目标非常有野心。当我一开始思考这些目标时，它们看起来并不像是可以实现的事情。比如，在三个月内做出某个东西。

Vibhu：那当时是：“我们要开始组团队，既要做图像，也要做视频，而且要在这个截止日期前做出来”？还是你们是倒推出来的？

Ethan：这是一个非常好的问题。这其实来自第一性原理思考。

有些人可能会说，“第一性原理思考更多适用于物理世界，而不是模型”，但我会说，你也可以从一些限制因素出发：比如获取数据，你多快能拿到视频？训练模型时，端到端训练一个模型的迭代速度是多少？如果增加更多 GPU，会如何加速这个时间线？如果你需要人工数据，人工数据的周转时间又是多少？把所有这些因素放在一起，这就是第一性原理思考：到底最短需要多少天，才有可能完成一件事？

Swyx：这很像马斯克的思维方式，对吧？

Ethan：在 xAI 工作的一个好处是，你有机会更多地和马斯克互动。我很幸运，得到过他几次转发，很有意思。他也会非常密切地和大家一起工作。就像很多人在网上想象的那样，他确实非常喜欢亲自下场。

Vibhu：视频模式的安全方面有什么有意思的事情可以讲吗？

Ethan：很多国家不允许没有水印的生成式 AI 视频。所以在这些国家，Grok Imagine 都会加水印，而且很多视频的下架也非常快。

Swyx：你怎么看 SynthID 和其他水印方式？

Ethan：检测这些东西会变得越来越难。有一个情况是，SynthID 之前主要只有 Google 在用，现在很多不同实验室也在采用它。但它有一个限制：这项技术的论文已经公开了，人们可以通过逆向工程研究如何去掉它。而且我认为，即便它继续进步，逆向工程仍然是可能的。

视觉模型的能力，依靠语言模型

Swyx：他有一个关于视频智能体的观点。

Ethan：其实我有一个很大的判断：视觉智能（visual intelligence）主要来自语言。现在这些视频模型，尤其是在扩散模型技术已经更加成熟之后，每次看到这些模型有所提升，我就会说，这些增益大多来自语言模型，而不是来自视频模型本身。

在 Cosmos 里通常可以看到这一点。这些模型通常有两个部分：一个是提示词重写器或者说提示词上采样器。我记得在 Cosmos 里，我们用的是 Llama，或者 Mixtral。Cosmos 视频模型本身只有 7B，而那个语言模型是提示词重写器，而且比视频模型更大。

提示词重写器的任务，是把用户指令转换成极其详细的视频描述。因为视频模型、视觉模型，或者说视频分布模型，我觉得它们有点“笨”，它们会非常字面地接受输入指令。训练过程中，记得我们在创建合成文本配对时，必须尽可能详细地描述视频。所以这些模型就是接收这类指令来生成视频。

但当你输入用户指令时，用户指令通常都很简单。比如只说“一只猫”。如果你把“一只猫”输入视频模型，它就会非常字面地理解。它真的会显示一只猫，可能是在白色背景里，因为你没有描述背景；这只猫也不会动，因为你没有描述它在动。它会非常字面地执行指令，所以有点笨。

提示词重写器实际上是一个更大的语言模型，它接收用户指令，并对其进行扩展，思考过程就来自这里。比如你看 GPT Image，生成一张图像可能需要三分钟，但这三分钟并不全是在生成像素，很多时间其实花在了思考和提示词重写上。

现在，提示词重写已经进一步演化了。它不只是思考，也可以变成一个智能体模型（agentic model）。比如你想生成一张关于今日新闻的图像，它很可能会先去网上抓取今天的新闻，然后处理、消化、组织版面，最后再生成图像。这是一个很有意思的方向。

Vibhu：如果我没搞错，这些已经不再是扩散模型了，对吧？

Ethan：有不同的路线。比如 Gemini Omni。既然它说自己是 Omni，我相信它可能是一个单一模型，也许是一个带扩散头（diffusion head）的语言模型。语言模型负责思考和智能体式工具调用，最后再用扩散头生成图像。也有 Cosmos 这样的路线，也就是单独的语言模型加单独的扩散模型。还有纯语言模型路线，比如把图像离散化，然后把图像作为离散 token 生成。

Vibhu：我看到有人说，这些方法很难做好的一个原因是，现在我们用语言模型学习推理时，很多收益来自它可以迭代生成推理。如果你有一个 Omni 模型加扩散头，它不能把输出重新喂回去继续推理。也就是说，它不能文本、图像、文本、图像这样来回推理；不能在输出上推理，然后再回到扩散。但在新的 Gemini Omni 里，只要有扩散，这件事可能就可以做到。

Ethan：我不确定他们有没有这个过程。但在 Omni 范式里，这肯定是可能的。你可以想想传统多模态语言模型，它们会有一个 ViT 编码器来编码图像。如果它们有扩散头，就可以生成图像，然后把图像重新放回 ViT 编码器里，编码之后，如果结果需要，就继续做迭代优化。

Swyx：我们知道 NanoBanana 和 GPT Image 是自回归语言模型加扩散头。从你对 Grok Image 的描述来看，它不是，它是端到端……

Ethan：我不能评论这个。

Swyx：我只是想确认，提示词写作器加图像模型，和自回归语言模型加扩散头，是不同的东西吧？

Ethan：它们是不同的。它们共同的部分在于图像部分。令人惊讶的是，很多提升来自思考和工具调用。我还记得在 Cosmos 里，我生成一只快乐的羊。如果没有任何重写，它看起来很像 CGI；但经过提示词重写之后，它看起来就非常漂亮。

Swyx：没有任何联合训练？

Ethan：其实没有任何联合训练。仅仅有重写，效果就已经好很多了。一个非常有意思的现象是，视频智能体大部分是语言模型，它会把这些生成模型，无论是独立模型、扩散头，还是其他形式，都作为工具来调用。所以，这个模型可以迭代地优化结果，甚至通过很长的思维链生成更长的内容。

这实际上非常像人类创作艺术。我们并不是直接生成像素，而是真的会先画一些东西。在这个过程中，这些模型不仅会把扩散模型当作工具，还会使用传统工具。它可以使用 Photoshop 的图像编辑工具，也可以使用视频编辑器、FFmpeg 等等，把传统工具和生成式 AI 技术组合成一整套工具，从而迭代地创造出更好、更接近生产级质量的视频。现有的专业创作者，他们不会止步于用模型生成一个视频，还会把这个视频带进编辑器里修改。

Swyx：在 Imagine API 博客里，他们列了所有速度数据，主要是蒸馏加推理的组合。

Ethan：这里有很多因素。我们刚才说了蒸馏。如果谈到思考，如果你没有任何思考预算，模型可能会思考三分钟之后再回来。另外，推理基础设施团队也非常有才，他们能把这些模型加速很多。

Vibhu：你提到，很多收益并不那么来自视频本身。我觉得在语言模型领域也能看到类似情况。

Anthropic 很擅长编码，但他们的多模态不是最强。其他实验室，比如 Gemini、OpenAI，可以增加模态，但这并不意味着它们就释放了非常夸张的新能力。

Ethan：有意思的是，视频模型能力的提升，实际上来自语言模型变得更智能。

我觉得视觉智能能解锁的东西，可能比你想象得更多。第一，大多数人其实并不擅长写提示词，语言模型反而更知道该怎么提示 AI 模型。AI 模型更懂 AI 模型。所以如果你联合训练这些模型，也许模型会更知道如何提示每个模型。不同模型可能需要不同的提示方式。

另一点是，它可能并不只是简单地生成几个片段，然后用 FFmpeg 拼起来。这个过程中可能会出现更多图像和视频编辑工具。比如，如果你想在某个时间戳精确添加一段文字，视频模型可能不能非常准确地理解这个意图。但这类事情可以用确定性工具完成。视频智能体可以使用各种工具，所以你不必把所有能力都塞进生成模型本身。

Vibhu：你有没有时间预测？这些东西什么时候会真正起飞？

Ethan：到今年年底，它会成为一个大爆点。拐点会出现在视频智能体生成的视频达到生产级质量（production grade quality）的时候，也就是可以展示、可以在广告中分发的时候。一旦发生这件事，我认为企业会为视频模型投入更多预算，因为智能体天然比视频模型本身更贵。它们要经历迭代过程，会生成很多变体。但一旦这些模型跨过可用性门槛，我认为后面会出现指数级增长。

Swyx：有一件事让我有点惊讶：你喜欢世界模型和视频生成，很大程度上是为了视频生成本身。我觉得很多其他做世界模型的人，比如我们采访的李飞飞相关的人等，会说机器人是终局。你似乎没那么关心这个。

Ethan：我觉得机器人肯定会是其中很大一部分。这个过程可能会自然发生。我对机器人的预测是，物理 AI 可能会被解决，而且不一定需要在真实世界里解决。它可能会被一个具备很强视频能力的 LLM 解决。

记得我们之前说过实时、交互式、长时程视频。现在这些模型主要是在屏幕录制和电脑屏幕上训练。一旦这些模型能够使用电脑，并且非常理解电脑的未来状态，机器人可能会成为非常强大的 AI 可以使用的工具之一。所以，一个强大的 AI 可能会自然地学会控制物理具身。

“切换职业方向比你想象得更容易”

Swyx：你还留下了一个更辛辣的话题：为什么离开 xAI？

Ethan： 对我来说，有很多研究是在公司里很难做的。而且一家公司的优先级和目标，通常变化得非常快。xAI 也是如此。所以现在对我来说，正好到了这样一个时间点：我有一些想做的研究，尤其是更多偏向语言模型方向，而这些是在 xAI 做不了的。

Vibhu：你说接下来要关注 LLM，具体是什么意思？

Ethan： 我意识到，视频模型一开始的收益，可能确实来自扩散技术的提升。但现在已经到了一个阶段：大部分收益实际上来自语言模型本身。

我觉得有一件很有意思、也可能很快发生的事情是：语言模型会开始具备上下文感知能力，并且能够管理自己的上下文。

从视频模型这边看，我们一直被长时程问题困扰。我们想生成越来越长的视频，也一直在尝试通过各种方式解决上下文长度问题。一种方法是比较直接地暴力训练更长的上下文长度，另一种方法则是更好地管理上下文。我觉得，同样的事情很快也会发生在语言模型里。比如，语言模型其实并不知道自己的上下文长度到底还剩多少。一旦上下文长度达到 80%左右，自动上下文压缩就会被触发，但模型在工作时并不知道这件事。也许让模型知道“我正在接近 80%”会更好。

还有一些很有意思的做法。比如在 OpenClaw 里，每次你输入内容时，当前本地时间都会被自动附加到你的消息里，所以模型实际上知道现在是什么时间。这是在让模型具备时间感知能力。

另外，在工具调用里，很多中间工具调用结果会被自动裁剪。所以这里其实包含了上下文移除、上下文添加和上下文压缩。这些能力目前都来自框架本身。但根据我们的经验，启发式工程也会帮助模型逐渐把这些能力吸收到模型自身里。这是一个非常值得探索的方向。

Swyx：我还有点好奇。你来自大型实验室，大型实验室里的研究员通常会有一条相对明确的职业路径：训练模型、获得更多算力，再训练更好的模型，然后继续往前推进。某种程度上，我觉得你现在是在选择跳出这条路径。如果我是你，我可能会认为这其中存在一定的职业风险。我想，很多处在你这个位置上的人，可能不会做出和你一样的选择。

Ethan： 说到我的职业经历，如果回头看，其实里面有很多次巨大的转变。十年前，我和 ResNet 的作者 Xiangyu Zhang、Jian Sun 一起做研究。那时候的研究方向和现在完全不同，主要是图像识别、目标检测和目标跟踪。当时我也在做神经网络压缩，它和现在的知识蒸馏也很不一样。

那时候，我原本想成为教授。申请 PhD 时，我已经有几篇顶会一作论文，所以很有信心地申请了顶尖学校。结果，所有顶尖博士项目都拒绝了我，所以我不得不进入工业界。当时我去了 Facebook AI Research，也就是 FAIR，那时由 Yann LeCun 领导。

后来，我转向了自监督学习。这个方向和我之前做的卷积相关研究非常不同。再后来，我做了英伟达 Cosmos。那时我意识到，scaling up 模型极其重要。所以在英伟达，我主要关注 scaling。一方面是 Cosmos，把视频分布模型扩展到几十亿参数规模；另一方面，我也在做 MoEs。Megatron MoEs 是第一个开源框架，能够在很大规模上高效训练这些 MoE 模型，从千亿参数到万亿参数，并且 MFU 可以达到百分之四十。

后来我转去 xAI，是为了进一步在更大的算力规模上工作。回看这条轨迹，我其实做过很多不同的事情。所以我觉得，在机器学习内部，切换方向比你想象得更容易。很多人可能会有一种心态：“我做计算机视觉，就必须一直做计算机视觉，不能转去做语言。”但从我的经验来看，至少在英伟达，我同时做过语言模型 MoEs 和视频模型，事实并不是那样。

训练大型模型的很多核心原则，大体上是相通的。对我来说，我现在认为视频模型的瓶颈，其实在于语言部分和智能体部分。这也是为什么我想更多去做 LLM。一方面，这确实是一个挑战；但另一方面，我并不觉得这是一种巨大的跳跃。

原视频链接：

https://www.youtube.com/watch?v=jPtQlILfkhA

创作场景

“英伟达也缺算力！”顶尖 AI 研究员转投 xAI 内幕：谁 GPU 管够，就去哪里