在 AI 行业,最硬的招聘福利,得加上“算力”了,而且连英伟达都无法置身事外。
曾在 NVIDIA 参与 Cosmos 世界模型、后加入 xAI 并参与打造 Grok Imagine 的 Ethan He,在参加“Latent Space”的访谈中提到,自己离开 NVIDIA 的关键原因,是意识到视频模型同样存在类似语言模型的缩放规律。模型要继续变强,就必须持续扩大训练规模;而一旦进入这个阶段,算力就不再只是基础设施,而是研究本身的上限。
看起来,在前沿视频模型面前,似乎即便是英伟达也会遇到算力不够自由的问题。于是,顶尖研究员的流动逻辑正在改变:谁能给更多 GPU、更快迭代、更少资源约束,谁就更有可能吸走前沿人才。
Ethan 加入 xAI 时,公司的视频和多模态团队几乎从零开始:没有完整基础设施、没有现成数据、没有成熟模型。几名工程师用了三个月,搭出了第一版 Grok Imagine 0.9。也正是在这段经历中,他形成了一个更激进的判断:视频生成的下一次跃迁,可能不再只是更强的扩散模型,而是视频智能体。
在他看来,视频生成正在走上一条类似 AI 编程的道路。AI 编程最早强调一次性生成代码,后来逐渐走向多轮推理、调试、测试、提交 PR 的智能体系统。视频生成也可能经历类似过程:从一次生成视频,走向能够规划整套创意任务、调用扩散模型和传统编辑工具,并交付生产级内容的视频智能体。
他指出,视频模型的真实成本被严重低估。除了 GPU,数据标注、VAE 压缩、PB 级存储、云端带宽、音视频时间戳级对齐,都会成为隐性吞金兽。Ethan 还表示,当扩散模型技术逐渐成熟后,视频模型的很多关键进步,已经不再主要来自视频模型本身,而是来自语言模型。换句话说,视觉智能很大程度上正在由语言智能驱动。
下面是对话详情,我们进行了翻译,并在不改变原意基础上进行了删减,以飨读者。
从英伟达到 xAI,为了算力“叛逃”
Swyx: 给我们讲讲你转去 xAI 的过程吧,我其实都不知道你是什么时候加入的。
Ethan: 在加入 xAI 之前,我在英伟达做 Cosmos 世界模型。Cosmos 是一个大型视频基础模型,目标是模拟世界,并作为所有机器人研究者在其上继续构建的基础。做完 Cosmos One 后,我意识到这类模型也有类似语言模型的缩放规律(scaling law),我们需要继续把视频模型做大。所以我认为我需要去一个拥有更多算力资源的地方。这就是我后来转去 xAI 的原因。
Swyx: 比英伟达还要多?
Vibhu: “GPU 富人”也出来找算力了。Cosmos 是什么时候?
Ethan: 那是 2024 年底,然后我在 2025 年中去了 xAI。我加入时,xAI 正准备做视频模型和多模态模型。当时没有基础设施、没有数据、也没有模型,就是我们几个工程师,三个月把它做出来,并发布了第一个模型:Grok Imagine 0.9。从那以后,我一直在做视频模型,然后逐渐从视频模型的训练转向后训练,比如参考生视频(Reference-to-Video),有点像 cameo 功能,还有视频延展。我离开那会儿,在做世界模型,带着一个小团队专注在实时长时程视频生成。
Swyx: 能不能给我们一个大致路线图?Grok 之前只是文本,图像生成方面可能是和 BFL (黑森林实验室)合作,那你们要做什么?
Ethan: 我觉得一方面要感谢我在 英伟达 的经验。因为我们第一次做 Cosmos 时,做了大概一年。这是我第二次做这类事情,大致知道要做什么。
在我看来,最重要的是人才。每个人都很强、很聪明,而且彼此非常紧密地朝着共同目标努力,这会极大加快速度。人与人之间的沟通带宽减少,每个人都能朝同一个目标推进。当时,每天日历上没有太多会议,可能一天一次同步会,之后就是全力建设。那段时间挺有意思的。
另一个原因是,xAI 在数据推理、模型推理和相关支持方面有非常强的基础,这些能够极大帮助模型开发。我看训练模型时,最重要的事情其实是:你每天能做多少次迭代?迭代越多,模型训练得越快。如果你有很强的基础设施,也有大量算力,就能在很短时间内训练这些模型。这会给错误留下更大的缓冲空间,也让你有机会发现更多 bug。
Swyx: 所以是在你加入之前,已经有人把这些东西搭好了,让你们可以很快迭代。
Ethan: 我觉得那里的基础非常适合开发和研究模型。我经常发现一件有点无聊的事情:很多提升并不是来自新算法,而是来自在数据管线和模型训练管线里发现各种小 bug。这些东西反而会给模型质量带来最大提升。
Swyx: 你有没有尝试用大模型来找 bug?
Ethan: 我记得那是 2025 年中期,编程模型还没那么强,到了 2025 年 12 月,它们已经非常好了。那时我已经在用,确实有帮助。有时候它能非常快地第一次搭出东西,但生成的代码很难维护,像“意大利面条代码”(spaghetti code)一样,几千行,我自己维护不了,大模型本身也搞不清哪里有问题以及该怎么在上面继续改进。但现在我发现它好很多了。
我还想提出另一点:现在编程模型高效得多,可以帮助我们更快实现想法,但算力可能又会重新成为瓶颈。
以前如果你想训练一个新模型,比如想生成新的合成数据或者写一个新算法,可能要花几周时间。在这段时间里,你可能没有实验能跑。但现在你可以在几个小时内把东西做出来,然后马上训练模型。那你就必须有足够的算力去尝试所有想法,所以算力可能会再次成为迭代速度的瓶颈。
Swyx:我觉得这类工作挺有压力的,你会想:“我应该把所有东西都试一遍。如果我没试,那就是我工作做得不好。”
Vibhu: 还有另一种压力,就是你每小时消耗几千张 GPU,这非常贵,而且算力也会给其他研究员用。
Swyx: 你有马斯克这个“爸爸”可以获得支持。
Ethan: 当时确实挺有压力的。是的。我觉得一方面,现在有了编程模型,很多工作可以自动化,这要好很多。另一方面,这是一场马拉松,所以你必须保持健康和规律作息。
视频模型的第一课:先学会“看图说话”
Vibhu: 最开始几个月是什么样子?小团队、很多 bug、很多迭代,但具体怎样做出一个当时最先进的图像生成模型?
Ethan: 我不能具体评论 xAI 是怎么做的,但这是一个相当标准的流程。
我可以从 Cosmos 举一些例子。主要来说,要做视频模型,实际上你需要先做图像模型。做这两个模型时,你需要的数据,百分之百是语言与图像、或者语言与视频的合成配对。因为在互联网上,视频并不会天然和文本关联。你可以说,YouTube 上有标题、描述和评论,但通常它们和视频本身并不相关。比如一个视频可能是山景这样的自然场景,但标题是“我今天太开心了”,它们之间根本没有相关性。
所以第一步是,你必须生成语言和视频之间的合成配对。你从互联网上收集视频,然后用视觉模型给视频加字幕。
最开始是让人类尽可能详细地描述视频。比如要求他们描述所有物体、所有角色、所有交互,以及视频中的对话。这也是 Cosmos 标注协议里的要求。我们给标注员的目标是:必须尽可能详细地描述视频,让一个盲人听到这段文字后,可以在脑海里重构出视频大概是什么样子。
Swyx: 无监督有一个解锁点。当你已经有足够基础可以启动之后,就可以把 Common Corpus 或其他东西直接丢进去,也就是进行无监督的视觉与语言配对。你有交错出现的图像和文本,然后它自己学习。对我来说,这才是不同于 CLIP、也不同于语言模型时代的视觉语言模型突破。
Ethan: 有意思的是,你其实两种数据都需要。比如在生成模型训练里,通常也会有一小部分未标注数据。模型会被要求在没有任何文本指令的情况下生成视频,这也能帮助模型泛化。
在完成生成合成配对这个阶段之后,一个非常重要的共同步骤是训练图像或视频的压缩器(compressor)或者分词器(tokenizer)。因为理论上你当然可以直接在纯像素上训练图像或视频模型,但问题是 token 太多了。比如一张 1000*1000 的图像,就是 100 万个 token,100 万个像素,不可能在这上面训练 Transformer。所以你需要训练一个分词器,它能把图像映射到潜空间(latent space),再从潜空间映射回图像。
Swyx: 那什么程度算不可能?一百万是不可能?
Ethan: 在生成模型里,词表是连续的,是一个连续空间。你可以把它理解为把一张图像映射成一个向量。它是一个固定长度向量,比如十六或者四十八之类,然后你再把这个向量映射回图像空间。这个映射是基于 patch 的,比如你有一个 16*16 的 patch,你把这一小块像素映射到潜空间里。
Swyx: 人们也会把这种 patching 和卷积做很多比较。你某种程度上是在用新范式重构旧范式。
Ethan: 其实在变分自编码器(VAEs)里,既有卷积网络,也有 Transformer。两种都可以做。 有了 VAEs 之后,你就得到了潜空间 token,也得到了语言 token。
接下来,diffusion transformer 的训练,也就是生成模型通常使用的架构,其实非常标准。它和训练语言 Transformer 模型非常相似,没有太大区别,只是输入是视觉 token、输出也是视觉 token。唯一不同的是这里有一个去噪过程。你训练模型去除一部分噪声,也就是向视觉 token 加入随机噪声,然后训练模型移除这些噪声,生成干净 token。在推理时,模型可以从百分之百噪声开始,迭代地移除噪声。
Swyx: 我觉得在这条线上,Stability 这些公司显然开创了很多架构,不知道你想不想深入讲?
Ethan: 当你训练好这样的图像模型后,它之所以成为视频模型的基础,是因为图像模型更便宜,而且语言和图像之间的连接紧密。比如,你用十亿张图像训练,就有文本到图像之间的映射,而如果要训练同样数量级,比如十亿段文本到十亿个视频,成本要高得多,因为视频天然比图像有更多 token。扩散模型对语言的理解,纯粹来自这种映射。如果你没有足够多的映射,比如你只训练了 1000 万个视频,训练中可能看不到足够多的语言 token,你的模型就不能充分理解人类意图。所以你真的需要先训练图像扩散模型,然后再从那里启动视频模型。
Swyx: 视频压缩里有很多技巧,比如逐帧之间差异并不大,所以实际上不需要重新生成或保存整个帧,对吧?像 MP4 压缩或者类似的,你们会想用这种方法吗?还是大家大致都是:“不,我们就生成每一帧。”
Ethan: 有几种不同的方法。先说如果你想直接使用 MP4 压缩结果,并把它作为 Transformer 训练时使用的 token,确实已经有人尝试过。但主要挑战在于,MP4 token 所对应的潜空间,对模型来说并不好理解,因此训练起来极其困难。所以人们才会引入 VAEs。
VAEs 能够生成更加连续的潜空间,让模型更容易理解这个潜空间,并从中学习。不过,即便在 VAEs 内部,不同潜空间的训练难度也存在差异。你可以想象,最简单、最朴素的 VAE 做法是:给定一张图像,只是把图像中的所有像素直接打平成一个向量。这样一来,理论上你甚至不需要训练任何 VAE,对吧?但问题是,这样得到的潜空间对模型来说极难训练。因此,围绕如何压缩 token,本身就存在很多讨论。
你刚才提到的,可以逐帧压缩,也可以压缩时间维度。两者的区别在于,如果压缩时间维度,就可以获得更高的压缩率。因为帧与帧之间存在时间冗余,这一帧和上一帧很可能大部分内容都相似,只存在一些小差异。比如我记得在某个 VAE 里,他们采用的是 8×8×4 的压缩率,也就是把四个时间 token 压缩成一个 token。这样可以大幅节省上下文长度。
如果采用逐帧压缩,可能就是 8×8×1,这意味着上下文长度会变成前者的四倍。话虽如此,逐帧压缩也有自己的优势,那就是实时性和交互性。因为如果模型可以逐帧流式输出结果,就能够立刻响应用户的任何请求。但如果采用四倍的时间压缩,那么天然就会产生延迟。
Swyx: 有一些实时视频生成的前沿应用,比如最近走红的 Flipbook。Flipbook 是什么?
Ethan: Flipbook 有点像一个网页浏览器。你可以看到,它上方保留了浏览器式的 UI。不同之处在于,里面所有 UI 都是由图像生成模型实时生成的,页面中的一切都是虚构的。但你可以在这个想象出来的世界里继续探索。
Swyx: 在一个推理完全免费的世界里,这会比生成代码和文本更好吗?
Ethan: 我觉得这是 Viva 或世界模型最终会走向的状态。想象一下,如果互联网不存在,然后你输入 google.com,模型应该给你显示什么?模型可以想象出一些东西,这就是模型想象出来的东西,而这些网页完全不存在。
所以我认为,随着推理成本下降,我们会为一切都配上生成式 UI。你想想编程模型现在是怎么工作的:它们先为网页写代码,再渲染代码,代码可能被转换成二进制,最后由二进制把像素渲染到屏幕上。而在机器学习里,每一次突破,显然都会让交互变得更加直觉化。那么,为什么我们不能直接从用户指令走向像素呢?
所谓生成式 UI,本质上就是从用户意图直接生成像素。比如邮箱,假设现在大家使用的是同一套界面,但我希望它稍微不一样:我想让邮件像 TikTok 一样展示给我,可以左右滑动浏览;也许别人会想要另一种完全不同的形态。再比如我在看 Instagram Stories 时,不喜欢 Like 按钮,因为我总是可能误点,而生成式 UI 就可以解决这个问题。
所以,它会成为一次革命性的界面替代。未来,我们可能会有更强大的大语言模型和编程模型在后台运行,而前端真正负责把内容展示给你的,会是扩散模型;换句话说,扩散模型会成为前端。这就是我想象中的样子。
Swyx: 我觉得这非常贵,不过……
Ethan: 如果你考虑成本,假设 H100 每小时一美元,你每天用八小时、每个月三十天,那么每个月要付 240 美元。你其实不太愿意付这个钱。这甚至比 Claude Code Max 还贵。但如果你考虑算力成本每年下降两倍,我觉得这个未来很可能几年内就会到来。
Swyx: 网页设计师肯定会指出可访问性是一个问题,比如屏幕阅读器怎么办?但没错,这是一种比你用代码能生成的任何东西都高带宽的叙事方式。
Ethan: 我想补充一点:人类在看东西、看视频时,天然有最大的输入带宽,我们说话时也有最大的输出带宽。所以未来可能会变成:我们和 AI 模型说话,AI 模型用生成式 UI 回应我们。在 Neuralink 发生之前,这可能就是人与 AI 模型交互的最大输入和输出带宽。
GPU 之外,视频模型还有一张更贵的账单
Swyx: 我们之前讲过一篇关于记忆注意力的论文。我一直觉得,任何能够跨时间维度保持某种一致性的东西都很迷人。计算机视觉侧渗透到视频生成侧,是不是还没有被充分探索?
Ethan: 也有一些完全不同的方法。你刚才提到了“世界模型”这个词,所以我们的讨论也可以从视频模型进一步延伸到世界模型。这里既有扩散模型这一路线,也有其他人正在探索的不同路线。不过我觉得,我们其实应该先回到刚才那一点:我们原本在聊从图像生成训练过渡到视频模型训练的步骤,其中有一件事还没有充分展开,就是训练数据差距。
视频模型可能没有那么容易泛化,但更关键的问题是:训练一个大型视频模型的成本到底是什么?对于 LLM,我们大致知道该怎么估算。比如今天刚出来的 Poolside,它是一个 Gemma 级别的模型,用大约四十万亿 token 训练,在多少块 H200 上训练了多长时间,对吧?基于这些信息,你可以算出相对精确的成本,比如用了多少 GPU 小时,H200 的成本是多少。
那么,对于视频模型和图像模型,我们该如何做这种后端计算?又该怎么拆解成本?
我可以先分享一些粗略估算。令人意外的是,视频模型的训练成本其实和语言模型相当。当然,最大规模的模型仍然是语言模型;视频模型的成本可能更接近中等规模的语言模型。
我会说,光是存储视频本身就已经非常昂贵。你可以去 AWS 或其他平台查一下相关价格。比如,如果你有十亿个视频,每个视频假设是 5MB,那么光是存储这些视频,就需要 5PB 的空间。而且别忘了,我们刚才说过,通常会用 VAE 来压缩视频;与此同时,你还需要把这些连续特征(continuous features)也存下来。它们占用的空间通常也和视频本身差不多。
所以,光是存储这些视频和对应特征,就已经是几十 PB 级别的规模,存储成本可能就是 20 万美元。而比存储更贵的,是入口和出口流量,也就是通过互联网传输数据的成本。光是下载这些视频,我相信在 AWS 上的费用就可能比单纯存储这些视频还高。而且每次训练时,你可能都需要重新拉取一次数据;如果训练多次,成本还会继续增加。所以,仅存储和网络传输这两项成本,每个月就可能达到几百万美元,这还没有计算 GPU 成本。
Swyx: 我插一句,算力租赁,比如 GPU 租赁,其实效率非常高。像 xAI 建了自己的数据中心,那我们是不是也应该自己建设存储和计算?
Ethan: 当然。这是个好想法,但它也有挑战。比如建设 GPU 数据中心的人,可能不会预期会有这么大量的存储需求。而建设存储的人,通常只是把它建在某个只有 CPU 的地方。
Swyx: 我刚查了一下。AWS 只对出口流量收费,不对入口收费。5 PB 的第五档出口流量是 23 万美元。
Ethan: 甚至比存储还贵。所以总结一下,我这个粗略估算里,如果只算 GPU 小时乘以 GPU 成本,其实漏掉了不少存储成本。在 Cosmos 里,我们做了很多优化,尽量避免训练过程受到 I/O 限制。
蒸馏获得推理收益,模态对齐是一大挑战
Swyx: 推理侧有很多针对扩散的工作,这些能有重叠应用吗?
Ethan: 推理侧完全是另一回事。我认为,训练侧的成本可能比较难降下来,而推理侧最大的收益,主要来自对这些模型进行蒸馏。
这里可以做一种叫阶梯蒸馏(step distillation)的技术,它和 LLM 里的知识蒸馏略有不同。通常来说,对于流匹配模型,生成一张好图或一段好视频大约需要一百步;扩散模型甚至可能需要更多,比如一千步。阶梯蒸馏要做的,就是让模型学会用更少的步数完成生成。
举个例子,我们先用完整模型通过一百步生成结果,然后再训练一个只需要十步生成的模型,让它去学习那个完整模型的输出。
为什么这种方法能起作用?它有点像“强模型教弱模型”。从建模角度看,强模型也就是教师模型,试图建模的是互联网上图像和视频的整体分布,而这个分布极其复杂。但经过阶梯蒸馏的模型,只是在学习教师模型本身。教师模型是一个大小固定的模型,因此它的分布比整个互联网简单得多。这就是我对阶梯蒸馏为什么能够生效的直觉理解。
通常,这些模型在生产环境中服务时,只会运行很少几步。在 Cosmos 里,我记得我们有四步和八步的版本。如果是一些更简单的任务,比如图像到图像翻译,甚至可以用更少的步数完成,比如 Cosmos Transfer 里的一步生成。
Swyx: OpenAI 曾经发过一篇让我印象非常深刻的论文,它提出了一个统一一致性模型的宏大概念。不知道你对此有没有评价?
Ethan: 有几种不同方法,不过我们其实也不应该忘记 GAN。GAN 才是阶梯蒸馏的 OG,因为它从一开始训练的就是一步生成。所以,实际上很多方法都会把 GAN 用进来。比如分布匹配蒸馏就会使用 GAN 作为蒸馏损失之一。
GAN 的逻辑是告诉模型:“生成一张图像。”然后用一个判别器(discriminator)判断这张图像到底真实不真实。这样一来,模型只需要学习其中一种分布,而不是完整分布。因为在普通训练中,模型会被要求从互联网上的真实图像中重建 ground truth,这是一件非常困难的事。而训练 GAN 时,它是一个一步过程:你生成一张图,然后判断这张图看起来是否和互联网上的真实图像一样真实。相比之下,这是一个简单得多的任务。
所以,人们通常会把很多方法结合起来,比如一致性模型、分布匹配和 GAN。通过这些方法的组合,就可以得到少步模型(few-step models)。
Swyx: 还有音频和视频方面可以补充一些。
Ethan: Grok Imagine 0.9,我相信它是第一个大规模部署的音视频联合生成模型。它也是 Grok Imagine 的第一个模型,做的是音视频联合生成。
我觉得难点在于模态对齐。在这个跨模态模型之前,我们已经有文本到视频对齐。通常来说,大多数视觉语言模型(VLMs)可以理解图像和视频,虽然真正理解视频的模型还比较少,但它们大多并不理解音频。
如果你看 LLM 侧的音频生成,它们可以和你正常对话,但如果你让它们唱歌,通常效果并不好。它们也不具备真正的音乐能力。难点在于,音频其实包含两个组成部分:一个是离散部分,另一个是连续部分。离散部分有点像语言,我们说话时,它可以被理解为带有一些特征的文本 token;但音乐完全不同,它非常连续,不能像语言模型里的离散 token 那样建模。这对模型来说本身就是难点,更不用说我们还要把文本、视频和音频三者全部对齐。
Vibhu: 那要怎么对齐?
Ethan: 这里有一些重大挑战。首先,就像我们刚才说的,大多数 VLM 并不能理解音频,所以你必须找到某种方式为音频生成合成数据,也就是必须给模型加字幕。这背后涉及大量合成数据和人工数据工作。
令人意外的是,大多数 LLM 在识别节拍、音调和音乐细节方面都很差。它们可以大致判断这是哪首歌,但很难描述音乐里的具体细节。就像我们前面讲图像生成时说的,你必须尽可能详细地描述一张图像,让一个盲人也能根据这段描述重构出画面。放到音频里,就是要让一个聋人在没有真正听到音乐的情况下,也能重构出这段音乐听起来是什么样。也许你可以把它理解为需要某种……
Vibhu: 字幕?
Ethan: 对,你必须拥有音乐和对话的所有细节。
模型必须知道视频和音频之间的时间对齐,也就是在什么时间步上,视频 token 和音频 token 彼此对应。但对大多数其他模态来说,我们其实没有这种对齐。文本和图像、文本和视频,它们之间都是松散对齐。你可以描述视频里发生了什么,但通常不需要精确到每一个时间步。
Swyx: 那理想的时间步是多少?
Ethan: 这取决于你如何设计模型,让模型意识到时间也是一种模态。换句话说,模型要具备时间感知。LLM 在这一点上就非常明显。比如你让 LLM 完成一个任务,它可能会说:“这个任务大概要十二小时完成。”结果一小时后它回来告诉你:“我已经花了两天处理这个任务,并且把所有方法都试尽了。”所以,LLM 本身并没有真正的时间感知。
世界模型不是几秒动画,而是实时、交互、长记忆
Vibhu: 你怎么定义世界模型?
Ethan: 先声明一点,我不打算争论“世界模型到底是什么”。它有很多种定义,所以这里只讲我自己的定义。因为我来自多模态领域,所以会主要从视频角度来理解它。
对我来说,世界模型就是实时、交互式、长时程视频。这里面包含三个部分,我们可以一个个来看。
第一是交互性。所谓交互性,是指世界模型允许你通过键盘、鼠标,甚至语音来和它互动。这些都可以被视为不同模态。你可以向模型输入操作,模型也应该做出合理回应。
第二是实时性。比如你移动鼠标,如果世界模型生成的是一款游戏,它需要多快响应?如果是职业 CS: GO 玩家,可能会要求 10 毫秒以内,甚至更低。大多数视频模型目前都做不到这一点。当然,如果这个视频模型生成的是数字人,响应时间可以宽松一些。通常实时语音交互可能允许两百毫秒左右的延迟,这已经宽松很多。但即便是 200 毫秒也并不容易,因为我们刚才提到过,VAE 会带来时间压缩。如果你不压缩时间维度,序列长度就会爆炸。所以,如果希望模型具备实时性,就必须解决上下文问题。
第三是长时程。因为我们不会只玩几秒钟的视频游戏,而大多数视频模型目前只能生成几秒钟内容。真正需要的是几分钟,甚至几小时的长内容生成能力。也就是说,模型必须能够持续生成长视频。
把这三点放在一起,我认为最终形态可能会是某种视频版 Playbook。你可以和一台神经计算机交互,移动鼠标、点击生成式界面,而它会通过实时生成像素来回应你。不过,要达到这个目标,还有很长的路要走。
所以在 Grok Imagine 里,我带领的一个小型世界模型团队,最先做的一步就是视频延展。视频延展可以说是交互性的第一步。之所以这么说,是因为它首先解锁了长时程视频。
通常来说,对大多数视频生成模型而言,你给它一个提示词,或者给它一张图像作为初始帧,它生成一段视频,然后就结束了。这是一次性完成的过程。有些创作者会尝试把上一段视频的最后一帧,作为第二段视频的第一帧。有时候这样做是可行的,但如果重复几次,质量就会下降。因为模型并没有完整视频的上下文,只拿到了最后一帧,所以时间一致性会变差。
这其实是一个挺有趣的 hack。比如我记得 Veo 3 会使用上一段视频的几秒上下文,这比只使用最后一帧稍微好一些,但仍然存在类似问题:视频质量会逐渐下降。如果你连续延展几次,把视频拉长到一分钟左右,后面的视频质量就会明显不如第一段。
第二个问题是,模型缺乏长期知识,不知道前面具体发生了什么。比如它生成一段对话,两个人在说话,但随着时间推移,他们的声音可能发生变化。尤其是当第二次生成时的条件没有覆盖之前上下文,这个问题会更明显。这些都是核心挑战。
所以,Grok Imagine 的视频延展会包含此前所有生成视频的历史上下文。它知道谁在说话,知道出现过哪些物体,也知道之前发生过的其他信息,并利用这些信息来生成下一段视频。
但如果我们用最朴素的方式来做,可以想象,就是把所有历史视频 token 都塞进上下文里。这样一来,上下文长度很容易爆炸。尤其对视频模型来说,上下文长度可能会达到几百万。
比如在 Cosmos 里,我记得 5 秒视频大约就是 5 万-6 万个 token。那么如果生成 50 秒视频,就会达到 50 万 token。再长一些,就很容易爆炸。因此,长时程问题就是我们尝试解决世界模型时迈出的第一步。
结果证明,大家真的很喜欢视频延展。很多创作者都喜欢用视频延展来制作更长的视频。我也很喜欢这一点,因为它不是直接冲向最终版本,而是在通往最终目标的路上,先提供了一个可用的中间步骤。
Vibhu: 这看起来像是一个效率问题?比如直接拿一部电影,它有完整的上下文。另外你说它需要是交互式和实时的。那我们是不是应该先有一个方案,比如一个能够很好交互的世界模型,先解决这个问题,再做推理优化,把它服务出来,之后再蒸馏它,让它实时?
Ethan: 这是非常好的问题。视频里其实有大量冗余。我们通过 VAE 解决了很多像素冗余,但长距离和长时程视频里还有更多冗余。比如某个角色出现在第一段,然后消失,只在视频结尾重新出现。你可能并不需要在生成中间部分时一直保留它的上下文,你只需要在需要那个角色的时候拿到它,所以我帮忙做了另一个功能:参考生视频。
参考生视频允许你上传最多七张图作为条件,然后生成视频。模型应该能够选择性地知道,我应该从哪里抽取参考。比如我想生成一部电影,我用自回归方式生成,每次 10 秒之类。
Swyx: 这不是你的错,但 xAI 没有很好地传播你们做的这些工作。他们只是发布模型,然后就结束了,但这些细节其实非常好。
Ethan: 不同实验室的沟通风格略有不同。
Swyx:参考功能有点像一个补丁式方案,现在你们可以做七个,但如果是一百个呢?
Ethan:我认为,这本质上是一种从历史记录中选择上下文的机制。你可能并不需要把整个历史都放进上下文里。比如有一篇叫 Frame Pack 的论文,里面采用了一种启发式方法:对于最近的历史,比如最后一秒,保留完整内容;而更早之前的历史,则进行压缩,把视频变小。它们遵循的是这样一种整体模式:最大序列长度是固定的,离当前帧越远,图像就越小。
但这仍然只是一种启发式方法。我觉得它可以变得更加自动化。模型本身应该知道,历史中的哪些部分值得被选择。现在很多人都在积极研究这部分内容,也非常有意思。我甚至觉得,在长上下文这件事上,视频模型其实有点走在 LLM 前面。
比如在 LLM 里,如果你调用工具,工具调用历史非常长,它仍然会留在上下文中,然后上下文不断增长、不断增长。即便你已经切换到另一个话题,整个上下文仍然还在那里。有一些智能体框架(agentic harnesses)会帮你处理,比如裁剪工具结果。再比如,当你查询一个文件时,它可能只显示前二百行之类。但这些方法都非常依赖启发式规则。我认为,未来的一个重要突破,可能就是让模型能够自动管理自己的上下文。
Swyx:这些现在都是启发式方法,未来会被机器学习取代。
Ethan:有意思的是,同样的事情正在 LLM 和视频模型里同时被研究。
Swyx:我觉得这也是一种注意力形式,但它又有点像推理注意力。
Ethan:先不谈稀疏注意力,普通注意力必须关注所有 token。你没有一个更高层的机制,来决定哪些 token 是不想关注、可以丢掉的。而人类的注意力范围其实小得惊人。比如,你通常只能记住十一位电话号码。但人类的上下文,也就是人类注意力之所以能工作,是因为我们可以从不同地方动态拉取上下文。我觉得,同样的机制最终也会出现在 LLM 和视频模型里。
xAI 被低估的工作、文化
Vibhu:你当时在 xAI 时候,还有没有什么被低估的东西?
Ethan:我觉得 xAI 的文化本身很有意思,也有点被低估。它的文化可以用几句话概括:快速行动、建设、再宏大的目标都不为过,以及第一性原理。早期设定的目标非常有野心。当我一开始思考这些目标时,它们看起来并不像是可以实现的事情。比如,在三个月内做出某个东西。
Vibhu:那当时是:“我们要开始组团队,既要做图像,也要做视频,而且要在这个截止日期前做出来”?还是你们是倒推出来的?
Ethan:这是一个非常好的问题。这其实来自第一性原理思考。
有些人可能会说,“第一性原理思考更多适用于物理世界,而不是模型”,但我会说,你也可以从一些限制因素出发:比如获取数据,你多快能拿到视频?训练模型时,端到端训练一个模型的迭代速度是多少?如果增加更多 GPU,会如何加速这个时间线?如果你需要人工数据,人工数据的周转时间又是多少?把所有这些因素放在一起,这就是第一性原理思考:到底最短需要多少天,才有可能完成一件事?
Swyx:这很像马斯克的思维方式,对吧?
Ethan:在 xAI 工作的一个好处是,你有机会更多地和马斯克互动。我很幸运,得到过他几次转发,很有意思。他也会非常密切地和大家一起工作。就像很多人在网上想象的那样,他确实非常喜欢亲自下场。
Vibhu:视频模式的安全方面有什么有意思的事情可以讲吗?
Ethan:很多国家不允许没有水印的生成式 AI 视频。所以在这些国家,Grok Imagine 都会加水印,而且很多视频的下架也非常快。
Swyx:你怎么看 SynthID 和其他水印方式?
Ethan:检测这些东西会变得越来越难。有一个情况是,SynthID 之前主要只有 Google 在用,现在很多不同实验室也在采用它。但它有一个限制:这项技术的论文已经公开了,人们可以通过逆向工程研究如何去掉它。而且我认为,即便它继续进步,逆向工程仍然是可能的。
视觉模型的能力,依靠语言模型
Swyx:他有一个关于视频智能体的观点。
Ethan:其实我有一个很大的判断:视觉智能(visual intelligence)主要来自语言。现在这些视频模型,尤其是在扩散模型技术已经更加成熟之后,每次看到这些模型有所提升,我就会说,这些增益大多来自语言模型,而不是来自视频模型本身。
在 Cosmos 里通常可以看到这一点。这些模型通常有两个部分:一个是提示词重写器或者说提示词上采样器。我记得在 Cosmos 里,我们用的是 Llama,或者 Mixtral。Cosmos 视频模型本身只有 7B,而那个语言模型是提示词重写器,而且比视频模型更大。
提示词重写器的任务,是把用户指令转换成极其详细的视频描述。因为视频模型、视觉模型,或者说视频分布模型,我觉得它们有点“笨”,它们会非常字面地接受输入指令。训练过程中,记得我们在创建合成文本配对时,必须尽可能详细地描述视频。所以这些模型就是接收这类指令来生成视频。
但当你输入用户指令时,用户指令通常都很简单。比如只说“一只猫”。如果你把“一只猫”输入视频模型,它就会非常字面地理解。它真的会显示一只猫,可能是在白色背景里,因为你没有描述背景;这只猫也不会动,因为你没有描述它在动。它会非常字面地执行指令,所以有点笨。
提示词重写器实际上是一个更大的语言模型,它接收用户指令,并对其进行扩展,思考过程就来自这里。比如你看 GPT Image,生成一张图像可能需要三分钟,但这三分钟并不全是在生成像素,很多时间其实花在了思考和提示词重写上。
现在,提示词重写已经进一步演化了。它不只是思考,也可以变成一个智能体模型(agentic model)。比如你想生成一张关于今日新闻的图像,它很可能会先去网上抓取今天的新闻,然后处理、消化、组织版面,最后再生成图像。这是一个很有意思的方向。
Vibhu:如果我没搞错,这些已经不再是扩散模型了,对吧?
Ethan:有不同的路线。比如 Gemini Omni。既然它说自己是 Omni,我相信它可能是一个单一模型,也许是一个带扩散头(diffusion head)的语言模型。语言模型负责思考和智能体式工具调用,最后再用扩散头生成图像。也有 Cosmos 这样的路线,也就是单独的语言模型加单独的扩散模型。还有纯语言模型路线,比如把图像离散化,然后把图像作为离散 token 生成。
Vibhu:我看到有人说,这些方法很难做好的一个原因是,现在我们用语言模型学习推理时,很多收益来自它可以迭代生成推理。如果你有一个 Omni 模型加扩散头,它不能把输出重新喂回去继续推理。也就是说,它不能文本、图像、文本、图像这样来回推理;不能在输出上推理,然后再回到扩散。但在新的 Gemini Omni 里,只要有扩散,这件事可能就可以做到。
Ethan:我不确定他们有没有这个过程。但在 Omni 范式里,这肯定是可能的。你可以想想传统多模态语言模型,它们会有一个 ViT 编码器来编码图像。如果它们有扩散头,就可以生成图像,然后把图像重新放回 ViT 编码器里,编码之后,如果结果需要,就继续做迭代优化。
Swyx:我们知道 NanoBanana 和 GPT Image 是自回归语言模型加扩散头。从你对 Grok Image 的描述来看,它不是,它是端到端……
Ethan:我不能评论这个。
Swyx:我只是想确认,提示词写作器加图像模型,和自回归语言模型加扩散头,是不同的东西吧?
Ethan:它们是不同的。它们共同的部分在于图像部分。令人惊讶的是,很多提升来自思考和工具调用。我还记得在 Cosmos 里,我生成一只快乐的羊。如果没有任何重写,它看起来很像 CGI;但经过提示词重写之后,它看起来就非常漂亮。
Swyx:没有任何联合训练?
Ethan:其实没有任何联合训练。仅仅有重写,效果就已经好很多了。一个非常有意思的现象是,视频智能体大部分是语言模型,它会把这些生成模型,无论是独立模型、扩散头,还是其他形式,都作为工具来调用。所以,这个模型可以迭代地优化结果,甚至通过很长的思维链生成更长的内容。
这实际上非常像人类创作艺术。我们并不是直接生成像素,而是真的会先画一些东西。在这个过程中,这些模型不仅会把扩散模型当作工具,还会使用传统工具。它可以使用 Photoshop 的图像编辑工具,也可以使用视频编辑器、FFmpeg 等等,把传统工具和生成式 AI 技术组合成一整套工具,从而迭代地创造出更好、更接近生产级质量的视频。现有的专业创作者,他们不会止步于用模型生成一个视频,还会把这个视频带进编辑器里修改。
Swyx:在 Imagine API 博客里,他们列了所有速度数据,主要是蒸馏加推理的组合。
Ethan:这里有很多因素。我们刚才说了蒸馏。如果谈到思考,如果你没有任何思考预算,模型可能会思考三分钟之后再回来。另外,推理基础设施团队也非常有才,他们能把这些模型加速很多。
Vibhu:你提到,很多收益并不那么来自视频本身。我觉得在语言模型领域也能看到类似情况。
Anthropic 很擅长编码,但他们的多模态不是最强。其他实验室,比如 Gemini、OpenAI,可以增加模态,但这并不意味着它们就释放了非常夸张的新能力。
Ethan:有意思的是,视频模型能力的提升,实际上来自语言模型变得更智能。
我觉得视觉智能能解锁的东西,可能比你想象得更多。第一,大多数人其实并不擅长写提示词,语言模型反而更知道该怎么提示 AI 模型。AI 模型更懂 AI 模型。所以如果你联合训练这些模型,也许模型会更知道如何提示每个模型。不同模型可能需要不同的提示方式。
另一点是,它可能并不只是简单地生成几个片段,然后用 FFmpeg 拼起来。这个过程中可能会出现更多图像和视频编辑工具。比如,如果你想在某个时间戳精确添加一段文字,视频模型可能不能非常准确地理解这个意图。但这类事情可以用确定性工具完成。视频智能体可以使用各种工具,所以你不必把所有能力都塞进生成模型本身。
Vibhu:你有没有时间预测?这些东西什么时候会真正起飞?
Ethan:到今年年底,它会成为一个大爆点。拐点会出现在视频智能体生成的视频达到生产级质量(production grade quality)的时候,也就是可以展示、可以在广告中分发的时候。一旦发生这件事,我认为企业会为视频模型投入更多预算,因为智能体天然比视频模型本身更贵。它们要经历迭代过程,会生成很多变体。但一旦这些模型跨过可用性门槛,我认为后面会出现指数级增长。
Swyx:有一件事让我有点惊讶:你喜欢世界模型和视频生成,很大程度上是为了视频生成本身。我觉得很多其他做世界模型的人,比如我们采访的李飞飞相关的人等,会说机器人是终局。你似乎没那么关心这个。
Ethan:我觉得机器人肯定会是其中很大一部分。这个过程可能会自然发生。我对机器人的预测是,物理 AI 可能会被解决,而且不一定需要在真实世界里解决。它可能会被一个具备很强视频能力的 LLM 解决。
记得我们之前说过实时、交互式、长时程视频。现在这些模型主要是在屏幕录制和电脑屏幕上训练。一旦这些模型能够使用电脑,并且非常理解电脑的未来状态,机器人可能会成为非常强大的 AI 可以使用的工具之一。所以,一个强大的 AI 可能会自然地学会控制物理具身。
“切换职业方向比你想象得更容易”
Swyx:你还留下了一个更辛辣的话题:为什么离开 xAI?
Ethan: 对我来说,有很多研究是在公司里很难做的。而且一家公司的优先级和目标,通常变化得非常快。xAI 也是如此。所以现在对我来说,正好到了这样一个时间点:我有一些想做的研究,尤其是更多偏向语言模型方向,而这些是在 xAI 做不了的。
Vibhu: 你说接下来要关注 LLM,具体是什么意思?
Ethan: 我意识到,视频模型一开始的收益,可能确实来自扩散技术的提升。但现在已经到了一个阶段:大部分收益实际上来自语言模型本身。
我觉得有一件很有意思、也可能很快发生的事情是:语言模型会开始具备上下文感知能力,并且能够管理自己的上下文。
从视频模型这边看,我们一直被长时程问题困扰。我们想生成越来越长的视频,也一直在尝试通过各种方式解决上下文长度问题。一种方法是比较直接地暴力训练更长的上下文长度,另一种方法则是更好地管理上下文。我觉得,同样的事情很快也会发生在语言模型里。比如,语言模型其实并不知道自己的上下文长度到底还剩多少。一旦上下文长度达到 80%左右,自动上下文压缩就会被触发,但模型在工作时并不知道这件事。也许让模型知道“我正在接近 80%”会更好。
还有一些很有意思的做法。比如在 OpenClaw 里,每次你输入内容时,当前本地时间都会被自动附加到你的消息里,所以模型实际上知道现在是什么时间。这是在让模型具备时间感知能力。
另外,在工具调用里,很多中间工具调用结果会被自动裁剪。所以这里其实包含了上下文移除、上下文添加和上下文压缩。这些能力目前都来自框架本身。但根据我们的经验,启发式工程也会帮助模型逐渐把这些能力吸收到模型自身里。这是一个非常值得探索的方向。
Swyx: 我还有点好奇。你来自大型实验室,大型实验室里的研究员通常会有一条相对明确的职业路径:训练模型、获得更多算力,再训练更好的模型,然后继续往前推进。某种程度上,我觉得你现在是在选择跳出这条路径。如果我是你,我可能会认为这其中存在一定的职业风险。我想,很多处在你这个位置上的人,可能不会做出和你一样的选择。
Ethan: 说到我的职业经历,如果回头看,其实里面有很多次巨大的转变。十年前,我和 ResNet 的作者 Xiangyu Zhang、Jian Sun 一起做研究。那时候的研究方向和现在完全不同,主要是图像识别、目标检测和目标跟踪。当时我也在做神经网络压缩,它和现在的知识蒸馏也很不一样。
那时候,我原本想成为教授。申请 PhD 时,我已经有几篇顶会一作论文,所以很有信心地申请了顶尖学校。结果,所有顶尖博士项目都拒绝了我,所以我不得不进入工业界。当时我去了 Facebook AI Research,也就是 FAIR,那时由 Yann LeCun 领导。
后来,我转向了自监督学习。这个方向和我之前做的卷积相关研究非常不同。再后来,我做了 英伟达 Cosmos。那时我意识到,scaling up 模型极其重要。所以在 英伟达,我主要关注 scaling。一方面是 Cosmos,把视频分布模型扩展到几十亿参数规模;另一方面,我也在做 MoEs。Megatron MoEs 是第一个开源框架,能够在很大规模上高效训练这些 MoE 模型,从千亿参数到万亿参数,并且 MFU 可以达到百分之四十。
后来我转去 xAI,是为了进一步在更大的算力规模上工作。回看这条轨迹,我其实做过很多不同的事情。所以我觉得,在机器学习内部,切换方向比你想象得更容易。很多人可能会有一种心态:“我做计算机视觉,就必须一直做计算机视觉,不能转去做语言。”但从我的经验来看,至少在 英伟达,我同时做过语言模型 MoEs 和视频模型,事实并不是那样。
训练大型模型的很多核心原则,大体上是相通的。对我来说,我现在认为视频模型的瓶颈,其实在于语言部分和智能体部分。这也是为什么我想更多去做 LLM。一方面,这确实是一个挑战;但另一方面,我并不觉得这是一种巨大的跳跃。
原视频链接:





