把握行业变革关键节点,12 月 19 日 - 20 日,AICon北京站即将重磅启幕! 了解详情
写点什么

李飞飞的创业公司放大招:只要一个 H100 就能跑世界模型

  • 2025-10-17
    北京
  • 本文字数:2120 字

    阅读完需:约 7 分钟

大小:1.00M时长:05:51
李飞飞的创业公司放大招:只要一个H100就能跑世界模型

“AI 教母”李飞飞的创业公司,刚刚放出了一个大招。


World Labs 在 X 上隆重介绍了一个新鲜的高效世界模型:RTFM(Real-Time Frame Model,实时帧模型)


有多高效?——只要一个 H100 GPU,即可一边和用户交互,一边实时渲染出 3D 世界。



要知道,现在世界模型的一大挑战,就是对算力的需求很高。据 World Labs 介绍,生成式世界模型的计算需求,远超如今的大语言模型。


也就是说,李飞飞团队的这个新成果,把世界模型的对 H100 的需求锐减了好几个量级,显著降低了硬件成本和部署难度。


而且据 World Labs 介绍,虽然 RTFM 背后的算力大幅减少,但其渲染效果依旧不俗,构建的 3D 世界可达到持久一致,所有场景将永久留存。该系统构建的持久化 3D 世界不会因视角转换而消失。



RTFM 可以处理各种场景类型、视觉风格和效果,包括反射、光滑表面、阴影和镜头眩光;



此外,该架构具备随数据量与算力增长而持续扩展的能力。它通过端到端的通用架构从海量视频数据中自主学习,无需依赖显式 3D 表征即可构建三维世界模型。


RTFM:突破世界模型的算力限制


世界模型,是 AI 根据自己与环境的交互建立的预测模型,它不需要人工创建完整的虚拟世界,而是通过与环境的互动,推测和构建出一个虚拟世界的“内部地图”。


那么,与仿真和一般的视频生成模型相比,世界模型有什么不同和优势?


世界模型与仿真和视频生成模型的主要区别在于,前者是通过 AI 与环境的互动自动学习和构建的,它不需要人工创建完整的虚拟世界,而是根据交互推测出环境的规律和变化。


与仿真不同,仿真依赖于人工设计的虚拟环境和规则,而世界模型具备自主学习和适应能力。


相比视频生成模型,世界模型不仅生成图像或视频,还能够理解和预测环境的动态,支持智能体做出决策。


简而言之,世界模型能更真实地反映动态变化,并为 Agent 提供决策支持;而仿真和视频生成模型更多是静态的或单向生成的内容。


世界模型如果发展成熟,能够深刻改变从媒体到机器人等各个行业,因为它能够实时生成“持久、交互、精准”的模拟世界,进一步推进 AI 在现实世界产生实际作用。


然而,据 World Labs 介绍,生成式世界模型的计算需求非常高,远超如今的大语言模型。


他们了打个比喻,以 60fps 的速度生成交互式 4K 视频流需要每秒生成超过 10 万个 token(大约相当于第一部《哈利·波特》的长度),那让这些 token 持续生成一小时或更长时间,需要关注超过 1 亿个 token 的上下文。


再举个例子,OpenAI 的 Sora 还不算完整的世界模型,只是具备一定的世界建模能力。而据 Factorial 基金会估计,OpenAI 的 Sora 在峰值运行时,需要 72 万块 H100 GPU


这些也让李飞飞的 World Labs 开始思考:生成式世界模型是否受到当今硬件限制的阻碍?或者,目前是否有办法预览这项技术?


指出,AI 领域有个教训:就是过去很多研究者试图把人类的知识和经验直接嵌入到 AI 系统中,虽然这种方法在短期内有效,但从长远来看,它会阻碍进步。


而随着计算能力的提升,像搜索学习这样的技术可以变得越来越强大,越来越好,反而是最有前景的方法。


也就是说,从长远来看,人类知识的嵌入并不是一个很好的解决办法,计算能力的扩展和智能的自主学习,才是推动 AI 进步的真正动力。


仅靠一个 H100 跑世界模型,怎么做到的?


据 World Labs 官方博客,RTFM 能够仅依靠一个 H100 GPU 进行高效的实时推理,主要得益于其高效的神经网络架构、创新的自回归扩散 Transformer、空间记忆技术和上下文切换机制


这些设计使得 RTFM 能够减少计算资源的消耗,并实现大规模 3D 世界的持久建模,确保其可以在单一硬件上长期运行。


首先,研发团队对 RTFM 在推理过程中的各个环节进行了精细优化,他们运用了架构设计、模型提炼和推理优化方面的最新进展,以保证模型在硬件上能够高效运行。


为了同时确保它生成的世界模型质量够高,RTFM 需要依赖优化的神经网络架构和推理技术,保证它在计算资源有限的情况下仍能提供高质量的输出;这些技术能让它在计算资源有限的情况下仍然提供好的表现。


至于自回归扩散 Transformer(Autoregressive Diffusion Transformer),是近年来新兴的神经网络架构之一,它在视频生成和时间序列预测方面表现优异。使用这种先进架构,能够有效优化模型的计算效率,并生成高质量的帧,支持实时推理。


另外,RTFM 采用空间记忆机制,通过为每一帧建模其在三维空间中的姿态,能够在保持高效的同时,在大场景中保留住几何结构,实现真正意义上的世界持久性;还采用了上下文切换机制,优化了计算资源的使用,提高了模型的效率。


总而言之,RTFM 只需要一个 H100 GPU 就能运行世界模型,主要得益于以下几个方面:

  • 高效的架构设计,确保模型在单个 GPU 上运行并维持交互帧率和世界持久性。

  • 使用自回归扩散变换器进行帧序列预测,优化了推理过程。

  • 空间记忆和上下文切换技术,使得模型能够从历史帧中检索数据,避免重复计算。

  • 采用端到端学习的方法,减少对复杂 3D 建模的需求,从而降低计算负担。

  • 可扩展性设计,使得模型能够在计算资源提升时有效扩展其功能。


参考链接:

https://www.worldlabs.ai/blog/rtfm

https://x.com/theworldlabs/status/1978839175320186988https://x.com/drfeifei/status/1978840835341914164

https://analyticsindiamag.com/ai-news-updates/openais-sora-takes-about-12-minutes-to-generate-1-minute-video-on-nvidia-h100/

2025-10-17 19:518333
用户头像

发布了 28 篇内容, 共 16.3 次阅读, 收获喜欢 15 次。

关注

评论

发布
暂无评论

在这里,每一行代码都需要被认真对待

DT极客

C 语言性能优化:循环展开

1

编程 程序员 性能优化 C语言 循环展开

揭秘盒马鲜生,如何打破收益增长天花板!

博文视点Broadview

启动延时缩短 50%-80%,函数计算发布镜像加速功能

阿里巴巴云原生

Docker 容器 开发者 云原生 存储

【疑难杂症】关于Github私有库问题

Sher10ck

GitHub pycharm

【遇见Doris】基于Apache Doris的小米增长分析平台实践

ApacheDoris

问题排查 | 客户端突如其来的“白屏”等待

蚂蚁集团移动开发平台 mPaaS

html5 移动开发 mPaaS 离线包

实时 摔倒识别 /运动分析/打架等异常行为识别/控制手势识别等所有行为识别全家桶 原理 + 代码 + 数据+ 模型 开源!

cv君

AI 目标检测 视频理解 引航计划

2021年ONNX开发者大会即将召开

百度大脑

百度飞桨 ONNX

数据分析实战项目-蛋壳公寓投诉分析

诡途

Python 数据分析 蛋壳公寓

Flink架构体系

大数据技术指南

大数据 flink 28天写作 3月日更

最全模型效果评估报告上线,百度EasyDL助力模型效果快速优化

百度大脑

飞桨 EasyDL

致远互联低代码平台让项目管理“秒变”数字化

爱极客侠

安卓最全面试考点与面试技巧,大厂直通车!

欢喜学安卓

android 程序员 面试 移动开发

一气之下开发了个群聊机器人

诡途

Python 办公自动化 群聊机器人

数据产品经理实战-由BI到业务洞察

第519区

大数据 数据产品 数据分析体系

飞桨中国行首站重庆 解读产业 智造

百度大脑

百度 飞桨 中关村智酷

飞桨刷新分子性质预测榜单,助力AI药物研发

百度大脑

AI 药物研发 百度飞桨

加入即可服务1.83亿个家!海尔智家让开发者面向亿万家庭

DT极客

智能家居操作系统谁最强?海尔智家独有“智家大脑”行业最领先

DT极客

首席AI架构师进阶之旅开启!第4期60位AICA学员硬核开学

百度大脑

AI 百度飞桨

最全面试考点与面试技巧,面试必问

欢喜学安卓

android 程序员 面试 移动开发

入选Gartner全球AI报告,阿里云解读AI工程化的三大基础能力

阿里云大数据AI技术

机器学习 AI Gartner

如何优化管理,打造高效的技术团队?

有只小耳朵

团队管理 技术管理 数字化转型

一套亿级用户的IM架构技术干货(下篇):可靠性、有序性、弱网优化等

JackJiang

python 爬虫之selenium可视化爬虫

诡途

Python 爬虫 selenium

寻找被遗忘的勇气(二十二)

Changing Lin

3月日更

手把手教学基于深度学习的遥感影像倾斜框算法训练与分析

cv君

人工智能 深度学习 AI 智能 视觉

Spark常见的故障排除

五分钟学大数据

大数据 spark 28天写作 3月日更

【活动回顾】5G时代的直播,将带来哪些低延迟体验

ZEGO即构

Fluid 0.5 版本发布:开启数据集缓存在线弹性扩缩容之路

阿里巴巴云原生

容器 云原生 k8s 分布式数据库 调度

李飞飞的创业公司放大招:只要一个H100就能跑世界模型_生成式 AI_木子_InfoQ精选文章