2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

李飞飞的创业公司放大招:只要一个 H100 就能跑世界模型

  • 2025-10-17
    北京
  • 本文字数:2120 字

    阅读完需:约 7 分钟

大小:1.00M时长:05:51
李飞飞的创业公司放大招:只要一个H100就能跑世界模型

“AI 教母”李飞飞的创业公司,刚刚放出了一个大招。


World Labs 在 X 上隆重介绍了一个新鲜的高效世界模型:RTFM(Real-Time Frame Model,实时帧模型)


有多高效?——只要一个 H100 GPU,即可一边和用户交互,一边实时渲染出 3D 世界。



要知道,现在世界模型的一大挑战,就是对算力的需求很高。据 World Labs 介绍,生成式世界模型的计算需求,远超如今的大语言模型。


也就是说,李飞飞团队的这个新成果,把世界模型的对 H100 的需求锐减了好几个量级,显著降低了硬件成本和部署难度。


而且据 World Labs 介绍,虽然 RTFM 背后的算力大幅减少,但其渲染效果依旧不俗,构建的 3D 世界可达到持久一致,所有场景将永久留存。该系统构建的持久化 3D 世界不会因视角转换而消失。



RTFM 可以处理各种场景类型、视觉风格和效果,包括反射、光滑表面、阴影和镜头眩光;



此外,该架构具备随数据量与算力增长而持续扩展的能力。它通过端到端的通用架构从海量视频数据中自主学习,无需依赖显式 3D 表征即可构建三维世界模型。


RTFM:突破世界模型的算力限制


世界模型,是 AI 根据自己与环境的交互建立的预测模型,它不需要人工创建完整的虚拟世界,而是通过与环境的互动,推测和构建出一个虚拟世界的“内部地图”。


那么,与仿真和一般的视频生成模型相比,世界模型有什么不同和优势?


世界模型与仿真和视频生成模型的主要区别在于,前者是通过 AI 与环境的互动自动学习和构建的,它不需要人工创建完整的虚拟世界,而是根据交互推测出环境的规律和变化。


与仿真不同,仿真依赖于人工设计的虚拟环境和规则,而世界模型具备自主学习和适应能力。


相比视频生成模型,世界模型不仅生成图像或视频,还能够理解和预测环境的动态,支持智能体做出决策。


简而言之,世界模型能更真实地反映动态变化,并为 Agent 提供决策支持;而仿真和视频生成模型更多是静态的或单向生成的内容。


世界模型如果发展成熟,能够深刻改变从媒体到机器人等各个行业,因为它能够实时生成“持久、交互、精准”的模拟世界,进一步推进 AI 在现实世界产生实际作用。


然而,据 World Labs 介绍,生成式世界模型的计算需求非常高,远超如今的大语言模型。


他们了打个比喻,以 60fps 的速度生成交互式 4K 视频流需要每秒生成超过 10 万个 token(大约相当于第一部《哈利·波特》的长度),那让这些 token 持续生成一小时或更长时间,需要关注超过 1 亿个 token 的上下文。


再举个例子,OpenAI 的 Sora 还不算完整的世界模型,只是具备一定的世界建模能力。而据 Factorial 基金会估计,OpenAI 的 Sora 在峰值运行时,需要 72 万块 H100 GPU


这些也让李飞飞的 World Labs 开始思考:生成式世界模型是否受到当今硬件限制的阻碍?或者,目前是否有办法预览这项技术?


指出,AI 领域有个教训:就是过去很多研究者试图把人类的知识和经验直接嵌入到 AI 系统中,虽然这种方法在短期内有效,但从长远来看,它会阻碍进步。


而随着计算能力的提升,像搜索学习这样的技术可以变得越来越强大,越来越好,反而是最有前景的方法。


也就是说,从长远来看,人类知识的嵌入并不是一个很好的解决办法,计算能力的扩展和智能的自主学习,才是推动 AI 进步的真正动力。


仅靠一个 H100 跑世界模型,怎么做到的?


据 World Labs 官方博客,RTFM 能够仅依靠一个 H100 GPU 进行高效的实时推理,主要得益于其高效的神经网络架构、创新的自回归扩散 Transformer、空间记忆技术和上下文切换机制


这些设计使得 RTFM 能够减少计算资源的消耗,并实现大规模 3D 世界的持久建模,确保其可以在单一硬件上长期运行。


首先,研发团队对 RTFM 在推理过程中的各个环节进行了精细优化,他们运用了架构设计、模型提炼和推理优化方面的最新进展,以保证模型在硬件上能够高效运行。


为了同时确保它生成的世界模型质量够高,RTFM 需要依赖优化的神经网络架构和推理技术,保证它在计算资源有限的情况下仍能提供高质量的输出;这些技术能让它在计算资源有限的情况下仍然提供好的表现。


至于自回归扩散 Transformer(Autoregressive Diffusion Transformer),是近年来新兴的神经网络架构之一,它在视频生成和时间序列预测方面表现优异。使用这种先进架构,能够有效优化模型的计算效率,并生成高质量的帧,支持实时推理。


另外,RTFM 采用空间记忆机制,通过为每一帧建模其在三维空间中的姿态,能够在保持高效的同时,在大场景中保留住几何结构,实现真正意义上的世界持久性;还采用了上下文切换机制,优化了计算资源的使用,提高了模型的效率。


总而言之,RTFM 只需要一个 H100 GPU 就能运行世界模型,主要得益于以下几个方面:

  • 高效的架构设计,确保模型在单个 GPU 上运行并维持交互帧率和世界持久性。

  • 使用自回归扩散变换器进行帧序列预测,优化了推理过程。

  • 空间记忆和上下文切换技术,使得模型能够从历史帧中检索数据,避免重复计算。

  • 采用端到端学习的方法,减少对复杂 3D 建模的需求,从而降低计算负担。

  • 可扩展性设计,使得模型能够在计算资源提升时有效扩展其功能。


参考链接:

https://www.worldlabs.ai/blog/rtfm

https://x.com/theworldlabs/status/1978839175320186988https://x.com/drfeifei/status/1978840835341914164

https://analyticsindiamag.com/ai-news-updates/openais-sora-takes-about-12-minutes-to-generate-1-minute-video-on-nvidia-h100/

2025-10-17 19:518035

评论

发布
暂无评论

DDL 毫秒级同步,Light Schema Change 的设计与实现|新版本揭秘

SelectDB

数据库 大数据 Doris schema 企业号十月 PK 榜

TiDB 的 graceful shutdown

TiDB 社区干货传送门

DevOps工具链的国产化之道

嘉为蓝鲸

DevOps 运维 IT

一文了解 DataLeap 中的 Notebook

字节跳动数据平台

大数据 火山引擎 DataLeap

案例故事丨MySQL or TiDB?HTAP 数据库在中国 SaaS 行业头部服务商的应用实践

TiDB 社区干货传送门

Centos7 gcc4.8.5升级到版本gcc5.4.0

A-刘晨阳

Linux 运维 11月月更 gcc5.4

带你了解NLP的词嵌入

华为云开发者联盟

人工智能 自然语言处理 华为云 企业号十月 PK 榜

API 网关 Apache APISIX 3.0 版本正式发布!

API7.ai 技术团队

Apache 开源 APISIX 新版本/特性发布

保定有几家等保测评机构?咨询电话多少?

行云管家

等保测评 等级测评 等保测评机构 保定

如何使用清源 CleanSource SCA 管理开源风险

安势信息

SCA SBOM 清源CleanSource SCA 开源风险

双机热备软件哪家好?有哪些功能?咨询电话多少?

行云管家

高可用 热备 双机热备

Linux中gcc4.8.5升级到gcc5.4.0用已经编译好的安装包升级(重点是不用编译安装,可以更省时)

A-刘晨阳

Linux 运维 GCC 11月月更 gcc5.4

焱融全闪系列科普|固态存储核心技术 SSD

焱融科技

云计算 分布式 高性能 文件存储 全闪存储

即时通讯技术文集(第5期):零基础通信技术入门 [共15篇]

JackJiang

即时通信

Java Web(三)HTML和CSS

浅辄

Java web HTML5, CSS3 11月月更

经验分享|用 Flutter 如何开发一个可运行小程序的 App

FinClip

从“一云多芯”支持,看多元算力的全栈云方案

华为云开发者联盟

云计算 华为云 企业号十月 PK 榜 多元算力

TiKV 源码阅读三部曲(二)读流程

TiDB 社区干货传送门

TiDB 2022 Hackathon 产品组决赛“不负责任”点评

TiDB 社区干货传送门

集合管道模式(上)

冰心的小屋

集成管道模式 pipline

开源共建携手并进 OpenHarmony使能千行百业生态成果亮相HDC2022

OpenHarmony开发者

OpenHarmony

PingCAP 携手阿里云,探索 TiDB 云原生的进阶之路

TiDB 社区干货传送门

久等了,青年技术沙龙北京发车!

小红书技术REDtech

盒马 iOS Live Activity &“灵动岛”配送场景实践

阿里巴巴终端技术

ios 灵动岛

备战双11,送你一份解压壁纸!

OceanBase 数据库

HDC 2022重磅首发《鸿蒙生态应用开发白皮书》,附全文

HarmonyOS开发者

HarmonyOS

EMR with TiSpark(on EKS )

TiDB 社区干货传送门

峰会实录 | 镜舟科技CEO孙文现:基于StarRocks打造企业级极速统一数据分析产品

StarRocks

数据库·

WeOps赋能制造业数字化,助力坚美铝业IT高效管理

嘉为蓝鲸

DevOps 运维 AIOPS weops 嘉为蓝鲸

震惊,改密码这件小事竟然让他差点累到吐血...

嘉为蓝鲸

运维 IT #WeOps

号称Java圣经!Github上爆火的1058页JVM全栈小册到底有什么魅力

Java全栈架构师

程序人生 JVM 架构师 java面试 jvm调优

李飞飞的创业公司放大招:只要一个H100就能跑世界模型_生成式 AI_木子_InfoQ精选文章