10 月 23 - 25 日,QCon 上海站即将召开,现在大会已开始正式报名,可以享受 8 折优惠 了解详情
写点什么

DeepMind 推出 Genie 3,一款文本到 3D 的交互式世界模型

作者:Daniel Dominguez

  • 2025-08-19
    北京
  • 本文字数:906 字

    阅读完需:约 3 分钟

大小:440.69K时长:02:30
DeepMind推出Genie 3,一款文本到3D的交互式世界模型

DeepMind 推出了Genie 3,这是其世界模型框架的最新版本,用于直接从文本提示生成交互式 3D 环境。该系统在 720p 分辨率下以大约每秒 24 帧的速度实时渲染场景,允许连续导航和交互数分钟而无需重置场景。与早期版本相比,它的核心改进之一是对象持久性:对环境所做的任何更改,如移动、删除或更改对象,都会随着时间的推移保持持久性。该模型还保持了一致的物理特性,无需使用单独的内存模块,而是依赖于学习到的世界动态。

 

Genie 3将这些工具的各个方面整合到一个单一的生成管道中。它既可以作为一个从自然语言产生独特环境的内容创建系统,也可以作为一个测试自主代理的仿真平台。该模型可以完全从文本中创建各种设置,如室内工业布局、室外自然地形或复杂的障碍路线。这种灵活性使其适合于训练场景的快速原型设计,特别是在机器人和具身智能领域,多样化和动态的世界对开发可泛化的技能至关重要。

 

该方法将 Genie 3 与其他生成式 AI 系统区别开来。例如,OpenAI 的Sora可以从文本描述中产生高度逼真的视频,但仅限于固定长度的剪辑,不支持实时交互。Meta 的Habitat专注于具身智能研究,为智能体提供高保真的 3D 空间,用于导航和操纵任务。然而,Habitat 需要预定义的场景和资产,而不是从提示中程序化地生成它们。NVIDIA 的Isaac Sim提供了先进的机器人仿真功能,具有详细的传感器建模和物理特性,但同样依赖于手动构建或导入的环境。基于《我的世界》(Minecraft)构建的MineDojo允许 AI 智能体在程序生成的世界中操作,但其机制和基于方块的视觉效果限制了现实感和物理准确性。

 

Reddit 用户在r/singularity 上分享了一些关于 Genie 3 的看法,其中一位用户评论道:

 

想象一下,过去几年你一直与世隔绝,然后突然看到了这个。这简直就像科幻小说里的情节,像是《星际迷航》里的东西。

 

而另一位用户评论道:

 

现在把这个接入虚拟现实(VR),基本上就是元宇宙了。

 

虽然传统的模拟引擎如Unreal EngineUnity等也支持自定义环境,但它们通常需要资源库和手动场景组装。Genie 3 则通过按需生成环境绕过了这一步骤,不过与专用游戏引擎相比,其当前的局限性包括运行持续时间和环境复杂性。

 

原文链接:

https://www.infoq.com/news/2025/08/deepmind-genie-virtual/

2025-08-19 12:004084

评论

发布
暂无评论

从oracle到mysql模型转换的自动化实现

鲸品堂

语言 & 开发

K8s 有损发布问题探究

阿里巴巴云原生

阿里云 Kubernetes 云原生

【C语言】continue 关键字

謓泽

Wallys|industrial wifi6 router/ Qualcomm IPQ8072A 4T4R support QCN9074/QCN6024 MOUDLE OPENWRT 802.11AX 10GE port 10G SFP

Cindy-wallys

AntDB数据库与DSG强强联手,助力通信行业核心系统国产化

亚信AntDB数据库

aisware antdb AntDB数据库

Web3开发者指南,比较好用的 NFT API 服务推荐!

NFT Research

区块链 数据分析 NFT

Webpack中的plugin插件机制

Geek_02d948

webpack

Wallys Routerboard DR40x9 IPQ4019 IPQ4029 ,802.11AC 2x2 2.4G&5G Support HTTPS Support all the modules of Quectel

Cindy-wallys

阿里P8面试官总结的《2022java技术总结》,解决90%以上的技术面

程序知音

Java 程序员 后端技术 Java面试题 Java面试八股文

Webpack中的高级特性

Geek_02d948

webpack

详解webpack构建优化

Geek_02d948

webpack

用 nodejs 搭建脚手架

coder2028

node.js

一步步带你设计MySQL索引数据结构

程序知音

Java MySQL 数据库 编程 后端技术

一个更快的YOLOv5问世,附送全面中文解析教程

OneFlow

人工智能 深度学习 训练数据

分布式任务批处理技术选型与实践

苏格拉格拉

分布式 批处理 分布式任务 数据分片 任务调度

什么是代理服务器?它有哪些分类?

wljslmz

服务器 网络技术 11月月更 代理服务器

手写vue-router核心原理

hellocoder2029

JavaScript

细说Js中的this

hellocoder2029

JavaScript

细说JavaScript闭包

hellocoder2029

JavaScript

阿里云张建锋:核心云产品全面 Serverless 化

阿里巴巴云原生

阿里云 Serverless 云原生

细说nodejs的path模块

coder2028

node.js

U-App移动统计算力升级!支持跨应用、多事件的打包计算

ABCNet:端到端的可训练框架的原理应用及优势对比

合合技术团队

人工智能 模型 端口 图片识别 文本识别

技术新风口:超级App

FinFish

数字化转型 数字化 技术趋势 Gartner预测

源码级深度理解 Java SPI

vivo互联网技术

Java Spring Boot dubbo spi

理解Nodejs中的进程间通信

coder2028

node.js

分层架构最容易范的最昂贵错误

风铃架构日知录

分层架构 #java 服务层 封装业务逻辑

低代码平台适用于大中型企业吗?

力软低代码开发平台

从软件工程角度看测试

老张

软件工程 质量保障

解决前端恶意代码侵入的一些思考

FinFish

小程序 安全 安全架构 小程序容器 前端安全

Koordinator 1.0 正式发布:业界首个生产可用、面向规模场景的开源混部系统

阿里巴巴云原生

阿里云 云原生 Koordinator

DeepMind推出Genie 3,一款文本到3D的交互式世界模型_生成式 AI_InfoQ精选文章