写点什么

世界模型能实时玩了,蚂蚁灵波开源 LingBot-World-Fast

  • 2026-04-27
    北京
  • 本文字数:1040 字

    阅读完需:约 3 分钟

4 月 27 日,蚂蚁集团旗下全模态 AI 助手灵光 App 上线“体验世界模型”功能。用户上传一张图片,即可在手机端生成一个 60s 的 3D 世界,以第一人称视角进入其中,像玩游戏一样在 AI 实时生成的场景中漫游。无需本地部署,无需复杂配置,打开 App 即可体验。这是世界模型首次以移动端产品的形态,面向普通用户开放。

 

支撑这一体验的核心,是蚂蚁灵波科技开源的世界模型 LingBot-World-Fast。该模型在 480P 分辨率下可实现 16 fps 实时生成,端到端交互延迟控制在 1 秒以内,兼具通用性、长时序一致性与⾼动态场景表现能力。

 

LingBot-World-Fast 地址:https://github.com/robbyant/lingbot-world

LingBot-World 是一款基于视频生成的开源世界模拟器。主要提供以下功能:

  • 高保真度和多样化的环境:它在各种环境中保持高保真度和强大的动态效果,包括现实主义、科学背景、卡通风格等等。

  • 长期记忆与一致性:它能够做到以分钟为单位的视野,同时保持上下文的一致性,这也被称为长期记忆。

  • 实时交互与开放获取:该方案支持实时交互,在每秒生成 16 帧的情况下,延迟低于 1 秒。技术团队公开代码和模型,旨在缩小开源和闭源技术之间的差距。

除了面向普通用户的灵光 App 体验,开发者与研究者也可以基于开源的 LingBot-World-Fast 进行本地部署和二次开发。本地环境下,模型支持无缝的持续生成,用户可以通过键盘、鼠标实时操控视角与移动,也可以通过文本提示(Prompt)随时改变环境状态或触发局部事件,比如调整天气、切换画面风格等。

 

为了实现实时交互,蚂蚁灵波 LingBot-World-Fast 提出了专门的后训练优化方案,模型在生成过程中只聚焦新增画面内容,不再重复计算已稳定的部分,从而显著提升实时生成效率,同时尽可能确保画面质量、时序连贯性与场景一致性。

 

实时世界模型提供了一个可以进入、操作和即时响应的环境,每一次交互都能即时看到结果,而非等待离线渲染。对于具身智能研发而言,LingBot-World-Fast 可提供多样化的虚拟训练环境,帮助机器人在数字世界中进行场景理解、动作学习和任务演练。对于游戏开发和内容创作而言,它有望降低交互式内容原型制作门槛,提升从创意到体验的转化效率。

 

今年 1 月,蚂蚁灵波曾开源 LingBot-World-Base 版本,凭借高保真画质、10 分钟超长视频生成和出色的物理一致性,在世界模型方向上引发广泛关注。

 

目前,LingBot-World-Fast 模型与代码已在 Hugging Face 和 Model Scope 面向社区完整开放。普通用户可通过灵光 App 直接体验相关能力,开发者和研究者也可基于开源模型进行本地部署与进一步探索。