写点什么

OpenAI Sora 的关键成分:时空补丁解析

  • 2024-02-23
    北京
  • 本文字数:2556 字

    阅读完需:约 8 分钟

大小:1.19M时长:06:55
OpenAI Sora 的关键成分:时空补丁解析


人工智能工具如何将一张静态图像转化为一段动态、逼真的视频?OpenAI 的 Sora 通过时空补丁的创新使用给出了答案。

 

在快速发展的生成式 AI 模型领域,OpenAI 的 Sora 已经成为了一座重要的里程碑,有望重塑我们对视频生成的理解和能力。我们揭示了 Sora 背后的技术及其激发新一代图像、视频和 3D 内容创建模型的潜力。



这个演示是由 OpenAI 使用以下文本提示生成的:

一只猫叫醒熟睡的主人,要求吃早餐。主人试图忽视这只猫,但猫尝试了新的策略,最后主人从枕头下拿出秘密藏匿的零食,让猫再呆一会儿。


随着 Sora 的诞生,我们在视频内容生成方面已经迈入了与现实几乎无法区分的境界。由于该模型正在测试,它尚未向公众完整发布。

Sora 的独特方法如何改变视频生成技术

在生成式模型的世界中,我们业已看到了从 GAN 到自回归和扩散模型的许多方法,它们都有自己的优点和局限性。Sora 现在引入了一种范式转变,采用了新的建模技术并提升了灵活性,可以处理更长的持续时间、更多的宽高比和分辨率参数。

 

Sora 将 Diffusion 和 Transformer 架构结合在一起创建了一个 Diffusion Transformer 模型,并能够提供以下功能:

 

  • 文本到视频:正如我们所见

  • 图像到视频:为静态图像带来生命

  • 视频到视频:将视频转换为其他风格

  • 实时延长视频:向前和向后

  • 创建无缝循环:让循环视频看起来永无止境

  • 图像生成:静止图像是浓缩在一帧中的影片(最大 2048 x 2048)

  • 生成任何格式的视频:从 1920 x 1080 到 1080 x 1920 以及之间的所有格式

  • 模拟虚拟世界:如《我的世界》和其他视频游戏

  • 创建一段视频:长度不超过 1 分钟,包含多个短片

 

想象一个厨房场景。传统的视频生成模型(例如 Pika 和 RunwayML 中的模型)就像严格遵循菜谱做菜的厨师。他们可以制作出精美的菜肴(视频),但受到他们所知道的食谱(算法)的限制。厨师可能专注于使用特定成分(数据格式)和技术(模型架构)烘焙蛋糕(短片)或烹饪面食(特定类型的视频)。

 

相比之下,Sora 是一位了解风味基础知识的新型厨师。这位厨师不仅可以按已有的菜谱做菜,还能发明新的菜谱。Sora 的原料(数据)和技术(模型架构)的灵活性使它能够制作各种高质量的视频,就像多才多艺的大厨的烹饪作品一样。

Sora 秘方的核心:探索时空补丁

时空补丁是 Sora 创新的核心,建立在 Google DeepMind 对 NaViT 和 ViT(视觉 Transformer)的早期研究基础上,该研究基于 2021 年的论文《An Image is Worth 16x16 Words》。



“Vanilla”视觉 Transformer 架构 — 来源:Dosovitskiy et al., 2021

 

传统上,对于视觉 Transformer,我们使用一系列图像“补丁”(而不是用于语言 Transformer 的单词)来训练用于图像识别的 Transformer 模型。这些补丁使我们能够摆脱卷积神经网络来处理图像。

 


帧/图像如何“补丁化” — 来源:Dehghani et al., 2023

 

然而,视觉 Transformer 受到了大小和长宽比固定的图像训练数据的限制,从而限制了质量水平并且需要大量的图像预处理工作。

 


视频时态数据切片的可视化 — 来源:kitasenjudesign

 

Sora 将视频视为很多补丁序列,这样就保持了原始的宽高比和分辨率,和 NaViT 对图像的处理机制很像。这种保存方法非常重要,使模型能够捕捉视觉数据的真正本质,从更准确的世界表示中学习,从而赋予 Sora 近乎神奇的准确性。

 


时空补丁(处理)的可视化 — 来源:OpenAI(Sora)

 

该方法使 Sora 能够有效地处理各种视觉数据,而无需调整大小或填充等预处理步骤。这种灵活性确保每条数据都能够帮助模型加深理解,就像厨师使用各种原料来提升菜肴的风味一样。

 

通过时空补丁对视频数据进行详细而灵活的处理,为精确的物理模拟和 3D 一致性等复杂功能奠定了基础。有了这些至关重要的功能后,我们就可以创建不仅看起来逼真,而且符合世界物理规则的视频,让我们一睹人工智能创建复杂、动态视觉内容的潜力。

喂养 Sora:多样化数据在训练中的作用

训练数据的质量和多样性对于生成模型的性能而言是非常重要的。现有的视频模型传统上是基于更严格的数据集、更短的长度和更窄的目标来训练的。

 

Sora 使用的是庞大且多样化的数据集,其中包括了不同时长、分辨率和宽高比的视频和图像。它能够重建像《我的世界》这样的数字世界,它的训练集中可能还包括来自虚幻或 Unity 等系统的游戏玩法和模拟世界画面,以便捕捉所有角度和各种风格的视频内容。这样 Sora 就迈入了“通用”模型的境界,就像文本领域的 GPT-4 一样。

 

这种涉猎广泛的训练方法使 Sora 能够理解复杂的动态并生成多样化且高质量的内容。该方法模仿大型语言模型在不同文本数据上的训练方式,将类似的原理应用于视觉内容以实现通用能力。



可变“补丁”,NaVit 与传统视觉 Transformers 的对比,来源:Dehghani et al., 2023

 

正如 NaViT 模型将不同图像的多个补丁打包到单个序列中的方法展示了显著的训练效率和性能增益一样,Sora 利用时空补丁在视频生成中实现了类似的效率。这种方法可以更有效地从海量数据集中学习,提高模型生成高保真视频的能力,同时其所需的计算量与现有建模架构相比也减少了。

将物理世界带入生活:Sora 对 3D 和连续性的把握

3D 空间和物体持久性是 Sora 演示中的关键亮点之一。通过对各种视频数据进行训练,无需调整或预处理视频,Sora 学会了以令人印象深刻的精度对物理世界建模,因为它能够使用原始形式的训练数据。

 

它可以生成数字世界和视频,其中对象和角色在三维空间中令人信服地移动和交互,即使它们被遮挡或离开镜头也能保持连贯性。

展望未来:Sora 的未来影响

Sora 为生成式模型的潜能设立了新的标准。这种方法很可能会激发开源社区尝试和推进视觉模式的能力,推动新一代生成式模型的发展,突破创造力和现实主义的界限。

 

Sora 的旅程才刚刚开始,正如 OpenAI 所说,“扩展视频生成模型是构建物理世界通用模拟器的一条有希望的道路”。

 

Sora 的方法将最新的人工智能研究与实际应用相结合,预示着生成式模型的光明未来。随着这些技术的不断发展,它们有望重新定义我们与数字内容的交互方式,使高保真、动态视频的创建变得更加容易和多样化。

 

原文链接:https://towardsdatascience.com/explaining-openai-soras-spacetime-patches-the-key-ingredient-e14e0703ec5b


InfoQ AIGC 学习交流群成立,一起探索 AI、大模型的无限可能。



群内福利:

  • AIGC 最新资讯和技术分享

  • 专属福利和奖品

2024-02-23 15:207762

评论

发布
暂无评论
发现更多内容

Excel 进阶|只会 Excel 也能轻松搭建指标应用啦

Kyligence

数据分析 Excel数据分析 指标平台

澜舟科技周明:进入AI 2.0不代表一定要抛弃1.0的技术

澜舟孟子开源社区

AIGC 澜舟科技 ChatGPT

聚焦云原生 | MIAOYUN入选开源GitOps产业联盟生态图景2.0

MIAOYUN

云计算 开源 云原生 开源社区 开源生态

常见的项目管理问题如何应对?| 得物技术

得物技术

“易+”开源 | 基于 ijkplayer 的 LLS-Player 移动端应用实践

网易智企

开源 实时音视频 低延时直播

智慧公厕系统:提高管理效率与用户体验的创新解决方案

光明源智慧厕所

智慧城市 智慧物业 智慧屏 智慧机场

欢迎大家来到不可思议又有趣的SQL世界

图灵教育

sql 数据库、 SQL sever

前端培训怎么学习好?

小谷哥

直播回顾 | 点击率提升400%,Ta是怎么做到的?

HarmonyOS SDK

HMS Core

如何轻松应对偶发异常

阿里巴巴云原生

阿里云 微服务 云原生

风云变幻,尽收眼底!天翼云为气象信息化发展注智赋能

天翼云开发者社区

私有化部署chatGPT,告别网络困扰

南城FE

人工智能 前端 ChatGPT

“易+”开源 | 基于 ijkplayer 的 LLS-Player 移动端应用实践

网易云信

开源 实时音视频 低延时直播

智能、高效、便捷问题定位利器 —— 应用诊断分析平台 ATP 上线

OpenAnolis小助手

内存泄露 龙蜥社区 应用诊断 ATP 异常行为

【4月1日 上海站】融云社交泛娱乐出海赋能会,干货、礼品在等你!

融云 RongCloud

互联网 融云 泛娱乐 出海 通讯

五分钟!获得轻量级的云原生应用控制平面

阿里巴巴云原生

阿里云 开源 云原生 KubeVela

无线WiFi信号强度统计:WiFi Signal Strength Explorer 激活版

真大的脸盆

Mac wifi Mac 软件 无线管理 WiFi统计

最新版本 Stable Diffusion 开源 AI 绘画工具之汉化篇

江户川码农

本地化 汉化教程 AI绘画 Stable Diffusion Chinese

超越 ChatGPT,GPT-4 将成为下一个“顶流”?

Zilliz

ChatGPT

智慧公厕:现代科技与城市卫生的完美结合

光明源智慧厕所

智慧城市 智慧物业 智慧机场

共铸国云智领未来| “云游”华夏?山西美景正当时!

天翼云开发者社区

小白线下学习前端培训怎么样

小谷哥

HPC调度基础:slurm集群的部署

天翼云开发者社区

CloudQuery 社区版重启 | 我们做了哪些准备?

BinTools图尔兹

数据库 社区版 数据库管理系统

设计原则 — I 接口隔离原则

Lemoon Can

接口隔离原则 设计原则

共铸国云繁荣生态!天翼云华东中心生态合作大会圆满举行

天翼云开发者社区

云行| 三大重磅发布,助力重庆数字经济新发展!

天翼云开发者社区

分享:从数据库开发者的视角,预测5个开发趋势

OceanBase 数据库

数据库 oceanbase

AF_XDP技术简介

天翼云开发者社区

腾讯云数据库性能打破世界纪录 每分钟可处理8.14亿笔交易

数据库小组

数据库 腾讯云 tdsql

OpenAI Sora 的关键成分:时空补丁解析_生成式 AI_Vincent Koc_InfoQ精选文章