写点什么

Sora 生成的视频太真实?那是你遇到造假了

  • 2024-02-20
    北京
  • 本文字数:2882 字

    阅读完需:约 9 分钟

Sora生成的视频太真实?那是你遇到造假了


视频发布者“No Context Brits”表示这是 Sora 生成的,提示词是:Brit gets hit by a bus then goes for a pint。那么你认为,上面视频是真的还是 AI 生成的?


上面的视频是真实的还是AI生成的? (单选)
82 人已加入
真实的
AI生成的
无法判断
投票
投票后,可查看投票结果


这个问题的答案,我们留到最后揭晓。

现实真的不存在了吗?


当大家都在说 Sora 颠覆行业的时候,Sora 究竟能颠覆多少?我们由易到难,看看 Sora 制作的视频,可以达到什么级别。

风景


风景类视频制作可以说是入门级,画面细节要求相对少一些,构图、运镜相对比较重要。而 Sora 确实能制作出纪录片里常用到的运镜方式,构图也是参照了构图规则的:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    可以简单看下《地球脉动》第二季第一集的开头片段:


    同时,与视频生成领域的其他同行比,Sora 在真实性、连续性上的进步也是很明显的:



    动物


    在 OpenAI Sora 研发成员 Aditya Ramesh 发出的一个关于一只蚂蚁“在蚁巢内部移动的视角镜头”的视频里,Sora 给出了如下效果:

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      这个视频犯了基础的认知错误:里面的蚂蚁只有四条腿,真实世界里的是六条腿。杨立昆(Yann LeCun)也直接指出了这一点,但仍止不住网友对视频效果的赞叹。


      题外话:Aditya 与 LeCun 也有一段缘分。据 LeCun 爆料,Aditya 本科就读于纽约大学,并参加过其实验室的一些项目。


      下面这只“飞入海底的蝴蝶”,虽然没有尊重基本事实(毕竟蝴蝶没入海底怕是飞不起来),但如果是特效,那还是可以的:



      一只寻找庇护所的流浪猫:



      在单只动物的相对简单的场景里,Sora 表现还是不错的。

      人物


      在最新发布的 Sora 生成视频里,有一个体现人类惊讶表情的视频,但效果不太好:鲨鱼在离沙滩特别近的沙滩出现,女人夸张的惊讶……“那个女人比鲨鱼更让我害怕,制作恐怖电影可能是 Sora 的最佳用途。”网友评价。另外,这个视频的逻辑还需要提示词输入进行调整,比如男人的无动于衷。


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        下面这个老人过生日的视频应该很多人见过,效果相对还是相对丝滑一些的,虽然老人吹蜡烛时,烛光动也没动……



        这个猫和主人互动的视频里,猫挠到主人鼻子时,鼻子的变化给人感觉像一张纸。另外,她不疼吗?!



        更复杂一些的场景,我们看看 Sora 的一镜到底:


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          “几乎完美。但是吹毛求疵,这里的视角不太好。看起来用餐的人坐在一个小型市场旁边。”有敏锐的网友指出:



          “大多数人身上都发现了人工制品和某种程度的幻觉。”复杂场景下,Sora 还是做不到完美。

          特效


          特效视频就不存在真实性问题了,视觉效果是重要的衡量因素。


          Sora 研发团队 Bill Peebles 发布了一只“科技犬”视频:未来控制论德国牧羊犬的特写镜头,展示了其引人注目的棕色和黑色皮毛…


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            一位数字艺术方面的从业者表示,“这看起来比我们见过的任何 CGi 都更真实。迫不及待地希望能够尽快将视频制作变为 3D 模型,这样我们就可以在游戏中拥有这些资源和动画。”也有网友调侃道,“本次拍摄中没有动物受伤。”


            Bill 还发布了另一个特效视频:“一座巨大的大教堂里全是猫。放眼望去,到处都是猫。一个男人走进大教堂,向坐在王座上的巨型猫王鞠躬。”在经过网友增加旁白和配音后,便是这样的:

            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              旁白 @ChatGPTapp

              配音者 @elevenlabsio

              音乐由 @suno_ai_


              如果有一天,OpenAI 能够直接将视觉效果和听觉效果一起输出,那又会是震惊行业的一件大事。可以看下,网友给 Sora 视频加上视觉效果是什么样的:


              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                Sora 研发团队另一位重要成员 Tim Brooks 用 Sora 让沙盒游戏《我的世界》拥有了“有史以来最华丽的高分辨率 8k 纹理包”:



                同时,Tim 还让《我的世界》视频融合进摩托车视角,“这个功能有如此大的创造潜力”Tim 说道。



                其实效果已经不错,有网友建议可以在提示中加上“光线追踪、光晕、后期特效”等,这样效果可能会更好。


                下面是一个 Sora 改变视频的风格和环境的例子,一辆跑车穿梭在水底、恐龙乐园、像素世界等等场景中:

                00:00 / 00:00
                  1.0x
                  • 3.0x
                  • 2.5x
                  • 2.0x
                  • 1.5x
                  • 1.25x
                  • 1.0x
                  • 0.75x
                  • 0.5x
                  网页全屏
                  全屏
                  00:00


                  “一只鸭子走在波士顿的街道”,如果更加复杂一些,会不会有漫威的感觉?



                  “在叶子上行驶的火车”,叶子的脉络还真是跟清晰的,当然也有网友认为这种视频没有什么用,更多是一种数字垃圾。



                  谢赛宁:Sora 跟我没关系


                  Sora 能有上面的效果,主要得益于 DiT 架构和 Spacetime Patch。


                  其中,Spacetime Patch 建立在 GoogleDeepMind 对 NaViT(原生分辨率视觉 Transformer)和 ViT(视觉 Transformer)的早期研究基础上。Patch 可以理解为 Sora 的基本单元,类比 Token。Sora 处理一系列的 Patch,并预测出序列中的下一个 Patch。


                  Sora 团队发现补丁是一种高度可扩展且有效的表示形式,因此通过 Spacetime Patch 将视频视为补丁序列,捕捉视觉数据使模型能够从更准确的表达中学习。



                  从 OpenAI 的技术报告可知,Sora 的作者团队有 13 位成员,如今被报道最多的核心成员包括研发负责人 Tim Brooks、William Peebles、系统负责人 Connor Holmes 等。


                  其中,Tim Brooks 是 DALL-E 3 作者之一,GitHub 5.7k️星项目 InstructPix2Pix 作者,博士毕业于 UC Berkeley 的伯克利人工智能研究所 BAIR。Tim 曾在谷歌为 Pixel 手机摄像头提供 AI 算法,也在英伟达负责过视频生成模型的研究。


                  William Peebles 也来自 UC Berkeley,去年(2023 年)刚刚获得博士学位。据悉,William 和谢赛宁合作,研发了 DiT。也因为这个关系,毕业于上海交大的天才少年谢赛宁被报道为是 Sora 的研发者之一。谢赛宁本人对此强烈否认:“一点关系都没有”。



                  Connor Holmes 则曾在 Colorado School of Mines、微软工作过,在 LLM、BE RT 风格的编码器、RNN 和 UNets 方面有丰富经验。“我期待解决在扩展深度学习工作负载以进行推理和训练时系统效率低下的问题。”他在自己的领英上说道。此外,Sora 团队的不少成员都是 DALL-E 3 的作者,包括两位华人 Li Jing 和 Yufei Guo。


                  结束语


                  “如何加入红队?我可以帮助测试”有积极参与的人,也有不喜欢生成视频的人:“我看视频,不是想看虚拟的世界,而是想通过镜头去看自己不了解的真实的世界。”


                  现在网上也出现了很多声称是 Sora 生成的视频,但其实并不是。比如下面这个女团视频声称是 Sora 生成的,但真实性存疑。


                  00:00 / 00:00
                    1.0x
                    • 3.0x
                    • 2.5x
                    • 2.0x
                    • 1.5x
                    • 1.25x
                    • 1.0x
                    • 0.75x
                    • 0.5x
                    网页全屏
                    全屏
                    00:00


                    来源:https://twitter.com/ViLettuce/status/1758976415150559638


                    还比如下面视频的发布者“víty”表示这个“女生吃面包时与他人发生争执”视频是 Sora 生成的,提示词是:𝘞𝘩𝘪𝘵𝘦 𝘸𝘰𝘮𝘢𝘯 𝘦𝘢𝘵𝘴 𝘣𝘳𝘦𝘢𝘥,𝘢𝘶𝘯𝘵 𝘣𝘪𝘵𝘤𝘩𝘴𝘭𝘢𝘱、𝘸𝘩𝘪𝘵𝘦 𝘸𝘰𝘮𝘢𝘯 𝘭𝘢𝘶𝘨𝘩𝘴、𝘱𝘪𝘢𝘯 𝘰𝘥𝘶𝘩𝘩,𝘩𝘰𝘶𝘴𝘦𝘦𝘷𝘪𝘤𝘵𝘪𝘰𝘯,𝘤𝘰𝘰𝘭𝘣𝘢𝘴𝘴𝘰𝘶𝘵 𝘳𝘰𝘮𝘶𝘴𝘪𝘤。


                    但有网友指出,这个视频并非 Sora 生成的,而是来源于一部名为《Ti Ti Ti》的肥皂剧。看过这部剧的朋友可以出来说说~


                    00:00 / 00:00
                      1.0x
                      • 3.0x
                      • 2.5x
                      • 2.0x
                      • 1.5x
                      • 1.25x
                      • 1.0x
                      • 0.75x
                      • 0.5x
                      网页全屏
                      全屏
                      00:00

                      来源:https://twitter.com/vvvorvvtorvitor/status/1758654081176866906


                      回到文章最初问到的问题,其实帖子下面也引起了网友的各种讨论,有人说是真的,有人说是生成的。而真正的答案就是:那是真实的视频。



                      出自外媒 The Guardian 在 2017 年的报道:


                      https://www.theguardian.com/global/video/2017/jun/27/man-hit-by-bus-in-reading-survives-without-injury-video


                      你猜对了吗?


                      参考链接:


                      https://twitter.com/minchoi/status/1758831971726225591

                      https://twitter.com/NoContextBrits/status/1759212202853040265

                      https://openai.com/research/video-generation-models-as-world-simulators



                      2024-02-20 12:217715

                      评论

                      发布
                      暂无评论
                      发现更多内容

                      [译] D8 类库脱糖

                      Antway

                      6月日更

                      代码管理工具:Git和SVN

                      正向成长

                      git svn

                      12种mysql常见错误总结 +分析示例

                      李阿柯

                      MySQL 面试 常见问题

                      使用 Scala 宏解决对象转换

                      GrowingIO技术专栏

                      scala protobuf 元编程 macro

                      数据结构——顺序表

                      若尘

                      数据结构 6月日更

                      掌门教育自研APM实际分享

                      白玉兰开源

                      🏆「作者推荐」【JVM原理探索】深入理解G1垃圾收集器的原理和运行机制

                      码界西柚

                      G1 JVM 6月日更 垃圾回收器

                      深度解读MRS IoTDB时序数据库的整体架构设计与实现

                      华为云开发者联盟

                      大数据 架构 时序数据库 FusionInsight MRS MRS IoTDB

                      爆赞:这份Github神仙面试笔记,不愧是上了标星120k+的Java面试手册

                      Java 编程 程序员 架构 面试

                      30分钟接入SDK 融云是如何让开发者做到开箱即用的?

                      融云 RongCloud

                      HarmonyOS学习路之开发篇——公共事件与通知(一)

                      爱吃土豆丝的打工人

                      Java HarmonyOS 鸿蒙操作系统

                      Rust从0到1-自动化测试-测试组织

                      rust 单元测试 集成测试 自动化测试

                      AI论文解读:基于Transformer的多目标跟踪方法TrackFormer

                      华为云开发者联盟

                      预测 Transformer 多目标跟踪 TrackFormer 跟踪目标

                      神经网络吴恩达, 解析极限编程--Kent Beck, Cynthia Andres John 易筋 ARTS 打卡 Week 53

                      John(易筋)

                      ARTS 打卡计划

                      冰泉奶茶香牙膏好不好?奶茶控的宝藏牙膏就是它

                      Geek_50a546

                      为什么switch的case没有break不行

                      叫我阿柒啊

                      Switch case break

                      带你认识9种常用卷积神经网络

                      华为云开发者联盟

                      神经网络 深度学习 卷积神经网络 图像 卷积

                      联想服务斩获两项智能运维大奖 助力企业业务创新与数字化转型

                      科技大数据

                      面试官:你知道怎么求素数吗?

                      华为云开发者联盟

                      面试 开发者 开发 代码 素数

                      AI如何赋能软硬件产品创新?百度大脑开放日西安站解密

                      百度大脑

                      AI 百度大脑 开放日 EdgeBoard

                      支持低代码开发和远程真机,DevEco Studio 2.2 Beta1来啦

                      科技汇

                      JAVA 面向对象 (十四)-- 关键字abstract、final

                      加百利

                      6月日更

                      CentOS7 Linux服务器无法远程ssh登陆故障处理

                      Liyuanjie

                      Centos 7 linux运维 Linux内核

                      容器化 | 在 Kubernetes 上部署 RadonDB MySQL 集群

                      RadonDB

                      MySQL Kubernetes 容器

                      EasyRecovery——一款专业的数据恢复软件

                      淋雨

                      文件恢复 Easyrecovery破解 免费恢复软件 硬盘数据恢复

                      计算机网络的 89 个核心概念

                      苹果看辽宁体育

                      后端 计算机网络 网络

                      基于 Web 引擎扩展技术的 RTC 混合开发框架实践

                      白玉兰开源

                      大前端

                      可视化搭建的一些思考和实践

                      白玉兰开源

                      回忆录 | 那些你不能错过的CTF夏令营往届历程,2021精彩继续……

                      郑州埃文科技

                      拥抱开放的英特尔 让PC行业再次越过创新鸿沟

                      E科讯

                      从零开始学习3D可视化之事件绑定

                      ThingJS数字孪生引擎

                      大前端 物联网 3D 3D可视化

                      Sora生成的视频太真实?那是你遇到造假了_计算机视觉_褚杏娟_InfoQ精选文章