写点什么

Sora 生成的视频太真实?那是你遇到造假了

  • 2024-02-20
    北京
  • 本文字数:2882 字

    阅读完需:约 9 分钟

Sora生成的视频太真实?那是你遇到造假了


视频发布者“No Context Brits”表示这是 Sora 生成的,提示词是:Brit gets hit by a bus then goes for a pint。那么你认为,上面视频是真的还是 AI 生成的?


上面的视频是真实的还是AI生成的? (单选)
82 人已加入
真实的
AI生成的
无法判断
投票
投票后,可查看投票结果


这个问题的答案,我们留到最后揭晓。

现实真的不存在了吗?


当大家都在说 Sora 颠覆行业的时候,Sora 究竟能颠覆多少?我们由易到难,看看 Sora 制作的视频,可以达到什么级别。

风景


风景类视频制作可以说是入门级,画面细节要求相对少一些,构图、运镜相对比较重要。而 Sora 确实能制作出纪录片里常用到的运镜方式,构图也是参照了构图规则的:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    可以简单看下《地球脉动》第二季第一集的开头片段:


    同时,与视频生成领域的其他同行比,Sora 在真实性、连续性上的进步也是很明显的:



    动物


    在 OpenAI Sora 研发成员 Aditya Ramesh 发出的一个关于一只蚂蚁“在蚁巢内部移动的视角镜头”的视频里,Sora 给出了如下效果:

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      这个视频犯了基础的认知错误:里面的蚂蚁只有四条腿,真实世界里的是六条腿。杨立昆(Yann LeCun)也直接指出了这一点,但仍止不住网友对视频效果的赞叹。


      题外话:Aditya 与 LeCun 也有一段缘分。据 LeCun 爆料,Aditya 本科就读于纽约大学,并参加过其实验室的一些项目。


      下面这只“飞入海底的蝴蝶”,虽然没有尊重基本事实(毕竟蝴蝶没入海底怕是飞不起来),但如果是特效,那还是可以的:



      一只寻找庇护所的流浪猫:



      在单只动物的相对简单的场景里,Sora 表现还是不错的。

      人物


      在最新发布的 Sora 生成视频里,有一个体现人类惊讶表情的视频,但效果不太好:鲨鱼在离沙滩特别近的沙滩出现,女人夸张的惊讶……“那个女人比鲨鱼更让我害怕,制作恐怖电影可能是 Sora 的最佳用途。”网友评价。另外,这个视频的逻辑还需要提示词输入进行调整,比如男人的无动于衷。


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        下面这个老人过生日的视频应该很多人见过,效果相对还是相对丝滑一些的,虽然老人吹蜡烛时,烛光动也没动……



        这个猫和主人互动的视频里,猫挠到主人鼻子时,鼻子的变化给人感觉像一张纸。另外,她不疼吗?!



        更复杂一些的场景,我们看看 Sora 的一镜到底:


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          “几乎完美。但是吹毛求疵,这里的视角不太好。看起来用餐的人坐在一个小型市场旁边。”有敏锐的网友指出:



          “大多数人身上都发现了人工制品和某种程度的幻觉。”复杂场景下,Sora 还是做不到完美。

          特效


          特效视频就不存在真实性问题了,视觉效果是重要的衡量因素。


          Sora 研发团队 Bill Peebles 发布了一只“科技犬”视频:未来控制论德国牧羊犬的特写镜头,展示了其引人注目的棕色和黑色皮毛…


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            一位数字艺术方面的从业者表示,“这看起来比我们见过的任何 CGi 都更真实。迫不及待地希望能够尽快将视频制作变为 3D 模型,这样我们就可以在游戏中拥有这些资源和动画。”也有网友调侃道,“本次拍摄中没有动物受伤。”


            Bill 还发布了另一个特效视频:“一座巨大的大教堂里全是猫。放眼望去,到处都是猫。一个男人走进大教堂,向坐在王座上的巨型猫王鞠躬。”在经过网友增加旁白和配音后,便是这样的:

            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              旁白 @ChatGPTapp

              配音者 @elevenlabsio

              音乐由 @suno_ai_


              如果有一天,OpenAI 能够直接将视觉效果和听觉效果一起输出,那又会是震惊行业的一件大事。可以看下,网友给 Sora 视频加上视觉效果是什么样的:


              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                Sora 研发团队另一位重要成员 Tim Brooks 用 Sora 让沙盒游戏《我的世界》拥有了“有史以来最华丽的高分辨率 8k 纹理包”:



                同时,Tim 还让《我的世界》视频融合进摩托车视角,“这个功能有如此大的创造潜力”Tim 说道。



                其实效果已经不错,有网友建议可以在提示中加上“光线追踪、光晕、后期特效”等,这样效果可能会更好。


                下面是一个 Sora 改变视频的风格和环境的例子,一辆跑车穿梭在水底、恐龙乐园、像素世界等等场景中:

                00:00 / 00:00
                  1.0x
                  • 3.0x
                  • 2.5x
                  • 2.0x
                  • 1.5x
                  • 1.25x
                  • 1.0x
                  • 0.75x
                  • 0.5x
                  网页全屏
                  全屏
                  00:00


                  “一只鸭子走在波士顿的街道”,如果更加复杂一些,会不会有漫威的感觉?



                  “在叶子上行驶的火车”,叶子的脉络还真是跟清晰的,当然也有网友认为这种视频没有什么用,更多是一种数字垃圾。



                  谢赛宁:Sora 跟我没关系


                  Sora 能有上面的效果,主要得益于 DiT 架构和 Spacetime Patch。


                  其中,Spacetime Patch 建立在 GoogleDeepMind 对 NaViT(原生分辨率视觉 Transformer)和 ViT(视觉 Transformer)的早期研究基础上。Patch 可以理解为 Sora 的基本单元,类比 Token。Sora 处理一系列的 Patch,并预测出序列中的下一个 Patch。


                  Sora 团队发现补丁是一种高度可扩展且有效的表示形式,因此通过 Spacetime Patch 将视频视为补丁序列,捕捉视觉数据使模型能够从更准确的表达中学习。



                  从 OpenAI 的技术报告可知,Sora 的作者团队有 13 位成员,如今被报道最多的核心成员包括研发负责人 Tim Brooks、William Peebles、系统负责人 Connor Holmes 等。


                  其中,Tim Brooks 是 DALL-E 3 作者之一,GitHub 5.7k️星项目 InstructPix2Pix 作者,博士毕业于 UC Berkeley 的伯克利人工智能研究所 BAIR。Tim 曾在谷歌为 Pixel 手机摄像头提供 AI 算法,也在英伟达负责过视频生成模型的研究。


                  William Peebles 也来自 UC Berkeley,去年(2023 年)刚刚获得博士学位。据悉,William 和谢赛宁合作,研发了 DiT。也因为这个关系,毕业于上海交大的天才少年谢赛宁被报道为是 Sora 的研发者之一。谢赛宁本人对此强烈否认:“一点关系都没有”。



                  Connor Holmes 则曾在 Colorado School of Mines、微软工作过,在 LLM、BE RT 风格的编码器、RNN 和 UNets 方面有丰富经验。“我期待解决在扩展深度学习工作负载以进行推理和训练时系统效率低下的问题。”他在自己的领英上说道。此外,Sora 团队的不少成员都是 DALL-E 3 的作者,包括两位华人 Li Jing 和 Yufei Guo。


                  结束语


                  “如何加入红队?我可以帮助测试”有积极参与的人,也有不喜欢生成视频的人:“我看视频,不是想看虚拟的世界,而是想通过镜头去看自己不了解的真实的世界。”


                  现在网上也出现了很多声称是 Sora 生成的视频,但其实并不是。比如下面这个女团视频声称是 Sora 生成的,但真实性存疑。


                  00:00 / 00:00
                    1.0x
                    • 3.0x
                    • 2.5x
                    • 2.0x
                    • 1.5x
                    • 1.25x
                    • 1.0x
                    • 0.75x
                    • 0.5x
                    网页全屏
                    全屏
                    00:00


                    来源:https://twitter.com/ViLettuce/status/1758976415150559638


                    还比如下面视频的发布者“víty”表示这个“女生吃面包时与他人发生争执”视频是 Sora 生成的,提示词是:𝘞𝘩𝘪𝘵𝘦 𝘸𝘰𝘮𝘢𝘯 𝘦𝘢𝘵𝘴 𝘣𝘳𝘦𝘢𝘥,𝘢𝘶𝘯𝘵 𝘣𝘪𝘵𝘤𝘩𝘴𝘭𝘢𝘱、𝘸𝘩𝘪𝘵𝘦 𝘸𝘰𝘮𝘢𝘯 𝘭𝘢𝘶𝘨𝘩𝘴、𝘱𝘪𝘢𝘯 𝘰𝘥𝘶𝘩𝘩,𝘩𝘰𝘶𝘴𝘦𝘦𝘷𝘪𝘤𝘵𝘪𝘰𝘯,𝘤𝘰𝘰𝘭𝘣𝘢𝘴𝘴𝘰𝘶𝘵 𝘳𝘰𝘮𝘶𝘴𝘪𝘤。


                    但有网友指出,这个视频并非 Sora 生成的,而是来源于一部名为《Ti Ti Ti》的肥皂剧。看过这部剧的朋友可以出来说说~


                    00:00 / 00:00
                      1.0x
                      • 3.0x
                      • 2.5x
                      • 2.0x
                      • 1.5x
                      • 1.25x
                      • 1.0x
                      • 0.75x
                      • 0.5x
                      网页全屏
                      全屏
                      00:00

                      来源:https://twitter.com/vvvorvvtorvitor/status/1758654081176866906


                      回到文章最初问到的问题,其实帖子下面也引起了网友的各种讨论,有人说是真的,有人说是生成的。而真正的答案就是:那是真实的视频。



                      出自外媒 The Guardian 在 2017 年的报道:


                      https://www.theguardian.com/global/video/2017/jun/27/man-hit-by-bus-in-reading-survives-without-injury-video


                      你猜对了吗?


                      参考链接:


                      https://twitter.com/minchoi/status/1758831971726225591

                      https://twitter.com/NoContextBrits/status/1759212202853040265

                      https://openai.com/research/video-generation-models-as-world-simulators



                      2024-02-20 12:217730

                      评论

                      发布
                      暂无评论
                      发现更多内容

                      Linux之文件属性详解

                      入门小站

                      Linux

                      java学习中cookie原理

                      编程江湖

                      java 编程

                      在线JSON转XML工具

                      入门小站

                      工具

                      大数据开发之Spark Shuffle 原理分析

                      @零度

                      大数据 spark

                      vscode中Tasks及Emmet的应用

                      编程江湖

                      vscode

                      如何使用JDBC API操作数据库

                      编程江湖

                      JDBC

                      工作中遇到的50个JavaScript的基础知识点

                      Sunshine_Lin

                      面试 前端 进阶 基础

                      前端开发代码区域规范分享

                      @零度

                      前端开发 代码规范

                      网络安全好学吗?手把手教你学metasploit信息收集 网络安全工程师学习资料汇总

                      学神来啦

                      利用闭包实现自定义等待方法

                      FunTester

                      多线程 并发测试 闭包 FunTester 自定义等待

                      CI/CD制作流程

                      wong

                      Docker jenkins ansible kubenetes

                      一文带你看懂分布式软总线在家庭场景的应用

                      HarmonyOS开发者

                      HarmonyOS

                      ADmobile首席架构师王威:广告业务云上运维最佳实践

                      阿里云弹性计算

                      阿里云 弹性计算 年度峰会

                      开源走向世界(上):开源构建全球化的舞台丨BDTC 2021

                      PingCAP

                      web技术分享| web的白板工具栏封装

                      anyRTC开发者

                      前端 Web 音视频 视频会议 白板

                      Towhee,开源的 embedding 框架与社区

                      Zilliz

                      数据库 开源 向量检索

                      数据分析人员需要掌握SQL到什么程度?3个常考题目刷一刷

                      博文视点Broadview

                      Avue中如何对option中属性动态赋值

                      泉城老铁

                      前端 avue

                      湖仓一体天花板,大数据一站式SQL分析技术实践

                      华为云开发者联盟

                      大数据 HetuEngine 湖仓一体 SQL分析 华为云FusionInsight

                      Apache Oozie学习笔记(一)

                      恒生LIGHT云社区

                      大数据 hadoop 工作流 调度

                      译文丨伯克利对serverless的看法:简化云编程

                      华为云开发者联盟

                      Serverless 云编程 伯克利 无服务器计算 云函数

                      元宇宙到家,那些「聪明」的设计工具

                      Zilliz

                      尚硅谷Docker与微服务实战教程发布

                      @零度

                      大数据 dokcer

                      [转]注释驱动的 Spring cache 缓存介绍

                      kimmking

                      运维工程师必备利器|一招实现运维智能化!

                      云智慧AIOps社区

                      运维 AIOPS 运维工程师 基础知识 自动化运维

                      java开发之内存模型面试分享

                      @零度

                      JAVA开发 Java内存模型

                      深入解析QUIC协议

                      拍乐云Pano

                      WebRTC RTC QUIC QUIC协议

                      Avue复选框动态赋值不能渲染问题解决方式

                      泉城老铁

                      前端 avue

                      阿里云刘强:无影云电脑构建云上安全办公室

                      阿里云弹性计算

                      弹性计算 年度峰会 无影云电脑

                      自动驾驶训练如火如荼,网络带宽跟不上怎么破?

                      焱融科技

                      人工智能 自动驾驶 云计算 高性能 文件存储

                      据说有人面试栽在了Thread类的stop()方法和interrupt()方法上

                      华为云开发者联盟

                      高并发 crud Thread类 stop interrupt

                      Sora生成的视频太真实?那是你遇到造假了_计算机视觉_褚杏娟_InfoQ精选文章