写点什么

Sora 生成的视频太真实?那是你遇到造假了

  • 2024-02-20
    北京
  • 本文字数:2882 字

    阅读完需:约 9 分钟

Sora生成的视频太真实?那是你遇到造假了

AI 大模型超全落地场景&金融应用实践,8 月 16 - 19 日 FCon x AICon 大会联诀来袭、干货翻倍!


视频发布者“No Context Brits”表示这是 Sora 生成的,提示词是:Brit gets hit by a bus then goes for a pint。那么你认为,上面视频是真的还是 AI 生成的?


上面的视频是真实的还是AI生成的? (单选)
78 人已加入
真实的
AI生成的
无法判断
投票
投票后,可查看投票结果


这个问题的答案,我们留到最后揭晓。

现实真的不存在了吗?


当大家都在说 Sora 颠覆行业的时候,Sora 究竟能颠覆多少?我们由易到难,看看 Sora 制作的视频,可以达到什么级别。

风景


风景类视频制作可以说是入门级,画面细节要求相对少一些,构图、运镜相对比较重要。而 Sora 确实能制作出纪录片里常用到的运镜方式,构图也是参照了构图规则的:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    可以简单看下《地球脉动》第二季第一集的开头片段:


    同时,与视频生成领域的其他同行比,Sora 在真实性、连续性上的进步也是很明显的:



    动物


    在 OpenAI Sora 研发成员 Aditya Ramesh 发出的一个关于一只蚂蚁“在蚁巢内部移动的视角镜头”的视频里,Sora 给出了如下效果:

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      这个视频犯了基础的认知错误:里面的蚂蚁只有四条腿,真实世界里的是六条腿。杨立昆(Yann LeCun)也直接指出了这一点,但仍止不住网友对视频效果的赞叹。


      题外话:Aditya 与 LeCun 也有一段缘分。据 LeCun 爆料,Aditya 本科就读于纽约大学,并参加过其实验室的一些项目。


      下面这只“飞入海底的蝴蝶”,虽然没有尊重基本事实(毕竟蝴蝶没入海底怕是飞不起来),但如果是特效,那还是可以的:



      一只寻找庇护所的流浪猫:



      在单只动物的相对简单的场景里,Sora 表现还是不错的。

      人物


      在最新发布的 Sora 生成视频里,有一个体现人类惊讶表情的视频,但效果不太好:鲨鱼在离沙滩特别近的沙滩出现,女人夸张的惊讶……“那个女人比鲨鱼更让我害怕,制作恐怖电影可能是 Sora 的最佳用途。”网友评价。另外,这个视频的逻辑还需要提示词输入进行调整,比如男人的无动于衷。


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        下面这个老人过生日的视频应该很多人见过,效果相对还是相对丝滑一些的,虽然老人吹蜡烛时,烛光动也没动……



        这个猫和主人互动的视频里,猫挠到主人鼻子时,鼻子的变化给人感觉像一张纸。另外,她不疼吗?!



        更复杂一些的场景,我们看看 Sora 的一镜到底:


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          “几乎完美。但是吹毛求疵,这里的视角不太好。看起来用餐的人坐在一个小型市场旁边。”有敏锐的网友指出:



          “大多数人身上都发现了人工制品和某种程度的幻觉。”复杂场景下,Sora 还是做不到完美。

          特效


          特效视频就不存在真实性问题了,视觉效果是重要的衡量因素。


          Sora 研发团队 Bill Peebles 发布了一只“科技犬”视频:未来控制论德国牧羊犬的特写镜头,展示了其引人注目的棕色和黑色皮毛…


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            一位数字艺术方面的从业者表示,“这看起来比我们见过的任何 CGi 都更真实。迫不及待地希望能够尽快将视频制作变为 3D 模型,这样我们就可以在游戏中拥有这些资源和动画。”也有网友调侃道,“本次拍摄中没有动物受伤。”


            Bill 还发布了另一个特效视频:“一座巨大的大教堂里全是猫。放眼望去,到处都是猫。一个男人走进大教堂,向坐在王座上的巨型猫王鞠躬。”在经过网友增加旁白和配音后,便是这样的:

            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              旁白 @ChatGPTapp

              配音者 @elevenlabsio

              音乐由 @suno_ai_


              如果有一天,OpenAI 能够直接将视觉效果和听觉效果一起输出,那又会是震惊行业的一件大事。可以看下,网友给 Sora 视频加上视觉效果是什么样的:


              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                Sora 研发团队另一位重要成员 Tim Brooks 用 Sora 让沙盒游戏《我的世界》拥有了“有史以来最华丽的高分辨率 8k 纹理包”:



                同时,Tim 还让《我的世界》视频融合进摩托车视角,“这个功能有如此大的创造潜力”Tim 说道。



                其实效果已经不错,有网友建议可以在提示中加上“光线追踪、光晕、后期特效”等,这样效果可能会更好。


                下面是一个 Sora 改变视频的风格和环境的例子,一辆跑车穿梭在水底、恐龙乐园、像素世界等等场景中:

                00:00 / 00:00
                  1.0x
                  • 3.0x
                  • 2.5x
                  • 2.0x
                  • 1.5x
                  • 1.25x
                  • 1.0x
                  • 0.75x
                  • 0.5x
                  网页全屏
                  全屏
                  00:00


                  “一只鸭子走在波士顿的街道”,如果更加复杂一些,会不会有漫威的感觉?



                  “在叶子上行驶的火车”,叶子的脉络还真是跟清晰的,当然也有网友认为这种视频没有什么用,更多是一种数字垃圾。



                  谢赛宁:Sora 跟我没关系


                  Sora 能有上面的效果,主要得益于 DiT 架构和 Spacetime Patch。


                  其中,Spacetime Patch 建立在 GoogleDeepMind 对 NaViT(原生分辨率视觉 Transformer)和 ViT(视觉 Transformer)的早期研究基础上。Patch 可以理解为 Sora 的基本单元,类比 Token。Sora 处理一系列的 Patch,并预测出序列中的下一个 Patch。


                  Sora 团队发现补丁是一种高度可扩展且有效的表示形式,因此通过 Spacetime Patch 将视频视为补丁序列,捕捉视觉数据使模型能够从更准确的表达中学习。



                  从 OpenAI 的技术报告可知,Sora 的作者团队有 13 位成员,如今被报道最多的核心成员包括研发负责人 Tim Brooks、William Peebles、系统负责人 Connor Holmes 等。


                  其中,Tim Brooks 是 DALL-E 3 作者之一,GitHub 5.7k️星项目 InstructPix2Pix 作者,博士毕业于 UC Berkeley 的伯克利人工智能研究所 BAIR。Tim 曾在谷歌为 Pixel 手机摄像头提供 AI 算法,也在英伟达负责过视频生成模型的研究。


                  William Peebles 也来自 UC Berkeley,去年(2023 年)刚刚获得博士学位。据悉,William 和谢赛宁合作,研发了 DiT。也因为这个关系,毕业于上海交大的天才少年谢赛宁被报道为是 Sora 的研发者之一。谢赛宁本人对此强烈否认:“一点关系都没有”。



                  Connor Holmes 则曾在 Colorado School of Mines、微软工作过,在 LLM、BE RT 风格的编码器、RNN 和 UNets 方面有丰富经验。“我期待解决在扩展深度学习工作负载以进行推理和训练时系统效率低下的问题。”他在自己的领英上说道。此外,Sora 团队的不少成员都是 DALL-E 3 的作者,包括两位华人 Li Jing 和 Yufei Guo。


                  结束语


                  “如何加入红队?我可以帮助测试”有积极参与的人,也有不喜欢生成视频的人:“我看视频,不是想看虚拟的世界,而是想通过镜头去看自己不了解的真实的世界。”


                  现在网上也出现了很多声称是 Sora 生成的视频,但其实并不是。比如下面这个女团视频声称是 Sora 生成的,但真实性存疑。


                  00:00 / 00:00
                    1.0x
                    • 3.0x
                    • 2.5x
                    • 2.0x
                    • 1.5x
                    • 1.25x
                    • 1.0x
                    • 0.75x
                    • 0.5x
                    网页全屏
                    全屏
                    00:00


                    来源:https://twitter.com/ViLettuce/status/1758976415150559638


                    还比如下面视频的发布者“víty”表示这个“女生吃面包时与他人发生争执”视频是 Sora 生成的,提示词是:𝘞𝘩𝘪𝘵𝘦 𝘸𝘰𝘮𝘢𝘯 𝘦𝘢𝘵𝘴 𝘣𝘳𝘦𝘢𝘥,𝘢𝘶𝘯𝘵 𝘣𝘪𝘵𝘤𝘩𝘴𝘭𝘢𝘱、𝘸𝘩𝘪𝘵𝘦 𝘸𝘰𝘮𝘢𝘯 𝘭𝘢𝘶𝘨𝘩𝘴、𝘱𝘪𝘢𝘯 𝘰𝘥𝘶𝘩𝘩,𝘩𝘰𝘶𝘴𝘦𝘦𝘷𝘪𝘤𝘵𝘪𝘰𝘯,𝘤𝘰𝘰𝘭𝘣𝘢𝘴𝘴𝘰𝘶𝘵 𝘳𝘰𝘮𝘶𝘴𝘪𝘤。


                    但有网友指出,这个视频并非 Sora 生成的,而是来源于一部名为《Ti Ti Ti》的肥皂剧。看过这部剧的朋友可以出来说说~


                    00:00 / 00:00
                      1.0x
                      • 3.0x
                      • 2.5x
                      • 2.0x
                      • 1.5x
                      • 1.25x
                      • 1.0x
                      • 0.75x
                      • 0.5x
                      网页全屏
                      全屏
                      00:00

                      来源:https://twitter.com/vvvorvvtorvitor/status/1758654081176866906


                      回到文章最初问到的问题,其实帖子下面也引起了网友的各种讨论,有人说是真的,有人说是生成的。而真正的答案就是:那是真实的视频。



                      出自外媒 The Guardian 在 2017 年的报道:


                      https://www.theguardian.com/global/video/2017/jun/27/man-hit-by-bus-in-reading-survives-without-injury-video


                      你猜对了吗?


                      参考链接:


                      https://twitter.com/minchoi/status/1758831971726225591

                      https://twitter.com/NoContextBrits/status/1759212202853040265

                      https://openai.com/research/video-generation-models-as-world-simulators



                      公众号推荐:

                      AIGC 技术正以惊人的速度重塑着创新的边界,InfoQ 首期《大模型领航者AIGC实践案例集锦》电子书,深度对话 30 位国内顶尖大模型专家,洞悉大模型技术前沿与未来趋势,精选 10 余个行业一线实践案例,全面展示大模型在多个垂直行业的应用成果,同时,揭秘全球热门大模型效果,为创业者、开发者提供决策支持和选型参考。关注「AI前线」,回复「领航者」免费获取电子书。

                      2024-02-20 12:216098

                      评论

                      发布
                      暂无评论

                      翻译:《实用的Python编程》01_01_Python

                      codists

                      Python

                      第十一周学习心得

                      cc

                      并发编程系列:并发编程基础

                      程序员架构进阶

                      架构 JVM 七日更 28天写作 2月春节不断更

                      架构师训练营第2期大作业(二)

                      月下独酌

                      架构师训练营第2期

                      Elasticsearch 分页搜索以及 deep paging 性能问题

                      escray

                      elastic 七日更 死磕Elasticsearch 60天通过Elastic认证考试 2月春节不断更

                      从云数据迁移服务看MySQL大表抽取模式

                      华为云开发者联盟

                      MySQL JVM JDBC 数据迁移

                      LeetCode题解:33. 搜索旋转排序数组,二分查找,JavaScript,详细注释

                      Lee Chen

                      算法 大前端 LeetCode

                      产品训练营第四章作业(一)

                      Arnold

                      机器学习笔记之:

                      Nydia

                      【LeetCode】可获得的最大点数

                      Albert

                      算法 LeetCode 2月春节不断更

                      WiFi 空口抓包工具 --- OmniPeek

                      架构师训练营第2期 大作业 (一)

                      月下独酌

                      架构师训练营第2期

                      民办二本程序员阿里、百度、平安等五厂面经,5份offer(含真题)

                      Java 编程 面试

                      Linux Lab 进阶: Qemu 模拟器 & Toolchain 工具链

                      贾献华

                      Linux Tool Linux Kenel qemu Toolchain

                      MyBatis专栏 - 一级缓存

                      小马哥

                      Java mybatis 七日更 2月春节不断更

                      2 期架构师训练营 - 大作业(一)

                      云飞扬

                      架构师训练营第2期

                      架构师训练营-架构大作业(一)

                      花果山

                      架构师训练营第2期

                      week11-homework

                      J

                      VoltDB让Kafka支持复杂数据流驱动的实时业务决策

                      VoltDB

                      数据库 kafka 分布式系统 VoltDB

                      中国移动工程师浅析:KubeEdge在国家工业互联网大数据中心的架构设计与应用

                      华为云开发者联盟

                      大数据 数据采集 工业智能体 边缘数据中心管理 EDCM

                      《王阳明一切心法》读书随笔

                      BigYoung

                      读书笔记 28天写作 2月春节不断更 王阳明

                      第十一周命题作业

                      cc

                      第6周课后练习-技术选型二

                      潘涛

                      架构师训练营 4 期

                      上古神器 sed 教程详解,小白也能看得懂

                      鞋子特大号

                      Linux sed

                      Ebean ORM框架介绍-1.增强注解

                      Barry的异想世界

                      Spring Boot jpa ORM Ebean

                      架构师训练营大作业(二)

                      花果山

                      架构师训练营第2期

                      做事情时,脑袋中一次只装一件事

                      熊斌

                      读书笔记 2月春节不断更

                      日记 2021年2月6日(周六)

                      Changing Lin

                      个人感悟 2月春节不断更

                      Android 完全符合规则但很头疼的Json映射成一个树结构且可折叠的列表?

                      第三女神程忆难

                      Java android kotlin 安卓

                      大作业二-请用思维导图画出架构师训练营所有技术知识点

                      未来已来

                      week11-conclusion

                      J

                      Sora生成的视频太真实?那是你遇到造假了_计算机视觉_褚杏娟_InfoQ精选文章