最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

Sora 生成的视频太真实?那是你遇到造假了

  • 2024-02-20
    北京
  • 本文字数:2882 字

    阅读完需:约 9 分钟

Sora生成的视频太真实?那是你遇到造假了


视频发布者“No Context Brits”表示这是 Sora 生成的,提示词是:Brit gets hit by a bus then goes for a pint。那么你认为,上面视频是真的还是 AI 生成的?


上面的视频是真实的还是AI生成的? (单选)
76 人已加入
真实的
AI生成的
无法判断
投票
投票后,可查看投票结果


这个问题的答案,我们留到最后揭晓。

现实真的不存在了吗?


当大家都在说 Sora 颠覆行业的时候,Sora 究竟能颠覆多少?我们由易到难,看看 Sora 制作的视频,可以达到什么级别。

风景


风景类视频制作可以说是入门级,画面细节要求相对少一些,构图、运镜相对比较重要。而 Sora 确实能制作出纪录片里常用到的运镜方式,构图也是参照了构图规则的:


00:00 / 00:00
    1.0x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    可以简单看下《地球脉动》第二季第一集的开头片段:


    同时,与视频生成领域的其他同行比,Sora 在真实性、连续性上的进步也是很明显的:



    动物


    在 OpenAI Sora 研发成员 Aditya Ramesh 发出的一个关于一只蚂蚁“在蚁巢内部移动的视角镜头”的视频里,Sora 给出了如下效果:

    00:00 / 00:00
      1.0x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      这个视频犯了基础的认知错误:里面的蚂蚁只有四条腿,真实世界里的是六条腿。杨立昆(Yann LeCun)也直接指出了这一点,但仍止不住网友对视频效果的赞叹。


      题外话:Aditya 与 LeCun 也有一段缘分。据 LeCun 爆料,Aditya 本科就读于纽约大学,并参加过其实验室的一些项目。


      下面这只“飞入海底的蝴蝶”,虽然没有尊重基本事实(毕竟蝴蝶没入海底怕是飞不起来),但如果是特效,那还是可以的:



      一只寻找庇护所的流浪猫:



      在单只动物的相对简单的场景里,Sora 表现还是不错的。

      人物


      在最新发布的 Sora 生成视频里,有一个体现人类惊讶表情的视频,但效果不太好:鲨鱼在离沙滩特别近的沙滩出现,女人夸张的惊讶……“那个女人比鲨鱼更让我害怕,制作恐怖电影可能是 Sora 的最佳用途。”网友评价。另外,这个视频的逻辑还需要提示词输入进行调整,比如男人的无动于衷。


      00:00 / 00:00
        1.0x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        下面这个老人过生日的视频应该很多人见过,效果相对还是相对丝滑一些的,虽然老人吹蜡烛时,烛光动也没动……



        这个猫和主人互动的视频里,猫挠到主人鼻子时,鼻子的变化给人感觉像一张纸。另外,她不疼吗?!



        更复杂一些的场景,我们看看 Sora 的一镜到底:


        00:00 / 00:00
          1.0x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          “几乎完美。但是吹毛求疵,这里的视角不太好。看起来用餐的人坐在一个小型市场旁边。”有敏锐的网友指出:



          “大多数人身上都发现了人工制品和某种程度的幻觉。”复杂场景下,Sora 还是做不到完美。

          特效


          特效视频就不存在真实性问题了,视觉效果是重要的衡量因素。


          Sora 研发团队 Bill Peebles 发布了一只“科技犬”视频:未来控制论德国牧羊犬的特写镜头,展示了其引人注目的棕色和黑色皮毛…


          00:00 / 00:00
            1.0x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            一位数字艺术方面的从业者表示,“这看起来比我们见过的任何 CGi 都更真实。迫不及待地希望能够尽快将视频制作变为 3D 模型,这样我们就可以在游戏中拥有这些资源和动画。”也有网友调侃道,“本次拍摄中没有动物受伤。”


            Bill 还发布了另一个特效视频:“一座巨大的大教堂里全是猫。放眼望去,到处都是猫。一个男人走进大教堂,向坐在王座上的巨型猫王鞠躬。”在经过网友增加旁白和配音后,便是这样的:

            00:00 / 00:00
              1.0x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              旁白 @ChatGPTapp

              配音者 @elevenlabsio

              音乐由 @suno_ai_


              如果有一天,OpenAI 能够直接将视觉效果和听觉效果一起输出,那又会是震惊行业的一件大事。可以看下,网友给 Sora 视频加上视觉效果是什么样的:


              00:00 / 00:00
                1.0x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                Sora 研发团队另一位重要成员 Tim Brooks 用 Sora 让沙盒游戏《我的世界》拥有了“有史以来最华丽的高分辨率 8k 纹理包”:



                同时,Tim 还让《我的世界》视频融合进摩托车视角,“这个功能有如此大的创造潜力”Tim 说道。



                其实效果已经不错,有网友建议可以在提示中加上“光线追踪、光晕、后期特效”等,这样效果可能会更好。


                下面是一个 Sora 改变视频的风格和环境的例子,一辆跑车穿梭在水底、恐龙乐园、像素世界等等场景中:

                00:00 / 00:00
                  1.0x
                  • 2.0x
                  • 1.5x
                  • 1.25x
                  • 1.0x
                  • 0.75x
                  • 0.5x
                  网页全屏
                  全屏
                  00:00


                  “一只鸭子走在波士顿的街道”,如果更加复杂一些,会不会有漫威的感觉?



                  “在叶子上行驶的火车”,叶子的脉络还真是跟清晰的,当然也有网友认为这种视频没有什么用,更多是一种数字垃圾。



                  谢赛宁:Sora 跟我没关系


                  Sora 能有上面的效果,主要得益于 DiT 架构和 Spacetime Patch。


                  其中,Spacetime Patch 建立在 GoogleDeepMind 对 NaViT(原生分辨率视觉 Transformer)和 ViT(视觉 Transformer)的早期研究基础上。Patch 可以理解为 Sora 的基本单元,类比 Token。Sora 处理一系列的 Patch,并预测出序列中的下一个 Patch。


                  Sora 团队发现补丁是一种高度可扩展且有效的表示形式,因此通过 Spacetime Patch 将视频视为补丁序列,捕捉视觉数据使模型能够从更准确的表达中学习。



                  从 OpenAI 的技术报告可知,Sora 的作者团队有 13 位成员,如今被报道最多的核心成员包括研发负责人 Tim Brooks、William Peebles、系统负责人 Connor Holmes 等。


                  其中,Tim Brooks 是 DALL-E 3 作者之一,GitHub 5.7k️星项目 InstructPix2Pix 作者,博士毕业于 UC Berkeley 的伯克利人工智能研究所 BAIR。Tim 曾在谷歌为 Pixel 手机摄像头提供 AI 算法,也在英伟达负责过视频生成模型的研究。


                  William Peebles 也来自 UC Berkeley,去年(2023 年)刚刚获得博士学位。据悉,William 和谢赛宁合作,研发了 DiT。也因为这个关系,毕业于上海交大的天才少年谢赛宁被报道为是 Sora 的研发者之一。谢赛宁本人对此强烈否认:“一点关系都没有”。



                  Connor Holmes 则曾在 Colorado School of Mines、微软工作过,在 LLM、BE RT 风格的编码器、RNN 和 UNets 方面有丰富经验。“我期待解决在扩展深度学习工作负载以进行推理和训练时系统效率低下的问题。”他在自己的领英上说道。此外,Sora 团队的不少成员都是 DALL-E 3 的作者,包括两位华人 Li Jing 和 Yufei Guo。


                  结束语


                  “如何加入红队?我可以帮助测试”有积极参与的人,也有不喜欢生成视频的人:“我看视频,不是想看虚拟的世界,而是想通过镜头去看自己不了解的真实的世界。”


                  现在网上也出现了很多声称是 Sora 生成的视频,但其实并不是。比如下面这个女团视频声称是 Sora 生成的,但真实性存疑。


                  00:00 / 00:00
                    1.0x
                    • 2.0x
                    • 1.5x
                    • 1.25x
                    • 1.0x
                    • 0.75x
                    • 0.5x
                    网页全屏
                    全屏
                    00:00


                    来源:https://twitter.com/ViLettuce/status/1758976415150559638


                    还比如下面视频的发布者“víty”表示这个“女生吃面包时与他人发生争执”视频是 Sora 生成的,提示词是:𝘞𝘩𝘪𝘵𝘦 𝘸𝘰𝘮𝘢𝘯 𝘦𝘢𝘵𝘴 𝘣𝘳𝘦𝘢𝘥,𝘢𝘶𝘯𝘵 𝘣𝘪𝘵𝘤𝘩𝘴𝘭𝘢𝘱、𝘸𝘩𝘪𝘵𝘦 𝘸𝘰𝘮𝘢𝘯 𝘭𝘢𝘶𝘨𝘩𝘴、𝘱𝘪𝘢𝘯 𝘰𝘥𝘶𝘩𝘩,𝘩𝘰𝘶𝘴𝘦𝘦𝘷𝘪𝘤𝘵𝘪𝘰𝘯,𝘤𝘰𝘰𝘭𝘣𝘢𝘴𝘴𝘰𝘶𝘵 𝘳𝘰𝘮𝘶𝘴𝘪𝘤。


                    但有网友指出,这个视频并非 Sora 生成的,而是来源于一部名为《Ti Ti Ti》的肥皂剧。看过这部剧的朋友可以出来说说~


                    00:00 / 00:00
                      1.0x
                      • 2.0x
                      • 1.5x
                      • 1.25x
                      • 1.0x
                      • 0.75x
                      • 0.5x
                      网页全屏
                      全屏
                      00:00

                      来源:https://twitter.com/vvvorvvtorvitor/status/1758654081176866906


                      回到文章最初问到的问题,其实帖子下面也引起了网友的各种讨论,有人说是真的,有人说是生成的。而真正的答案就是:那是真实的视频。



                      出自外媒 The Guardian 在 2017 年的报道:


                      https://www.theguardian.com/global/video/2017/jun/27/man-hit-by-bus-in-reading-survives-without-injury-video


                      你猜对了吗?


                      参考链接:


                      https://twitter.com/minchoi/status/1758831971726225591

                      https://twitter.com/NoContextBrits/status/1759212202853040265

                      https://openai.com/research/video-generation-models-as-world-simulators



                      公众号推荐:

                      跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

                      2024-02-20 12:215879

                      评论

                      发布
                      暂无评论

                      这些js原型及原型链面试题你能做对几道

                      loveX001

                      JavaScript 前端

                      阿里前端常考vue面试题汇总

                      bb_xiaxia1998

                      Vue 前端

                      快来解锁小程序蓝牙开发技能

                      南城FE

                      小程序 微信 前端开发 uniapp 蓝牙

                      一块GPU搞定ChatGPT;ML系统入坑指南;理解GPU底层架构

                      OneFlow

                      人工智能 深度学习

                      能不能手写Vue响应式?前端面试进阶

                      bb_xiaxia1998

                      Vue 前端

                      人人看得懂的ChatGPT技术原理解析

                      Baihai IDP

                      人工智能 自然语言处理 NLP 大模型 12 月 PK 榜 ChatGPT

                      一步步实现React-Hooks核心原理

                      helloworld1024fd

                      JavaScript 前端

                      华为Push用户增长服务:精准触达,加速增长

                      HMS Core

                      HMS Core

                      INFINI 产品更新|Loadrun 首发亮相

                      极限实验室

                      console Gateway infini loadgen loadrun

                      富表智能可视化设计工具(FusionView)

                      风清扬

                      数据分析 低代码 可视化 数据大屏 数据可视化拖拽

                      用于双目重建中的GPU编程:julia-cuda

                      京东科技开发者

                      机器学习 gpu 编码 Code julia

                      瓴羊Quick BI智能报表打破“中式”报表限制,提速增效

                      夏日星河

                      阿里前端二面经典手写面试题汇总

                      helloworld1024fd

                      JavaScript 前端

                      谈谈前端性能优化-面试版

                      loveX001

                      JavaScript 前端

                      解密游戏推荐系统的建设之路

                      vivo互联网技术

                      架构 推荐系统

                      实现一个简单的Database11(译文)

                      GreatSQL

                      MySQ percona server greatsql greatsql社区

                      react的jsx和React.createElement是什么关系?面试常问

                      beifeng1996

                      前端 React

                      React面试:谈谈虚拟DOM,Diff算法与Key机制

                      beifeng1996

                      前端 React

                      互联网大厂Java 最常见的 1100+ 面试题汇总(金三银四面试必备)

                      架构师之道

                      java面试

                      推荐系统[八]算法实践总结V0:腾讯音乐全民K歌推荐系统架构及粗排设计

                      汀丶人工智能

                      自然语言处理 推荐系统 推荐算法 搜索算法

                      高级前端必会面试题(边面边更)

                      loveX001

                      JavaScript 前端

                      有趣的`events_statements_current`表问题

                      GreatSQL

                      MySQL greatsql greatsql社区

                      百度前端高频react面试题(持续更新中)

                      beifeng1996

                      前端 React

                      前端一面react面试题(持续更新中)

                      beifeng1996

                      前端 React

                      湖仓一体电商项目(二十一):数据发布接口和数据可视化

                      Lansonli

                      湖仓一体电商项目

                      前端必会面试题指南

                      loveX001

                      JavaScript 前端

                      零代码(低代码)工作流引擎(cube-flowable)

                      风清扬

                      低代码 工作流引擎 动态表单

                      学生信息管理系统

                      lory(侯保国)

                      说说Vue响应式系统中的Watcher和Dep的关系-面试进阶

                      bb_xiaxia1998

                      Vue 前端

                      DevOps 与 FinOps:二者可以协同吗?

                      SEAL安全

                      DevOps FinOps 企业号 2 月 PK 榜

                      js函数柯里化-面试手写版

                      helloworld1024fd

                      JavaScript 前端

                      Sora生成的视频太真实?那是你遇到造假了_计算机视觉_褚杏娟_InfoQ精选文章