【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

试了下 Stable Video,我的建议是不如不用|AI 测评室

  • 2024-03-04
    北京
  • 本文字数:3251 字

    阅读完需:约 11 分钟

试了下 Stable Video,我的建议是不如不用|AI 测评室

去年 11 月,人工智能初创公司 Stability AI 首次推出了 Stable Video,这款模型基于之前发布的 Stable Diffusion 文本转图片模型进行延伸,能够通过现有图片生成视频,是当时市面上少有的能够生成视频的 AI 模型之一。


当时,Stability AI 在 GitHub 上发布了模型代码,并在 HuggingFace 上发布了权重,有硬件能力和相关技术的用户可以在本地下载和运行。


近日,Stable Video 正式开放公测,这对于那些没有强大的 GPU 或没有足够的技术能力来设置的人来说无疑是个好消息,而且内测期间的 Stable Video 还可以免费使用。另外,尽管大家都在关注 Sora,但有人估计至少 Sora 还需要三个月才能开始内测,因此 Stable Video 公测着实也吸引了一波关注。


那它的效果到底如何呢?

文生视频:恭喜及格


相信很多人都见过 Sora 刚发布时候展示的这个 60 秒视频,无数人都被视频里场景的真实性震撼到了:


00:00 / 00:00
    1.0x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    Sora 虽然没有面向公众开放,但其主创团队一直在 X 上发出最新生成的视频。Sora 作者 Tim Brooks 最新的一个视频甚至让好莱坞导演表示,直接搁置了自己影视工作室 8 亿美元的预告计划。


    虽然 Sora 在视频生成上独树一帜,但之前在这个领域耕耘的公司并不甘心落后。首先,我们看看影响了 OpenAI GPT-4 进程的 Stability AI 能做到什么程度。


    为避免提示词这个变量带来的影响,我们与上面 Sora 视频相同的提示词来生成视频。整个操作流程很简单:输入提示词后,它会生成四个相似的图片,从中选择一个后,再选择一个简单的效果后就可以生成视频了。



    最后, Stable Video 生成的视频如下:


    00:00 / 00:00
      1.0x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      我们把原来的提示词解构成以下 12 个要素:时尚女人、东京街道、霓虹灯、黑色皮夹克、红色长裙、黑色靴子、黑色钱包、太阳镜、口红、走路、反光道路和行人走动, Stable Video 完成了 8 个,“红色长裙、黑色靴子、黑色钱包、走路”四个没有完成,其中“红色长裙、黑色钱包”都发生了交叉理解,“黑色靴子和走路”完全没有体现。


      从画面来看,人物乍看之下没有什么硬伤,镜头效果是在的,背景也做了虚化处理。但画面分辨率太低导致看起来就像是糊了,尤其是画面边缘部分。另外,人物的头发抠图感也比较重。


      我们再看看另一家独角兽 Runway AI 用同一组提示词会生成什么样的视频。我们选择了免费的 Runway Gen-2 ……


      00:00 / 00:00
        1.0x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        同样,先看下提示词的完成度。“红色长裙、黑色靴子、黑色钱包、太阳镜、走路、行人走动”这 6 个要素没有完成,其中靴子颜色错了,其他的则是完全没有出现。


        从画面看,这个视频着实缺乏真实感,很漫画风,整个环境跟选择的“电影效果”似乎没有任何关系。人物也很模糊,“口红”要素有些看不出来,关键的是那个“扭头”既突兀又吓人,整体观感不太好。


        Pika 在去年 11 月正式发布 Pika 1.0 后风靡一时,其创始人郭文景也被媒体各种曝光。Pika 1.0 也被称作是 Runway Gen-2 的最强竞品。那对于现在的 Pika 来说,这段提示词能生成什么样的视频?我们也尝试了下:


        00:00 / 00:00
          1.0x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          提示词完成度方面,“红色长裙、黑色钱包、太阳镜、口红和走路”这 5 个要素没有完成,裙子长度和颜色错误,钱包颜色也错了,“太阳镜、口红、走路”则完全没有出现。


          画面有些赛博朋克风,画面只有一个女人的背影,”太阳镜、口红”这些其实暗示了是人物正面,Pika 并没有 get 到这一点。另外,Pika 背景处理其实比 Stable Video、Runway 好一些,但路过的车是最大失误,行驶后的虚影没有处理好,可以看到 6 个车轮。


          综合上面四个产品,我们针对生成的视频做了纬度评分:



          在视频生成的速度方面,Stable Video 耗时相对较长,大概用了不到一分钟,Runway Gen-2、Pika 相对少一些。根据亲自体验了 Sora 的彭博社说法,Sora 的等待时间可能更久:


          与使用 OpenAI 的 Dall-E 3 生成单个图像相比,Sora 还需要更多的时间和计算能力来生成每个视频。OpenAI 不会准确说明 Sora 处理每个请求需要多长时间,但 Peebles 说这“绝对不是即时的”。“你甚至可以用等待的时间去吃个零食”,OpenAI 研究科学家 Bill Peebles 说道。


          另外,对于 Sora 生成的视频质量,或许用户测试的随意测试的结果也不会像内部人员发出来的那么惊艳。在彭博社博实测 Sora 的视频里,也出现了明显的错误。


          那么,大家认为这四个模型在文成视频方面的差距有多大呢?


          另外,我们也测试了 Stable Video 的中文理解能力,结论是:千万不要用中文提示词!



          我们用上述中文描述让 Stable Video 生成一个视频,没有添加任何效果。结果,除了与“少女”关键词相关外,其他可以说是毫无关系。而且,最后一闪而过的头像,瞬间将视频变成了恐怖片现场。

          图片转视频:一言难尽


          除了文字生成视频,Stable Video 也提供了图片生成方式。将图片转成视频的功能,在厂商宣传中会被包装成用于“视频制作、网页设计等领域”,那真的可以做到了吗?


          我们在测评之前,就有人说尝试用自己的照片转成视频,结果发现有人脸的图都崩了。本来想着应该崩也崩不到哪里去吧,直到自己试了一下……



          我们找了上面的图片(因为我的帅哥同事拒绝了我的出镜请求),并改成了官方给到的推荐尺寸。我们想象的场景是,Stable Video 可以让人的头发和后边的窗纱飘起来,但结果却被吓到了:人脸的扭曲程度太大了!


          00:00 / 00:00
            1.0x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            在把“相机”设置去掉,改成“轨道”后,也不行:


            00:00 / 00:00
              1.0x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              可以看出,视频生成质量跟那些效果设置其实没有关系,还是模型本身质量决定的。我们非常不推荐用人脸的图片转成视频,会被“惊喜”到。而且,喜欢照相的女孩子可能不会喜欢 Stable Video ~


              那么,对于动物图片的生成效果如何呢?我们找了一张可爱的猫猫图,希望不要被“爆改”。



              为了控制各种变量,这次我们什么效果都没有设置,图片尺寸也是推荐尺寸,结果却是:


              00:00 / 00:00
                1.0x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                画面里的猫猫动是动起来了,但是面部依然扭曲了。真是想说:还我可爱的猫猫!


                没有人物的风景图可能是最后的倔强了。我们找了一张花草的图片尝试了下:



                生成的视频是这样的:


                00:00 / 00:00
                  1.0x
                  • 2.0x
                  • 1.5x
                  • 1.25x
                  • 1.0x
                  • 0.75x
                  • 0.5x
                  网页全屏
                  全屏
                  00:00


                  花朵摇曳,虽然没有扭曲了,但总有一种假假的感觉,而且视频清晰度太低了,画面很糊。


                  整体来看,对于 Stable Video,我们还是不建议用有人像的图片生成视频,动物图片慎选,风景图可以尝试,但付费的话就要考虑下了。对于图片生成视频的应用,可能适合对视频质量要求不高的场景。


                  脑洞时刻:


                  在网上看到吐槽去年电视剧里各种神奇运镜的视频,这种感觉确实可以用一张图完成:


                  00:00 / 00:00
                    1.0x
                    • 2.0x
                    • 1.5x
                    • 1.25x
                    • 1.0x
                    • 0.75x
                    • 0.5x
                    网页全屏
                    全屏
                    00:00


                    (开个玩笑,不针对任何人哈~~)

                    性价比?不好意思,也没有


                    细心的读者可能发现,在生成设置的图片里,Stable Video 经常提到“宽高比”的问题。官方推荐的图片分辨率是 1024x576、576x1024 或 768x768。但是,官方从头到尾没有在操作过程里给到用户建议尺寸,所以我们是在几乎测试完成后才看到推荐尺寸,然后为了看效果有没有区别就又重新测试了一遍,结果是:毫无区别,只白白浪费了积分。


                    是的,Stable Video 虽然声称免费,但生成视频是消耗积分的。它给了每个用户 150 的初始积分,其中图片生成视频消耗 10 积分,文字生成视频消耗 11 积分。如果用户不使用文本生成的视频,官方则会将积分退回。另外,每个用户每天都会免费获得一些积分,但获得积分数额未来可能会变。


                    等这些积分消耗完之后,用户就到了付费阶段:10 美元(大约 72 元)可以生成 50 个视频,50 美元(大约 360 元)生成 300 个视频。



                    也就是说,70 多块钱可以生成 3 分钟多的视频,幸亏废片可以退,不然真的一点性价比都没有。


                    想了解更多可以查看:


                    https://www.stablevideo.com/faq


                    结束语


                    不否认 Stability AI 官网呈现出来的效果确实也不错,但随手出片是远远做不到的。目测,文生视频比图片生视频的效果好一些,是有“1 积分的提效”。


                    总的来说,Stability AI 这次免费公测 Stable Video,看起来也像是在为商业化铺垫,想试水让大家为效果付费。但 Stable Video 现在呈现出来的效果,还是差点意思。


                    栏目推荐


                    大模型日新月异,夸得天花乱坠,不如实际用用!

                    AI 前线特别栏目《AI 测评室》营业啦!

                    后续 AI 前线将会定期选择模型产品进行测评,效果直观可见,为大家选择模型做参考。


                    你希望我们测试哪个模型效果?可以评论区或私信告诉我们。如果想让大家看到你的产品,也欢迎来撩,微信:T_demo(请注明来意)



                    公众号推荐:

                    跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

                    2024-03-04 10:284275

                    评论 2 条评论

                    发布
                    用户头像
                    最后一个视频,你是想上天,杀死人吗
                    2024-03-04 13:45 · 四川
                    回复
                    用内娱镜头给IT届一点小小的“震撼”hhh
                    2024-03-04 15:38 · 北京
                    回复
                    没有更多了

                    Spring之核心容器

                    楠羽

                    笔记 SP【ring 10月月更

                    List的基础数据的处理

                    卢卡多多

                    List 10月月更

                    「CSS畅想」我的发呆专属,反复解锁手机屏幕

                    叶一一

                    CSS JavaScript 前端 10月月更

                    「Hive进阶篇」三、HQL底层执行过程及原理详解

                    大数据阶梯之路

                    大数据 hive 面试 数仓

                    将系统划分为模块(微服务)的必要性

                    宇宙之一粟

                    微服务 系统设计 论文阅读 模块化 10月月更

                    Dev-C++5.11安装教程

                    Yeats_Liao

                    后端 Java core 10月月更

                    VS2019 添加bits/stdc++.h万能头文件库

                    Yeats_Liao

                    后端 Java core 10月月更

                    Photoshop软件应用项目(二)

                    张立梵

                    设计师 ps 10月月更

                    微信红包后台系统可用性设计实践

                    Johnny

                    25分钟了解命令执行漏洞【例题+详细讲解】(一)

                    贤鱼很忙

                    网络安全 Web 10月月更

                    「CSS畅想」定时+随机,开启今日上上签

                    叶一一

                    JavaScript 前端 10月月更

                    IDEA SpringBoot SQL连接常见五大异常处理

                    Yeats_Liao

                    后端 Java core 10月月更

                    Vue组件入门(五)props +

                    Augus

                    Vue3 10月月更

                    微信红包体系设计分析

                    Johnny

                    微信红包实现原理

                    Johnny

                    微信红包系统设计分享 | 如何扛住100亿次请求?

                    Johnny

                    全链路监控建设的4个重点

                    穿过生命散发芬芳

                    全链路监控 10月月更

                    「经验总结」高效开发,老代码可以这样动

                    叶一一

                    高效工作 前端 10月月更

                    「前端组件化」以Antd为例,快速打通UI组件开发的任督二脉

                    叶一一

                    前端 React 10月月更

                    从手动测试到自动化测试(下)

                    FunTester

                    还在为sql注入眼花缭乱的过滤而烦恼?一文教您快速找出所有过滤内容

                    贤鱼很忙

                    网络安全 SQL注入 10月月更

                    Zepoch节点单日内售罄,市场反响颇高

                    EOSdreamer111

                    Java面向对象之构造方法

                    魏铁锤

                    10月月更

                    「React开发」梳理HOC的点点滴滴

                    叶一一

                    前端 React 10月月更

                    Zepoch节点单日内售罄,市场反响颇高

                    股市老人

                    2022-10-14:以下go语言代码输出什么?A:0;B:7;C:9;D:不能编译。 package main import “fmt“ func main() { a := []int

                    福大大架构师每日一题

                    golang 福大大 选择题

                    Java面向对象之方法块+this关键字

                    魏铁锤

                    10月月更

                    「Hive进阶篇」四、HQL 高级巧用

                    大数据阶梯之路

                    大数据 hive 面试

                    「前端组件开发」越折腾越有趣,封装了一个表单组件

                    叶一一

                    前端 React 组件开发 10月月更

                    SAP | 认识 abap 工作台(下)

                    暮春零贰

                    SAP abap 10月月更

                    25分钟了解命令执行漏洞【例题+详细讲解】(二)

                    贤鱼很忙

                    sql 网络安全 10月月更

                    试了下 Stable Video,我的建议是不如不用|AI 测评室_AI&大模型_褚杏娟_InfoQ精选文章