2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

Runway 全新 Gen-3 视频生成模型获网友盛赞:比 Sora 更好

  • 2024-06-20
    北京
  • 本文字数:2192 字

    阅读完需:约 7 分钟

大小:1.04M时长:06:04
Runway 全新 Gen-3 视频生成模型获网友盛赞:比 Sora 更好

凭借广受欢迎的视频生成工具而声名大噪的 AI 厂商 Runway 最近发布了最新版本的 Runway Gen-3。Gen-3 Alpha 是 Runway 在专为大规模多模态训练所构建的全新基础设施之上,训练出的模型家族的首位成员。与 Gen-2 相比,Gen-3 在保真度、一致性和运动表现方面迎来重大改进,并朝着构建通用世界模型迈出了坚实一步。


新模型目前仍处于 alpha 内测阶段,尚未对外公布。但从一系列演示视频的效果来看,与目前已经开放的 Gen-2 相比,下代模型生成的视频似乎在连续性、真实性以及提示词遵循能力方面取得了重大飞跃。


  • 细粒度的时间控制


Gen-3 Alpha 由描述精细、时间密集的描述词训练而成,可实现富有想象力的过渡效果并为场景元素生成精确的关键帧。


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    • 逼真的人类形象


    Gen-3 Alpha 擅长生成具有各种动作、手势及情绪,且富有表现力的人类形象,开拓出前所未有的叙事方式与空间。

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      • 为艺术家而生,供艺术家使用


      Gen-3 Alpha 的训练由研究科学家、工程师及艺术家共同组成的跨学科团队倾力完成,旨在诠释各种视觉风格及镜头语言。


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        Gen-3 模型生成的视频,特别是包含大画幅人脸特写的视频,拥有极为逼真的画面效果。这也不禁令 AI 艺术社区的成员们将其与 OpenAI 尚未发布,但同样备受期待的 Sora 进行了比较。


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          网友评价


          一位 Reddit 用户在 Runway Gen-3 讨论主题下的高票评论中写道,“哪怕目前展示的都是精心挑选的优质之作,效果看起来也要比 Sora 好得多。Sora 的效果和观感仍有风格化痕迹,但这边的视频则更真实,也是我迄今为止见过的最好的 AI 生成视频。”


          另一位用户则在拥有 6.6 万成员的 Reddit AI Video 子频道上写道,“如果不告诉我,我肯定会觉得这些画面是真实拍摄出来的。”


          AI 电影制作人、自称 Runway 创意合作伙伴的用户 PZF 发布推文称,“这些 Runway Gen-3 片段在我看来吸引力十足——看起来很有电影的质感。画面流畅、平实(我是说非常自然)而且相当可信。”



          除了 Gen-3 视频生成器,Runway 还推出了一套微调工具,提供更灵活的图像与相机控制选项。该公司发布推文称,“Gen-3 Alpha 将为 Runway 的文本生视频、图像生视频以及文本生图像工具、现有控制模式(例如运动画笔、高级相机控制及导演模式)以及即将推出的工具提供支持,以前所未有的精细方式控制结构、风格与运动形态。”



          Gen-3 Alpha 是 Runway 在专为大规模多模态训练所构建的全新基础设施之上训练出的模型家族的首位成员,代表我们朝着构建通用世界模型迈出了坚实一步。



          Gen-3 Alpha 经过视频与图像的联合训练,旨在为 Runway 旗下各文本生视频、图像生视频及文本生图像工具、现有控制模式(如运动画笔、高级相机控制、导演模式)以及即将推出的更多工具提供支持,以前所未有的精细方式控制结构、风格与运动形态。


          Runway 宣称,Gen-3 是其实现建立“通用世界模型”这一雄心勃勃目标的重要一步。这些模型使得 AI 系统能够构建环境的内部表现,并借此来模拟该环境中将要发生的未来事件。这种方法使得 Runway 有别于只关注特定时间轴内下一可能帧的传统预测技术。


          虽然 Runway 方面尚未透露 Gen-3 的具体发布时间,但公司联合创始人兼 CTO Anastasis Germanidis 宣布 Gen-3 Alpha“将很快在 Runway 产品内现身”。他还透露,具体包括现有模态以及“一些目前只能借助更强大基础模型实现的新模态”。



          Runway Gen-3 Alpha 将很快在 Runway 产品中现身,并将支持大家所熟悉的全部现有模态(文本生视频、图像生视频、视频生视频),以及一些目前只能借助更强大基础模型实现的新模态。

          竞品对比


          Runway 的 AI 探索之旅始于 2021 年,当时他们与慕尼黑大学的研究人员合作开发出 Stable Diffusion 的首个版本。Stability AI 后来以帮助该项目承担计算成本为由介入,并推动 AI 视频生成在全球范围内掀起热潮。


          从那时起,Runway 就一直是 AI 视频生成领域的重要参与者,与 Pika Labs 等竞争对手并驾齐驱。然而,随着 OpenAI 宣布推出超越现有模型能力的 Sora,市场格局也随之发生变化。好莱坞著名演员阿什顿·库彻最近表示,像 Sora 这样的工具可能会彻底颠覆影视剧的创作逻辑,此言一出旋即引发轰动。


          然而就在全球翘首期待 Sora 发布之际,新的竞争对手也陆续崭露头角,包括快手打造的 Kling 以及 Luma AI 的 Dream Machine。


          Kling 是一款来自中国的视频生成器,能够以每秒 30 帧的速度生成最长 2 分钟的 1080p 分辨率视频,较现有模型实现了巨大改进。这套中文模型现已发布,但用户需要使用中国手机号进行注册。快手表示后续将为该模型推出全球版。


          另一颗新星 Dream Machine 则是一套可供免费使用的平台,能够将书面文本转换为动态视频,且生成结果在质量、连续性及提示词遵循效果方面全面超越 Runway Gen-2。用户只需提交 Google 账户即可完成登录,但目前由于人气过高,内容生成速度往往很慢、甚至无法顺利完成视频生成。


          在开源领域,Stable Video Diffusion 虽然在生成效果上不算出色,但其开放属性却为模型的后续改进和发展提供了坚实基础。Vidu 是由北京生数科技和清华大学开发的另一款 AI 视频生成器,采用名为 Universal Vision Transformer (U-ViT) 的专有视觉转换模型架构,只需一次单击即可生成 16 秒长的 1080p 分辨率视频。


          至于前面提到的 Pika Labs,由于尚未发布重大更新,所以其目前的生成效果基本与 Runway Gen-2 持平。


          参考链接:


          https://runwayml.com/blog/introducing-gen-3-alpha/https://decrypt.co/235842/runway-gen-3-ai-video-better-than-sora


          2024-06-20 18:049896

          评论 1 条评论

          发布
          用户头像
          用“高品质模型”生成 1:1 比例的视频。

          ---

          🎬 视频脚本:《王子与美人鱼·归海》
          比例:1:1|时长:10秒|风格:奇幻唯美|模型:高品质

          ---

          ⏱️ 第 0-2 秒
          画面:

          金色长发的王子跪在礁石上,海浪拍岸。他伸手扶起一条银蓝色鱼尾的男美人鱼,他长发湿透,眼神惊惶又温柔。

          镜头:特写→中景,慢动作,阳光从背后洒下,水珠飞溅。

          音效:海浪声+心跳声。

          ---

          ⏱️ 第 2-4 秒
          画面:

          王子将男美人鱼扶起,他鱼尾轻摆,勉强站稳。两人对视,时间仿佛静止。

          镜头:1:1 中心构图,眼神交汇,背景虚化。

          特效:微光粒子在两人之间流动,暗示命运之轮转动。

          ---

          ⏱️ 第 4-6 秒
          画面:

          男美人鱼突然笑了,双手环住王子的腰,轻松将他抱起(反差感:他看似柔弱,实则力量惊人)。

          镜头:低角度仰拍,王子惊讶又宠溺地笑。

          音效:轻笑+海浪声渐强。

          ---

          ⏱️ 第 6-8 秒
          画面:


          美人鱼抱着王子,鱼尾化作金色光尘,变成双腿(或保持鱼尾,走向深海)。他一步步踏入海中,海水自动分开。

          镜头:侧跟拍,水面如镜,倒影清晰。

          特效:海底光束从深处射来,宫殿轮廓浮现。

          ---

          ⏱️ 第 8-10 秒
          画面:

          两人沉入海底,一座水晶王宫缓缓开启大门,鱼群环绕,光芒万丈。

          镜头:拉远,1:1 画幅正中,王宫如瞳孔般绽放。

          字幕渐显:

          “命运之轮已转动,归途不再是传说。”
          使用「动态强度」中等,避免变形。

          可加「水下光斑」「粒子特效」增强梦幻感。
          展开
          2025-11-01 19:33 · 内蒙古
          回复
          没有更多了
          发现更多内容

          TikTok安装

          箭上有毒

          4月日更

          朱嘉明:算力产业正面临着一个十年的长周期

          CECBC

          数字经济

          在gitee码云上搭建一个网站

          空城机

          JavaScript 大前端 gitee 4月日更 搭建网页

          Lombok初始使用及遇到的问题

          风翱

          lombok 4月日更

          Ansible 介绍

          耳东@Erdong

          4月日更

          对话声网 Agora 首席科学家钟声 :5G时代到来前景下RTE实时互动技术的应用与发展

          麦洛

          Java

          精通比特币:为什么它对自由、财务和未来至关重要(上篇)

          CECBC

          比特币

          关于数字人民币、加密货币,央行前行长周小川、副行长李波博鳌论坛发声

          CECBC

          数字货币

          访谈阿里巴巴安全科学家吴翰清

          容光

          专访 阿里吴翰清 最新网络安全

          【提纲】专访融云 CTO 杨攀 | 物联网城池应用和发展

          李孟聊AI

          调查采访能力考核

          【提纲】专访融云CTO杨攀 | 技术型人才的自我修炼

          Python研究所

          调查采访能力考核

          《采访彩食鲜 CTO 乔新亮:IT 团队从 100 到 10000 的管理心得》(采访提纲)

          程序员历小冰

          调查采访能力考核

          MySQL 死锁套路:再来看一例走不同索引更新的例子

          AI乔治

          Java MySQL 架构

          由 JVM Attach API 看跨进程通信中的信号和 Unix 域套接字

          AI乔治

          Java 架构 JVM 性能调优

          玩一玩Tiktok

          箭上有毒

          4月日更

          专家呼吁:保护肾脏,从关注酸性尿开始

          E科讯

          如何从零开始学Python:(3)划重点:使用IDLE创建列表时需要注意的地方

          广之巅

          Python 4月日更

          ARTS- Week 7

          steve_lee

          领域驱动设计 101- 上下文与持续集成

          luojiahu

          领域驱动设计 DDD

          Go Goroutine

          escray

          学习 极客时间 Go 语言 4月日更

          python 变量作用域和列表

          若尘

          变量 Python编程 作用域

          ElasticSearch 如何使用 TDigest 算法计算亿级数据的百分位数?

          程序员历小冰

          大数据 elasticsearch 近似算法 TDgigest

          专访声网首席科学家钟声|倾听不一样的“钟声”,声网实时互动服务

          程序员架构进阶

          28天写作 4月日更 调查采访能力考核 人物访谈

          模块2的作业

          谢博琛

          1W字|40 图|硬核 ES 实战

          悟空聊架构

          全文检索 elasticsearch elastic springboot 实战

          LeetCode题解:145. 二叉树的后序遍历,栈,JavaScript,详细注释

          Lee Chen

          算法 大前端 LeetCode

          对话声网 Agora 首席科学家钟声 :声网的未来规划和人才建议

          小诚信驿站

          采访 调查采访能力考核

          为什么微服务一定要有 API 网关?

          xcbeyond

          微服务 api 网关 4月日更

          混沌工程=可观测性+探索性测试?

          混沌工程实践

          云原生 可观测性 混沌工程 测试右移 探索性测试

          浪潮云洲链全面接入“星火·链网”

          工业互联网

          【AI全栈二】视频流多目标多类别无延迟高精度高召回目标追踪

          cv君

          音视频 目标检测 视频跟踪 引航计划

          Runway 全新 Gen-3 视频生成模型获网友盛赞:比 Sora 更好_AI&大模型_褚杏娟_InfoQ精选文章