写点什么

字节跳动辟谣推出中文版 Sora:还无法完善产品落地,距离国外模型有很大差距

  • 2024-02-20
    北京
  • 本文字数:651 字

    阅读完需:约 2 分钟

大小:303.69K时长:01:43
字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距

今日有消息称,在 Sora 引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

 

对此,字节跳动相关人士向媒体回应称,Boximator 是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

 

根据介绍,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。例如,“小猫把自己藏进杯子里了”:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    “由像素组成的角色正在跳舞”:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      “一个红衣女孩用头骨遮住了脸”:


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        “一名年轻女子转过头,露出了她的侧脸”:


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          “蜘蛛侠向镜头摆动”:


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            根据论文介绍,Boximator 使⽤ 3D U-Net 架构构建在视频扩散模型之上。3D U-Net 由交替的卷积块和注意⼒块构成。每个块包含两个组件:⼀个空间组件,负责将各个视频帧作为单独的图像进⾏处理;另外一个是时间组件,⽀持跨帧信息交换。

             

            为了实现对视频中物体、人物的动作控制,Boximator 使用了“软框”和“硬框”两种约束方法。其中,硬框可精确定义目标对象的边界框,软框则定义一个对象可能存在的区域, 形成一个宽松的边界框。

             

            控制模块可以将框约束的编码与视频帧的视觉编码结合,用来指导视频的精准动作生成。包含框编码器和自注意力层两大块。

             

            论文地址:https://arxiv.org/abs/2402.01566

             

            下面是研发人员给出的 Gen-2、Pink1.0 和 Boximator 的对比:


            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                 根据其在Github上的信息,Boximator 演示网站正在开发中,将在未来 2-3 个月内推出。


                2024-02-20 14:576917

                评论

                发布
                暂无评论
                发现更多内容

                自研消息队列架构设计文档

                菠萝吹雪—Code

                架构实战营

                入门到精通!阿里码农熬了2晚整理的Java工具,真香

                飞飞JAva

                Java java工具类

                Java开发项目模板16步快速搭建,拒绝重复性工作!

                北游学Java

                Java 项目 模板

                字节一二三面,面经(已经OC)四月底真实面试经历!

                Java大蜗牛

                Java 程序员 面试 算法 后端

                GitHub首次上线!华为顶级工程师手写的这份网络协议手册全面开源

                Java架构之路

                Java 程序员 面试 编程语言 计算机

                区块链与物联网融合发展都会有哪些机遇与挑战

                CECBC

                区块链

                出游时,请继续戴好口罩

                石云升

                新冠疫苗 5月日更

                进击的速溶咖啡:当中国AI开始玩工业化

                脑极体

                太简单了!这套Java异常处理的总结,80%的人都没看过

                牛哄哄的java大师

                Java

                从简历被拒到收割8个大厂offer,我用了3个月成功破茧成蝶

                Java架构之路

                Java 程序员 架构 面试 编程语言

                不要轻言放弃,阿里P8架构师分享十年学习生涯

                Java架构师迁哥

                模块三作业:消息队列详细设计文档

                薛定谔的指南针

                架构实战营

                4.2 Go语言从入门到精通:延迟函数 defer

                xcbeyond

                defer Go 语言 5月日更

                新手学习微服务,得先看看这篇文章

                Java架构师迁哥

                Vue Router 10 条高级技巧

                Thrash

                技巧

                超级全面的测试用例设计,你确定不来看一看?

                程序员阿沐

                软件测试 测试用例 测试工程师

                建筑行业全周期区块链产融平台

                CECBC

                建筑行业

                去中心化、P2P、NAT浅析

                IT酷盖

                音视频 WebRTC 去中心化

                天时地利人和—一个传奇操作系统的诞生记

                兆熊

                unix 历史

                架构实战营 模块二 作业

                Pitt

                架构实战营

                Golang实现文件复制的技巧

                liuzhen007

                Go 语言 5月日更

                架构设计模块3 - 消息队列架构设计文档

                Presley

                架构实战营

                自研消息队列架构设计文档

                贯通

                #架构实战营

                网络攻防学习笔记 Day5

                穿过生命散发芬芳

                5月日更 网络攻防

                数字资产的发行是全球都无法阻挡的大趋势!

                CECBC

                数字资产

                SpringBoot-技术专题-教你使用Cache缓存组件

                码界西柚

                spring springboot cache 5月日更

                Dubbo 动态配置中心

                青年IT男

                dubbo

                【死磕JVM】看完这篇我也会排查JVM内存过高了 就是玩儿!

                牧小农

                JVM;

                封神总结!蚂蚁金服+滴滴+美团+拼多多+腾讯15万字Java面试题

                Java架构之路

                Java 程序员 架构 面试 编程语言

                算法训练营 - 学习笔记 - 第五周

                心在飞

                打破思维定式(二)

                Changing Lin

                5月日更

                字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距_计算机视觉_褚杏娟_InfoQ精选文章