写点什么

字节跳动辟谣推出中文版 Sora:还无法完善产品落地,距离国外模型有很大差距

  • 2024-02-20
    北京
  • 本文字数:651 字

    阅读完需:约 2 分钟

大小:303.69K时长:01:43
字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距

今日有消息称,在 Sora 引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

 

对此,字节跳动相关人士向媒体回应称,Boximator 是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

 

根据介绍,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。例如,“小猫把自己藏进杯子里了”:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    “由像素组成的角色正在跳舞”:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      “一个红衣女孩用头骨遮住了脸”:


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        “一名年轻女子转过头,露出了她的侧脸”:


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          “蜘蛛侠向镜头摆动”:


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            根据论文介绍,Boximator 使⽤ 3D U-Net 架构构建在视频扩散模型之上。3D U-Net 由交替的卷积块和注意⼒块构成。每个块包含两个组件:⼀个空间组件,负责将各个视频帧作为单独的图像进⾏处理;另外一个是时间组件,⽀持跨帧信息交换。

             

            为了实现对视频中物体、人物的动作控制,Boximator 使用了“软框”和“硬框”两种约束方法。其中,硬框可精确定义目标对象的边界框,软框则定义一个对象可能存在的区域, 形成一个宽松的边界框。

             

            控制模块可以将框约束的编码与视频帧的视觉编码结合,用来指导视频的精准动作生成。包含框编码器和自注意力层两大块。

             

            论文地址:https://arxiv.org/abs/2402.01566

             

            下面是研发人员给出的 Gen-2、Pink1.0 和 Boximator 的对比:


            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                 根据其在Github上的信息,Boximator 演示网站正在开发中,将在未来 2-3 个月内推出。


                2024-02-20 14:576897

                评论

                发布
                暂无评论
                发现更多内容

                延伸测试边界,银行测试团队转型建议

                BY林子

                软件测试 敏捷测试 测试转型

                开发和测试融合,到底该怎么做?

                BY林子

                敏捷开发 敏捷测试

                优秀!阿里甩出GC面试小册,仅7天Github获赞96.9K

                Java你猿哥

                Java ssm 面经 GC Java工程师

                MySQL中这14个小玩意,让人眼前一亮!

                Java你猿哥

                Java MySQL 后端 ssm Java工程师

                JAVA实战:如何让单元测试覆盖率达到80%甚至以上

                Java你猿哥

                Java ssm 单元测试 Java工程师 java实战

                记一次 rr 和硬件断点解决内存踩踏问题

                NebulaGraph

                数据库 debug

                我眼中的优秀PM

                BY林子

                团队管理 项目管理

                如何防止AD域环境遭受恶意攻击?

                嘉为蓝鲸

                AD #运维

                赋能数字经济新动能 焱融科技获评「人工智能高质量发展-行业责任担当」企业

                焱融科技

                人工智能 文件存储 容器存储 分布式文件存储 全闪存储

                聊聊池化层和步长为2的卷积层

                华为云开发者联盟

                人工智能 华为云 华为云开发者联盟 企业号 3 月 PK 榜 卷积层

                大数据计算引擎 EasyMR:拥抱开源,引领技术创新

                袋鼠云数栈

                大数据 大数据基础平台

                论文分享丨Holistic Evaluation of Language Models

                华为云开发者联盟

                人工智能 华为云 论文 华为云开发者联盟 企业号 3 月 PK 榜

                开门见山|首期《崖山论“见”》技术 Meetup启程

                YashanDB

                蛇形走线用在哪里,一文告诉你

                华秋PCB

                信号 PCB PCB设计 布线 滤波

                尚硅谷Java真题详解教程发布

                小谷哥

                HummerRisk 使用教程:k8s检测

                HummerCloud

                模型训练过程中,混合精度训练稳定性解决方案

                Openlab_cosmoplat

                模型训练 开源社区

                直击面试!阿里技术官手码12W字面试小册在Github上爆火

                Java你猿哥

                Java 后端 面经 简历 Java工程师

                Docker等容器技术应用到移动开发的探索

                Onegun

                容器 docker build 小程序容器

                一站式管理多平台小程序的办法

                Onegun

                微信小程序 小程序管理平台 小程序管理

                ITSM | 如何通过设计提升工单处理效率

                嘉为蓝鲸

                IT ITSM 流程管理

                低代码开发平台如何推动企业数字化转型

                力软低代码开发平台

                矩阵佛萨奇(MetaForce)合约开发源码搭建

                薇電13242772558

                web3

                【活动报名】 拥抱公平《 Impact Tech, She Can 》

                亚马逊云科技 (Amazon Web Services)

                人工智能

                HummerRisk 使用教程:资源态势

                HummerCloud

                BugBuilder: 高质量大规模缺陷库自动构建方法

                华为云开发者联盟

                开发 华为云 补丁 华为云开发者联盟 企业号 3 月 PK 榜

                4种API性能恶化根因分析

                华为云开发者联盟

                开发 API 华为云 华为云开发者联盟 企业号 3 月 PK 榜

                ChatGPT能否取代程序员?仍然是一个需要认真探讨的问题,对此你怎么看?

                兴科Sinco

                OpenAPI openai #人工智能 ChatGPT

                gRPC快速整合SpringCloud

                Java你猿哥

                Java gRPC Spring Cloud 后端 ssm

                字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距_计算机视觉_褚杏娟_InfoQ精选文章