写点什么

字节跳动辟谣推出中文版 Sora:还无法完善产品落地,距离国外模型有很大差距

  • 2024-02-20
    北京
  • 本文字数:651 字

    阅读完需:约 2 分钟

大小:303.69K时长:01:43
字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距

今日有消息称,在 Sora 引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

 

对此,字节跳动相关人士向媒体回应称,Boximator 是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

 

根据介绍,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。例如,“小猫把自己藏进杯子里了”:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    “由像素组成的角色正在跳舞”:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      “一个红衣女孩用头骨遮住了脸”:


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        “一名年轻女子转过头,露出了她的侧脸”:


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          “蜘蛛侠向镜头摆动”:


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            根据论文介绍,Boximator 使⽤ 3D U-Net 架构构建在视频扩散模型之上。3D U-Net 由交替的卷积块和注意⼒块构成。每个块包含两个组件:⼀个空间组件,负责将各个视频帧作为单独的图像进⾏处理;另外一个是时间组件,⽀持跨帧信息交换。

             

            为了实现对视频中物体、人物的动作控制,Boximator 使用了“软框”和“硬框”两种约束方法。其中,硬框可精确定义目标对象的边界框,软框则定义一个对象可能存在的区域, 形成一个宽松的边界框。

             

            控制模块可以将框约束的编码与视频帧的视觉编码结合,用来指导视频的精准动作生成。包含框编码器和自注意力层两大块。

             

            论文地址:https://arxiv.org/abs/2402.01566

             

            下面是研发人员给出的 Gen-2、Pink1.0 和 Boximator 的对比:


            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                 根据其在Github上的信息,Boximator 演示网站正在开发中,将在未来 2-3 个月内推出。


                2024-02-20 14:576548

                评论

                发布
                暂无评论
                发现更多内容

                C 语言结构体和枚举完全指南:成员访问、字符串操作、枚举基础

                小万哥

                程序人生 编程语言 软件工程 C/C++ 后端开发

                盘点2023年我用过的AI大模型,国内也能免费用

                程序员晚枫

                大厂 大模型

                TiDB 在全球头部物流企业计费管理系统的应用实践

                PingCAP

                数据库 开源 分布式 TiDB 物流系统

                首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

                PingCAP

                数据库 开源 云原生 TiDB 银行业

                抖音APP如何实现用户生命周期提升

                字节跳动数据平台

                大数据 A/B测试 企业号 1 月 PK 榜 对比试验 数字化增长

                Terraform 的开源替代:OpenTofu 宣布 GA!

                SEAL安全

                开源 Terraform OpenTofu

                铭文 LaunchPad 平台 Solmash 推出早鸟激励计划

                加密眼界

                PingCAP 受邀参加 FICC 2023,获 Open100 世纪全球开源贡献奖

                PingCAP

                数据库 开源 分布式 TiDB pingCAP

                神州数码集团荣获“TiDB 社区最佳贡献企业”

                PingCAP

                数据库 开源 TiDB

                极狐 GitLab 冷知识:使用 git push 创建 Merge Request

                极狐GitLab

                使用存储过程自动化分区管理 Zabbix MySQL(8) 数据库中的大表;

                瀚中子🤩

                交易所做市机器人与去中心化做市机器人

                区块链技术

                微短剧市场暴涨267.65%,用微短剧场景AUI Kit精巧入局

                阿里云CloudImagine

                云计算 视频云 微短剧

                存储结构的种类与比较

                天翼云开发者社区

                数据 存储结构

                铭文 LaunchPad 平台 Solmash 推出早鸟激励计划

                股市老人

                打造创新的金融数据平台,加速数字化和智能化转型丨PingCAP 官网金融行业专区上线

                PingCAP

                数据库 开源 金融 TiDB 金融数据

                2023 Gartner® 云数据库管理系统魔力象限发布 PingCAP 入选“荣誉提及”

                PingCAP

                数据库 Gartner TiDB

                PingCAP上榜工信微报年度回顾《2023 年工业和信息化发展情况》 三大具有国际影响力的开源社区之一

                PingCAP

                数据库 开源 分布式 数字化 TiDB

                加入openEuler训练营,一起探索开源世界的无限可能!

                科技热闻

                ZKFair 结束空投领取,未领取的1.3亿ZKF Token全部销毁

                股市老人

                深度调光降压型 LED 恒流驱动器

                芯动大师

                铭文 LaunchPad 平台 Solmash 推出早鸟激励计划

                石头财经

                铭文 LaunchPad 平台 Solmash 推出早鸟激励计划

                BlockChain先知

                持续构建行业影响力|HarmonyOS SDK荣膺年度“技术卓越”奖项

                HarmonyOS开发者

                HarmonyOS

                面试官:实际工作中哪里用到了自定义注解?

                王磊

                Java 面试

                字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距_计算机视觉_褚杏娟_InfoQ精选文章