2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

字节跳动辟谣推出中文版 Sora:还无法完善产品落地,距离国外模型有很大差距

  • 2024-02-20
    北京
  • 本文字数:651 字

    阅读完需:约 2 分钟

大小:303.69K时长:01:43
字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距

今日有消息称,在 Sora 引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

 

对此,字节跳动相关人士向媒体回应称,Boximator 是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

 

根据介绍,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。例如,“小猫把自己藏进杯子里了”:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    “由像素组成的角色正在跳舞”:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      “一个红衣女孩用头骨遮住了脸”:


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        “一名年轻女子转过头,露出了她的侧脸”:


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          “蜘蛛侠向镜头摆动”:


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            根据论文介绍,Boximator 使⽤ 3D U-Net 架构构建在视频扩散模型之上。3D U-Net 由交替的卷积块和注意⼒块构成。每个块包含两个组件:⼀个空间组件,负责将各个视频帧作为单独的图像进⾏处理;另外一个是时间组件,⽀持跨帧信息交换。

             

            为了实现对视频中物体、人物的动作控制,Boximator 使用了“软框”和“硬框”两种约束方法。其中,硬框可精确定义目标对象的边界框,软框则定义一个对象可能存在的区域, 形成一个宽松的边界框。

             

            控制模块可以将框约束的编码与视频帧的视觉编码结合,用来指导视频的精准动作生成。包含框编码器和自注意力层两大块。

             

            论文地址:https://arxiv.org/abs/2402.01566

             

            下面是研发人员给出的 Gen-2、Pink1.0 和 Boximator 的对比:


            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                 根据其在Github上的信息,Boximator 演示网站正在开发中,将在未来 2-3 个月内推出。


                2024-02-20 14:576500

                评论

                发布
                暂无评论
                发现更多内容

                依赖关系指的在Linux操作系统中,如何解决软件依赖关系?

                小齐写代码

                HTML文本编辑器BBEdit for Mac破解版(附注册码)支持M1/M2

                Rose

                html 代码编辑器 Mac破解软件 BBEdit注册版 BBEdit for Mac破解版

                Dash for Mac v7.1.6激活版 提升API文档编写效率

                Rose

                API文档 Mac破解软件 Dash Mac破解版 Dash下载

                Java 多线程开发系列 2:创建一个线程

                BigBang!

                Java多线程

                Android下Linux创建进程的姿势(上)

                江湖修行

                android Linux 进程

                站群服务器优势

                Geek_f19a80

                基于Java开发的供应商询价招标采购系统(SRM系统源码)

                代码人,代码魂

                Java springboot 采购 srm

                直接从 Amazon EC2 控制台模拟竞价型实例集中断的情况

                亚马逊云科技 (Amazon Web Services)

                Amazon EC2

                OpenHarmony社区运营报告(2023年10月)

                OpenHarmony开发者

                OpenHarmony

                亚马逊云科技加速大语言模型的创新应用

                三掌柜

                亚马逊云科技

                macos智能图片编辑工具:DxO PhotoLab 6 中文版

                加油,小妞!

                Raw图像处理软件 DxO PhotoLab 6

                文生图大型实践:揭秘百度搜索AIGC绘画工具的背后故事!

                百度Geek说

                AIGC 文生图 Ai绘图 企业号11月PK榜 百度搜索场景应用

                HarmonyOS NEXT调优工具Smart Perf Host高效使用指南

                HarmonyOS开发者

                HarmonyOS

                Archicad 26中文for Mac(BIM建模软件) Archicad26破解详细安装教程

                Rose

                mac软件下载 建模软件 Archicad 26破解版 Archicad 26 Mac中文版 BIM软件

                中国电信国际数智化人力领先实践

                用友BIP

                人力资源 数智化领先实践 中国电信

                YonGPT构筑酒旅企业AI大脑 轻松拿捏“松弛感”

                用友BIP

                AI YonGPT

                软件测试/测试开发丨探索Python魔力:第一个程序到快捷键大揭秘

                测试人

                Python 软件测试

                Stable Diffusion:最先进的文本生成图像模型

                3D建模设计

                人工智能 Stable Diffusion 稳定扩散 自动纹理

                Sketch 99 for mac(矢量绘图软件)

                展初云

                Mac 矢量绘图 Sketch

                针对现状为什么需要对特权账号进行管理

                尚思卓越

                网络安全 特权账号管理

                苹果最新系统:macOS 14 Sonoma 14.1.1正式版

                加油,小妞!

                macOS 14 Sonoma Macos最新系统

                快速教程|如何在 AWS EC2上使用 Walrus 部署 GitLab

                SEAL安全

                #GitLab Walrus 企业号11月PK榜

                mac原型设计:Axure RP 10 for Mac中文汉化版包下载

                Rose

                Axure RP 10 汉化版 Mac原型设计 Axure RP 10 下载

                向成本要效益!用友BIP助力车企突破内卷、打赢“降本战”

                用友BIP

                降本增效

                一体式Mac系统清理应用 AweCleaner 最新免激活版

                胖墩儿不胖y

                Mac软件 清理工具 系统清理软件

                大模型集体失控!南洋理工新型攻击,主流AI无一幸免

                Openlab_cosmoplat

                人工智能 大模型

                graphpad prism 10 for mac永久注册码 prism10下载

                Rose

                mac软件下载 GraphPad Prism 10 数据分析绘图软件 Prism 10 Mac破解

                提示找不到某些库文件?

                矩视智能

                深度学习 机器视觉

                当生成式AI从梦想走近现实,大语言模型未来会取代人类吗?

                格致君的planB

                人工智能 AI 大语言模型

                智慧燃气:用友BIP资产云如何实现管道资产数智化管理?

                用友BIP

                资产管理 智慧燃气

                字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距_计算机视觉_褚杏娟_InfoQ精选文章