如何 0 成本启动全员 AI 技能提升?戳> 了解详情
写点什么

字节跳动辟谣推出中文版 Sora:还无法完善产品落地,距离国外模型有很大差距

  • 2024-02-20
    北京
  • 本文字数:651 字

    阅读完需:约 2 分钟

大小:303.69K时长:01:43
字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距

今日有消息称,在 Sora 引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

 

对此,字节跳动相关人士向媒体回应称,Boximator 是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

 

根据介绍,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。例如,“小猫把自己藏进杯子里了”:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    “由像素组成的角色正在跳舞”:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      “一个红衣女孩用头骨遮住了脸”:


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        “一名年轻女子转过头,露出了她的侧脸”:


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          “蜘蛛侠向镜头摆动”:


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            根据论文介绍,Boximator 使⽤ 3D U-Net 架构构建在视频扩散模型之上。3D U-Net 由交替的卷积块和注意⼒块构成。每个块包含两个组件:⼀个空间组件,负责将各个视频帧作为单独的图像进⾏处理;另外一个是时间组件,⽀持跨帧信息交换。

             

            为了实现对视频中物体、人物的动作控制,Boximator 使用了“软框”和“硬框”两种约束方法。其中,硬框可精确定义目标对象的边界框,软框则定义一个对象可能存在的区域, 形成一个宽松的边界框。

             

            控制模块可以将框约束的编码与视频帧的视觉编码结合,用来指导视频的精准动作生成。包含框编码器和自注意力层两大块。

             

            论文地址:https://arxiv.org/abs/2402.01566

             

            下面是研发人员给出的 Gen-2、Pink1.0 和 Boximator 的对比:


            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                 根据其在Github上的信息,Boximator 演示网站正在开发中,将在未来 2-3 个月内推出。


                2024-02-20 14:576754

                评论

                发布
                暂无评论
                发现更多内容

                共铸国云智领未来| 吹起“螺”号,构建数字化生态圈

                天翼云开发者社区

                云平台监控指标的设定

                天翼云开发者社区

                金融监管科技业务中的AI应用:上市公司公告信息风险识别

                飞桨PaddlePaddle

                再获信创认证!MIAOYUN荣获“产业技术创新奖”和“优秀信创企业奖”双重奖项

                MIAOYUN

                信创 信创云 MIAOYUN 产业技术创新奖 优秀信创企业奖

                使能千行百业数智化 用友BIP跑出“+速度”

                用友BIP

                用友BIP

                怎样仿真才能驱动研发

                Openlab_cosmoplat

                工业互联网 开源社区 工业 仿真 仿真软件

                时序数据库入门 | 时序数据库的特点及与传统数据库的区别详解

                Greptime 格睿科技

                时序数据库 tsdb 时序数据

                ChatGPT编程秀-1:从一个爬虫开始

                仝键

                JavaScript 架构 TDD java ChatGPT

                Kyligence 亮相 Gartner 数据与分析峰会,展示指标平台创新成果

                Kyligence

                大数据 数据分析 指标中台

                什么是远程桌面连接?win11系统如何启用远程桌面连接?

                RayLink远程工具

                高速服务区智慧公厕

                光明源智慧厕所

                天翼云坚持科技创新,加速算力普惠!

                天翼云开发者社区

                SeaTunnel 与 StarRocks 生态融合,让大数据处理回归“简单”!

                Apache SeaTunnel

                开源 Bigdata Apache SeaTunnel

                切实保障用户权益!天翼云加入“云服务用户权益护航计划”

                天翼云开发者社区

                旅游景区智慧公厕,提升旅游新体验

                光明源智慧厕所

                从ChatGPT谈AI发展方向:全力助推乡村振兴事业快速发展

                加入高科技仿生人

                人工智能 AI 低代码 乡村振兴 ChatGPT

                持续创新,厚积薄发,用友引领企业数智化服务产业

                用友BIP

                用友 用友BIP

                为什么秒验是老年用户注册的最佳选择

                MobTech袤博科技

                为什么选择免费文件共享方法上的托管文件传输?

                镭速

                重塑大融合体系,立体推进“业财合一”

                用友BIP

                智能会计 价值财务 业财合一 用友智能财务 业财融合

                “巨变”中,用友奋力实现飞跃

                用友BIP

                用友BIP

                共享文件和文档方法指南

                镭速

                提升用户体验与搜索引擎排名|网页性能监控实操详解

                云智慧AIOps社区

                监控 监控管理平台 监控宝 网站优化 网站监控

                让业务容器化更安全便捷,阿里云容器镜像服务 ACR 推出免费制品中心

                阿里巴巴中间件

                阿里云 容器 云原生

                天翼云斩获SD-WAN & SASE两项大奖!让企业上云更加丝滑

                天翼云开发者社区

                摸着OpenAI过河,百度文心一言能否“重拳出击”?

                引迈信息

                百度 ChatGPT 文心一言

                LUKS加密卷应用技术简介

                天翼云开发者社区

                CloudQuery 社区重启 | 愿归来仍是少年

                BinTools图尔兹

                数据库 数据库管控 社区版 版本更新

                主题及关卡揭晓!全国智能汽车竞赛智慧交通创意组发布倒计时

                飞桨PaddlePaddle

                大会计走向业财合一,价值财务成追求方向

                用友BIP

                智能会计 价值财务 全球司库 业财合一 业财融合

                字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距_计算机视觉_褚杏娟_InfoQ精选文章