写点什么

字节跳动辟谣推出中文版 Sora:还无法完善产品落地,距离国外模型有很大差距

  • 2024-02-20
    北京
  • 本文字数:651 字

    阅读完需:约 2 分钟

大小:303.69K时长:01:43
字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距

今日有消息称,在 Sora 引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

 

对此,字节跳动相关人士向媒体回应称,Boximator 是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

 

根据介绍,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。例如,“小猫把自己藏进杯子里了”:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    “由像素组成的角色正在跳舞”:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      “一个红衣女孩用头骨遮住了脸”:


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        “一名年轻女子转过头,露出了她的侧脸”:


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          “蜘蛛侠向镜头摆动”:


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            根据论文介绍,Boximator 使⽤ 3D U-Net 架构构建在视频扩散模型之上。3D U-Net 由交替的卷积块和注意⼒块构成。每个块包含两个组件:⼀个空间组件,负责将各个视频帧作为单独的图像进⾏处理;另外一个是时间组件,⽀持跨帧信息交换。

             

            为了实现对视频中物体、人物的动作控制,Boximator 使用了“软框”和“硬框”两种约束方法。其中,硬框可精确定义目标对象的边界框,软框则定义一个对象可能存在的区域, 形成一个宽松的边界框。

             

            控制模块可以将框约束的编码与视频帧的视觉编码结合,用来指导视频的精准动作生成。包含框编码器和自注意力层两大块。

             

            论文地址:https://arxiv.org/abs/2402.01566

             

            下面是研发人员给出的 Gen-2、Pink1.0 和 Boximator 的对比:


            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                 根据其在Github上的信息,Boximator 演示网站正在开发中,将在未来 2-3 个月内推出。


                2024-02-20 14:576769

                评论

                发布
                暂无评论
                发现更多内容

                跟我学Python图像处理丨5种图像阈值化处理及算法对比

                华为云开发者联盟

                Python 人工智能 华为云

                【资源分享】综合性的导航网站

                小炮

                从源码解析flutter_redux 的精准局部刷新

                岛上码农

                flutter ios 安卓开发 跨平台应用 6月月更

                每日一题——leecode59( 螺旋矩阵 II)

                武师叔

                6月月更

                SDN特有的网络安全问题

                穿过生命散发芬芳

                SDN网络 6月月更

                致广大、尽精微,曙光问道算力服务“神经系统”

                脑极体

                身为程序猿——谷歌浏览器的这些骚操作你真的会吗

                孤寒者

                6月月更 浏览器操作 小技巧 程序猿必会

                【愚公系列】2022年06月 面向对象设计原则(四)-依赖倒置原则

                愚公搬代码

                6月月更

                【首发】根据壁纸修改App主题,它真的来了

                yechaoa

                android 6月月更 material design

                IPSec的特征与功能

                阿泽🧸

                6月月更 IPsec

                尽一份孝心,为家人做一个老人防摔报警系统

                华为云开发者联盟

                IoT 华为云 防摔倒报警系统

                一、Kafka安装

                星期35

                GameFi新的启程,AQUANEE将于6.9日登陆Gate以及BitMart

                BlockChain先知

                企业内部Wiki,你建立了么?

                小炮

                react框架学习之深入研究【王道react】

                恒山其若陋兮

                6月月更

                线程池

                急需上岸的小谢

                6月月更

                手慢无!阿里P8架构师力荐Spring生态全家桶全彩笔记

                Java全栈架构师

                spring 编程 源码 程序员 面试

                【LeetCode】最长连续序列Java题解

                Albert

                LeetCode 6月月更

                在线沙龙 | 开源小秀场——数据库技术应用实践

                SelectDB

                数据库 技术分享 apache doris 沙龙

                【MySQL字符串数据类型优化】char和varchar的区别

                写代码两年半

                数据库 sql 6月月更

                直播预告 | 在阿里云 ESSD 云盘上部署 PolarDB for PostgreSQL 集群

                阿里云数据库开源

                数据库 postgresql 阿里云 开源

                10个常见触发IO瓶颈的高频业务场景

                华为云开发者联盟

                数据库 sql 索引 华为云 数据清理

                数据库每日一题---第7天:订单最多的客户

                知心宝贝

                数据库 程序员 前端 后端 6月月更

                干货合集│最好用的 python 库都在这

                Python 有趣的技术知识 6月月更

                Java异常处理机制

                未见花闻

                6月月更

                什么是集群?为什么要使用集群架构?

                Finovy Cloud

                集群架构 云渲染 GPU服务器

                不止于观测|阿里云可观测技术峰会正式上线

                阿里巴巴中间件

                阿里云 云原生 可观测技术峰会

                【Spring 学习笔记(八)】Spring IoC/DI注解开发 之 原始注解开发

                倔强的牛角

                Java spring Java EE 6月月更

                vue指令-5

                小恺

                6月月更

                字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距_计算机视觉_褚杏娟_InfoQ精选文章