10 月 23 - 25 日,QCon 上海站即将召开,现在大会已开始正式报名,可以享受 8 折优惠 了解详情
写点什么

字节跳动辟谣推出中文版 Sora:还无法完善产品落地,距离国外模型有很大差距

  • 2024-02-20
    北京
  • 本文字数:651 字

    阅读完需:约 2 分钟

大小:303.69K时长:01:43
字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距

今日有消息称,在 Sora 引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

 

对此,字节跳动相关人士向媒体回应称,Boximator 是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

 

根据介绍,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。例如,“小猫把自己藏进杯子里了”:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    “由像素组成的角色正在跳舞”:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      “一个红衣女孩用头骨遮住了脸”:


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        “一名年轻女子转过头,露出了她的侧脸”:


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          “蜘蛛侠向镜头摆动”:


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            根据论文介绍,Boximator 使⽤ 3D U-Net 架构构建在视频扩散模型之上。3D U-Net 由交替的卷积块和注意⼒块构成。每个块包含两个组件:⼀个空间组件,负责将各个视频帧作为单独的图像进⾏处理;另外一个是时间组件,⽀持跨帧信息交换。

             

            为了实现对视频中物体、人物的动作控制,Boximator 使用了“软框”和“硬框”两种约束方法。其中,硬框可精确定义目标对象的边界框,软框则定义一个对象可能存在的区域, 形成一个宽松的边界框。

             

            控制模块可以将框约束的编码与视频帧的视觉编码结合,用来指导视频的精准动作生成。包含框编码器和自注意力层两大块。

             

            论文地址:https://arxiv.org/abs/2402.01566

             

            下面是研发人员给出的 Gen-2、Pink1.0 和 Boximator 的对比:


            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                 根据其在Github上的信息,Boximator 演示网站正在开发中,将在未来 2-3 个月内推出。


                2024-02-20 14:576645

                评论

                发布
                暂无评论
                发现更多内容

                如何实现一个延时队列 ?

                领创集团Advance Intelligence Group

                延时队列 Redis 数据结构 redis 底层原理

                结合案例:Flink框架中的最底层API(ProcessFunction)用法

                百思不得小赵

                大数据 flink 7月月更

                Node の MongoDB安装

                空城机

                mongodb Node 7月月更

                浅识k8s中的准入控制器

                火线安全

                云安全 云安全技术 云安全攻防 云安全研究

                实时云交互如何助力教育行业发展

                3DCAT实时渲染

                实时云渲染 云交互

                科普达人丨一文看懂阿里云的秘密武器“神龙架构”

                阿里云弹性计算

                云计算 虚拟化 资源管理 神龙架构

                【Docker 那些事儿】容器为什么傲娇?全靠镜像撑腰

                Albert Edison

                7月月更

                室外LED屏幕防水吗?

                Dylan

                LED显示屏 室外显示屏

                31年前的Beyond演唱会,是如何超清修复的?

                字节跳动视频云技术团队

                Lombok使用引发的血案

                技术小生

                7月月更

                SpringSecurity会话管理

                急需上岸的小谢

                7月月更

                易周金融 | Q1保险行业活跃人数8688.67万人 19家支付机构牌照被注销

                易观分析

                金融 银行

                实战:fabric 用户证书吊销操作流程

                BSN研习社

                fabric

                2022年中国移动阅读市场年度综合分析

                易观分析

                移动阅读

                程序员转方向

                沃德

                程序员 7月月更

                洞见科技解决方案总监薛婧:联邦学习助力数据要素安全流通

                洞见科技

                数据安全 隐私计算 数据隐私计算

                对话龙智高级咨询顾问、Atlassian认证专家叶燕秀:Atlassian产品进入后Server时代,中国用户应当何去何从?

                龙智—DevSecOps解决方案

                Server Atlassian Jira DC版

                都在说DevOps,你真正了解它吗?

                龙智—DevSecOps解决方案

                DevOps 运维 开发

                抓到Dubbo异步调用的小BUG,再送你一个贡献开源代码的机会

                捉虫大师

                开源 dubbo 问题排查 7月月更

                Helix Swarm中文包发布,Perforce进一步提升中国用户体验

                龙智—DevSecOps解决方案

                perforce Helix Core Helix Swarm

                【一库】vueuse:我不许身为vuer,你的工具集只有lodash!

                摸鱼的春哥

                Vue 前端 Vue3 7月月更

                教你学c++算法题中最头疼的动态规划

                KEY.L

                7月月更

                Python|字符串操作

                AXYZdong

                7月月更

                深入JS中几种数据类型的解构赋值细节

                猪痞恶霸

                前端 js ES6 7月月更

                多年锤炼,迈向Kata 3.0 !走进开箱即用的安全容器体验之旅| 龙蜥技术

                OpenAnolis小助手

                开源 容器 云原生 龙蜥技术 Kata Containers

                分布式BASE理论

                源字节1号

                软件开发 后端开发

                基于STM32+华为云IOT设计的酒驾监控系统

                DS小龙哥

                7月月更

                产品好不好,谁说了算?Sonar提出分析的性能指标,帮助您轻松判断产品性能及表现

                龙智—DevSecOps解决方案

                华为云数据库DDS产品深度赋能

                程思扬

                数据库 华为云 DDS

                一个数据人对领域模型理解与深入

                松子(李博源)

                大数据 领域模型 模型设计

                字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距_计算机视觉_褚杏娟_InfoQ精选文章