2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

字节跳动辟谣推出中文版 Sora:还无法完善产品落地,距离国外模型有很大差距

  • 2024-02-20
    北京
  • 本文字数:651 字

    阅读完需:约 2 分钟

大小:303.69K时长:01:43
字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距

今日有消息称,在 Sora 引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

 

对此,字节跳动相关人士向媒体回应称,Boximator 是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

 

根据介绍,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。例如,“小猫把自己藏进杯子里了”:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    “由像素组成的角色正在跳舞”:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      “一个红衣女孩用头骨遮住了脸”:


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        “一名年轻女子转过头,露出了她的侧脸”:


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          “蜘蛛侠向镜头摆动”:


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            根据论文介绍,Boximator 使⽤ 3D U-Net 架构构建在视频扩散模型之上。3D U-Net 由交替的卷积块和注意⼒块构成。每个块包含两个组件:⼀个空间组件,负责将各个视频帧作为单独的图像进⾏处理;另外一个是时间组件,⽀持跨帧信息交换。

             

            为了实现对视频中物体、人物的动作控制,Boximator 使用了“软框”和“硬框”两种约束方法。其中,硬框可精确定义目标对象的边界框,软框则定义一个对象可能存在的区域, 形成一个宽松的边界框。

             

            控制模块可以将框约束的编码与视频帧的视觉编码结合,用来指导视频的精准动作生成。包含框编码器和自注意力层两大块。

             

            论文地址:https://arxiv.org/abs/2402.01566

             

            下面是研发人员给出的 Gen-2、Pink1.0 和 Boximator 的对比:


            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                 根据其在Github上的信息,Boximator 演示网站正在开发中,将在未来 2-3 个月内推出。


                2024-02-20 14:576814

                评论

                发布
                暂无评论
                发现更多内容

                【SeaTunnel】从一个数据集成组件演化成企业级的服务

                Apache SeaTunnel

                大数据 微服务 数据处理 数据集成 大数据 开源

                【Go实现】实践GoF的23种设计模式:迭代器模式

                元闰子

                Go 设计模式 迭代器模式

                前端食堂技术周刊第 46 期:Chrome 三方 cookie 计划、npm 引入更多安全增强功能、Awesome Bun

                童欧巴

                Linux npm Cookie

                一、《图解HTTP》- WEB和网络基础

                懒时小窝

                图解https

                Gitee图床被屏蔽后,我搭建了一个文件系统并封装成轮子开源!

                IT学习日记

                Java springboot 签约计划第三季 seaweedfs文件系统 Gitee图床崩了

                如何给 UE4 场景添加游戏角色

                HelloWorld杰少

                c++ 游戏 UE5 8月月更

                Linux性能调优之内存负载调优的一些笔记

                山河已无恙

                签约计划第三季

                系统可用性:SRE口中的3个9,4个9...到底是个什么东西?

                董哥的黑板报

                运维 后端 可用性 SRE

                毕业作业-设计电商秒杀系统

                Fan

                #架构实战营

                1对1视频源码——快速实现短视频功能提升竞争力

                开源直播系统源码

                软件开发 直播系统源码 一对一视频聊天系统

                SRv6 L3VPN的工作原理

                穿过生命散发芬芳

                8月月更 SRv6

                Nacos配置中心之加载配置

                急需上岸的小谢

                8月月更

                mysql进阶(二十一)删除表数据与数据库四大特性

                No Silver Bullet

                MySQL 8月月更 四大特性 表删除

                kafka_2.13-3.2.0.tgz配置安装

                Cjpler

                签约计划第三季

                LeetCode第三题(Longest Substring Without Repeating Characters)三部曲之一:解题思路

                程序员欣宸

                LeetCode 8月月更

                Android编译系统初探

                桑榆

                8月月更

                Serverless基础知识

                阿泽🧸

                Serverless 8月月更

                你认同这个观点吗?大多数企业的数字化都只是为了缓解焦虑

                雨果

                数字化转型 数字化

                基于微前端qiankun的多页签缓存方案实践

                vivo互联网技术

                Vue 前端 微前端 qiankun

                STM32+MPU6050设计便携式Mini桌面时钟(自动调整时间显示方向)

                DS小龙哥

                8月月更

                Python 教程之输入输出(1)—— 在 Python 中接受输入

                海拥(haiyong.site)

                Python 8月月更

                学习英语的网站与资料

                玄兴梦影

                学习 英语

                如何优雅的消除系统重复代码

                慕枫技术笔记

                设计模式 代码 签约计划第三季 8月月更

                鲲鹏编译调试插件实战

                乌龟哥哥

                8月月更

                SAP 云平台上一种 Low Code Development(低代码开发)解决方案

                汪子熙

                低代码 云平台 lowcode SAP 8月月更

                物无定味适口者珍,Python3并发场景(CPU密集/IO密集)任务的并发方式的场景抉择(多线程threading/多进程multiprocessing/协程asyncio)

                刘悦的技术博客

                多线程 协程 多进程 Python3 Python.

                GRPC MacOS M1 处理器的问题

                HoneyMoose

                开源一夏|要有遥不可及的梦想,也要有脚踏实地的本事

                坚果

                开源 HarmonyOS OpenHarmony 8月月更

                PDF转Word有那么难吗?做一个文件转换器,都解决了

                IC00

                C# 签约计划第三季

                好好活就是做有意义的事,有意义的事就是好好活

                宇宙之一粟

                8月月更

                字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距_计算机视觉_褚杏娟_InfoQ精选文章