写点什么

字节跳动辟谣推出中文版 Sora:还无法完善产品落地,距离国外模型有很大差距

  • 2024-02-20
    北京
  • 本文字数:651 字

    阅读完需:约 2 分钟

大小:303.69K时长:01:43
字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距

今日有消息称,在 Sora 引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

 

对此,字节跳动相关人士向媒体回应称,Boximator 是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

 

根据介绍,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。例如,“小猫把自己藏进杯子里了”:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    “由像素组成的角色正在跳舞”:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      “一个红衣女孩用头骨遮住了脸”:


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        “一名年轻女子转过头,露出了她的侧脸”:


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          “蜘蛛侠向镜头摆动”:


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            根据论文介绍,Boximator 使⽤ 3D U-Net 架构构建在视频扩散模型之上。3D U-Net 由交替的卷积块和注意⼒块构成。每个块包含两个组件:⼀个空间组件,负责将各个视频帧作为单独的图像进⾏处理;另外一个是时间组件,⽀持跨帧信息交换。

             

            为了实现对视频中物体、人物的动作控制,Boximator 使用了“软框”和“硬框”两种约束方法。其中,硬框可精确定义目标对象的边界框,软框则定义一个对象可能存在的区域, 形成一个宽松的边界框。

             

            控制模块可以将框约束的编码与视频帧的视觉编码结合,用来指导视频的精准动作生成。包含框编码器和自注意力层两大块。

             

            论文地址:https://arxiv.org/abs/2402.01566

             

            下面是研发人员给出的 Gen-2、Pink1.0 和 Boximator 的对比:


            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                 根据其在Github上的信息,Boximator 演示网站正在开发中,将在未来 2-3 个月内推出。


                2024-02-20 14:576675

                评论

                发布
                暂无评论
                发现更多内容

                深入分析软件快速开发平台与传统软件开发方案的优缺点

                Marilyn

                敏捷开发

                JAVA代码生成器,快速开发平台之魂

                Marilyn

                Java 敏捷开发 快速开发 开发工具

                spring-boot-route(十三)整合RabbitMQ

                Java旅途

                Java Spring Boot RabbitMQ

                架构师训练营 1 期第 4 周:系统架构 - 作业

                piercebn

                极客大学架构师训练营

                JVM-技术专题-深入理解内存结构

                码界西柚

                Java JVM

                五年Java开发经验,4面阿里成功拿下offer,分享一下个人面经!

                Java架构之路

                Java 程序员 面试 算法 编程语言

                企业开发遇到瓶颈,何不换个新思路?快速开发了解一下

                Marilyn

                敏捷开发 快速开发

                JAVA & VUE ,分离式开发平台建造思路

                Marilyn

                Java Vue 敏捷开发

                摆脱复杂烧脑的程序代码,利用快速开发平台轻轻松松做软件

                Marilyn

                敏捷开发 快速开发

                Go语言内存管理三部曲(一)内存分配原理

                网管

                内存管理 内存布局 Go 语言

                快速开发平台,程序员“老师傅”必备

                Marilyn

                敏捷开发 快速开发 开发工具

                TensorFlow 篇 | TensorFlow 2.x 基于 Keras 的模型保存及重建

                Alex

                tensorflow keras model save model restore tensorflow hub

                阿里内部《Java架构进阶宝典》,总结了基础、进阶、架构三个阶段的知识点

                Java架构之路

                Java 程序员 面试 算法 编程语言

                一线城市年轻人生活工作录(业务员篇)

                Marilyn

                敏捷开发 快速开发

                商业智能(Business Intelligence)系统的使用及设计原则

                Marilyn

                敏捷开发 快速开发 商业智能

                快速开发平台,高集成易扩展,进入软件疾速开发新世代

                Marilyn

                敏捷开发 快速开发 开发工具

                为什么巨头都在布局SaaS生态?

                ToB行业头条

                SASS

                百度人工智能OCR调用调试过程

                tuuezzy

                Go发起HTTP2.0请求流程分析(前篇)

                Gopher指北

                HTTP HTTP2.0 Go 语言

                MySQL-技术专题-性能优化—索引篇

                码界西柚

                低代码开发平台,来自“未来”的软件开发方案

                Marilyn

                敏捷开发

                GitHub 上开源了一个很邪恶的项目!女生勿近,18香警告...

                程序员生活志

                有一说一,大型信息化企业的软件系统,还是用自研的好

                Marilyn

                敏捷开发 快速开发 开发工具 软件设计

                用友政务表格技术应用开发实践:预算一体化产品核心功能搭建

                葡萄城技术团队

                SpreadJS 用友

                医院HIS故障,险引发人命关天大危机,竟被程序员轻松解决!

                Marilyn

                Redis Sharding集群跟一致性哈希有什么瓜葛?

                Man

                一致性哈希 Jedis redis cluster

                阿里面试官纯手打:金九银十跳槽必会Java核心知识点笔记整理

                Java架构追梦

                Java 数据库 架构 面试 微服务

                智能时代,快速开发平台将成为主流软件开发工具

                Marilyn

                敏捷开发

                Vidyo的解决方案到底是什么?有哪些特点?

                dwqcmo

                音视频 集成架构 解决方案 智能硬件

                标本兼治,程序员用它整体提升公司效率

                Marilyn

                敏捷开发 快速开发

                大企内部软件系统反复故障难以解决,业内人士:唯有彻底更换

                Marilyn

                敏捷开发 快速开发 开发工具

                字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距_计算机视觉_褚杏娟_InfoQ精选文章