写点什么

字节跳动辟谣推出中文版 Sora:还无法完善产品落地,距离国外模型有很大差距

  • 2024-02-20
    北京
  • 本文字数:651 字

    阅读完需:约 2 分钟

大小:303.69K时长:01:43
字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距

今日有消息称,在 Sora 引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

 

对此,字节跳动相关人士向媒体回应称,Boximator 是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

 

根据介绍,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。例如,“小猫把自己藏进杯子里了”:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    “由像素组成的角色正在跳舞”:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      “一个红衣女孩用头骨遮住了脸”:


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        “一名年轻女子转过头,露出了她的侧脸”:


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          “蜘蛛侠向镜头摆动”:


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            根据论文介绍,Boximator 使⽤ 3D U-Net 架构构建在视频扩散模型之上。3D U-Net 由交替的卷积块和注意⼒块构成。每个块包含两个组件:⼀个空间组件,负责将各个视频帧作为单独的图像进⾏处理;另外一个是时间组件,⽀持跨帧信息交换。

             

            为了实现对视频中物体、人物的动作控制,Boximator 使用了“软框”和“硬框”两种约束方法。其中,硬框可精确定义目标对象的边界框,软框则定义一个对象可能存在的区域, 形成一个宽松的边界框。

             

            控制模块可以将框约束的编码与视频帧的视觉编码结合,用来指导视频的精准动作生成。包含框编码器和自注意力层两大块。

             

            论文地址:https://arxiv.org/abs/2402.01566

             

            下面是研发人员给出的 Gen-2、Pink1.0 和 Boximator 的对比:


            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                 根据其在Github上的信息,Boximator 演示网站正在开发中,将在未来 2-3 个月内推出。


                2024-02-20 14:576524

                评论

                发布
                暂无评论
                发现更多内容

                架构师实战训练营|课后作业| 1

                Frode

                #架构实战营

                HVEC安装与卸载

                林建

                HVEC DISM++

                适女化科技(一):伪需求,真消费

                脑极体

                程序员作图工具和技巧,你 get 了么?

                程序员鱼皮

                Java 大前端 后端 架构设计 代码

                小说类公众号如何运营:先要满足特定读者人群

                石头IT视角

                不少同学想要放弃秋招了........

                今晚早点睡

                程序员 秋招

                半监督学习概述(二)

                Databri_AI

                学习 深度半监督

                懵逼!阿里一面就被虐了,幸获内推华为技术四面,成功拿到offer

                编程susu

                Java 编程 程序员 面试 计算机

                ShardingSphere JDBC 分库分表 读写分离 数据加密

                Java 源码 ShardingSphere

                纯CSS实现beautiful按钮

                执鸢者

                CSS 大前端 按钮

                云与AI真的能互相成就?还是最好各自独立行走?

                脑极体

                获取 NodeJS 程序退出码

                编程三昧

                node.js Node 8月日更

                牛逼Git,豆瓣评分高达9.3神著“Pro Git”电子版国内首次开源

                Java~~~

                Java git 架构 面试 架构师

                NodeJs深入浅出之旅:异步I/O (上)🐋

                空城机

                JavaScript 大前端 Node 8月日更

                Linux之export命令

                入门小站

                Linux

                架构实战营作业--模块一

                冬瓜茶

                在线JSON转PHP Array工具

                入门小站

                工具

                ☕【Java技术指南】「编译器专题」重塑认识Java编译器的执行过程(常量优化机制)!

                码界西柚

                Java 编译器 技术栈 8月日更

                暴力美学,拒绝平庸,Alibab开源内部神仙级“K8S核心笔记”下载

                Java~~~

                Java 架构 面试 微服务 k8s

                阿里新产!Spring+SpringBoot+SpringCloud Alibaba全系列高阶笔记

                Java~~~

                Java spring 架构 面试 Spring Cloud

                教你一招疯狂拿Offer!用微服务设计一个超大型分布式电商平台

                Java~~~

                Java 架构 面试 Spring Cloud 架构师

                docker概念很乱?俺来替你理一下!

                Java Docker 架构 后端

                Go- goto和label

                HelloBug

                Go 语言 goto label

                【漏洞分析】远程命令执行漏洞总结

                网络安全学海

                网络安全 信息安全 网络 渗透测试 安全漏洞

                脉脉转发3W次的字节内部首发“数据结构算法”手册!惨大厂被封杀

                Java~~~

                Java 架构 面试 算法 架构师

                CSS 数学函数之calc、clamp、min、max

                devpoint

                CSS css3 8月日更

                网络攻防学习笔记 Day114

                穿过生命散发芬芳

                网络安全 8月日更

                Socket 通信原理

                一个大红包

                8月日更

                重构你的css吧!(初看)

                云小梦

                CSS bem elementUI scss ITCSS

                阿里巴巴最新产物!Spring+SpringBoot+SpringCloud Alibaba全系列高阶笔记

                Java spring 程序员 架构 后端

                Alibaba史上最牛的分布式核心原理解析全彩手册开源!称霸GitHub

                Java~~~

                Java 架构 面试 分布式 微服务

                字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距_计算机视觉_褚杏娟_InfoQ精选文章