写点什么

字节跳动辟谣推出中文版 Sora:还无法完善产品落地,距离国外模型有很大差距

  • 2024-02-20
    北京
  • 本文字数:651 字

    阅读完需:约 2 分钟

大小:303.69K时长:01:43
字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距

今日有消息称,在 Sora 引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

 

对此,字节跳动相关人士向媒体回应称,Boximator 是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

 

根据介绍,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。例如,“小猫把自己藏进杯子里了”:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    “由像素组成的角色正在跳舞”:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      “一个红衣女孩用头骨遮住了脸”:


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        “一名年轻女子转过头,露出了她的侧脸”:


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          “蜘蛛侠向镜头摆动”:


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            根据论文介绍,Boximator 使⽤ 3D U-Net 架构构建在视频扩散模型之上。3D U-Net 由交替的卷积块和注意⼒块构成。每个块包含两个组件:⼀个空间组件,负责将各个视频帧作为单独的图像进⾏处理;另外一个是时间组件,⽀持跨帧信息交换。

             

            为了实现对视频中物体、人物的动作控制,Boximator 使用了“软框”和“硬框”两种约束方法。其中,硬框可精确定义目标对象的边界框,软框则定义一个对象可能存在的区域, 形成一个宽松的边界框。

             

            控制模块可以将框约束的编码与视频帧的视觉编码结合,用来指导视频的精准动作生成。包含框编码器和自注意力层两大块。

             

            论文地址:https://arxiv.org/abs/2402.01566

             

            下面是研发人员给出的 Gen-2、Pink1.0 和 Boximator 的对比:


            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                 根据其在Github上的信息,Boximator 演示网站正在开发中,将在未来 2-3 个月内推出。


                2024-02-20 14:576879

                评论

                发布
                暂无评论
                发现更多内容

                鸿蒙开发实战之Image Kit重构美颜相机图像处理管线

                yimapingchuan

                HarmonyOS NEXT

                Next.js面试题:API深度解析

                溪抱鱼

                面试 前端 next.js

                使用 Perfetto 观察 Chrome 内核工作过程

                杨辰

                chrome 前端 blink

                企业太小没钱做等保2.0怎么办?

                等保测评

                鸿蒙开发实战之Universal Keystore Kit构建美颜相机金融级安全存储

                yimapingchuan

                HarmonyOS

                HarmonyOS开发实战之User Authentication Kit构建美颜相机生物认证体系

                yimapingchuan

                HarmonyOS NEXT

                鸿蒙APP的开发流程

                北京木奇移动技术有限公司

                鸿蒙app 软件外包公司 APP外包公司

                鸿蒙开发实战之AVSession Kit构建美颜相机媒体控制中枢

                yimapingchuan

                HarmonyOS

                智能名片系统(源码+文档+讲解+演示)

                深圳亥时科技

                HarmonyOS开发实战之AVCodec Kit重构美颜相机媒体处理管线

                yimapingchuan

                HarmonyOS NEXT

                鸿蒙开发实战之Ringtone Kit打造美颜相机音效互动体系

                yimapingchuan

                HarmonyOS NEXT

                HarmonyOS开发实战之ArkGraphics 3D在美颜相机中的特效应用

                yimapingchuan

                HarmonyOS NEXT

                鸿蒙开发实战之Media Kit重构美颜相机多媒体引擎

                yimapingchuan

                HarmonyOS NEXT

                HarmonyOS开发实战之Scan Kit实现美颜相机智能扫码

                yimapingchuan

                HarmonyOS NEXT

                HarmonyOS开发实战之ArkGraphics 2D实现美颜相机贴纸功能

                yimapingchuan

                HarmonyOS NEXT

                基于 Vanna.AI 和 Amazon Bedrock 构建 Text-to-SQL 方案

                亚马逊云科技 (Amazon Web Services)

                企业如何推进数据安全合规建设?

                等保测评

                Go语言切片,使用技巧与避坑指南

                左诗右码

                鸿蒙5开发宝藏案例分享---在线短视频流畅切换

                莓创技术

                HarmonyOS开发实战之AR Engine打造美颜相机空间计算

                yimapingchuan

                HarmonyOS

                鸿蒙开发实战之Wear Engine Kit实现美颜相机穿戴设备联动

                yimapingchuan

                HarmonyOS

                鸿蒙开发实战之Camera Kit重构美颜相机拍摄引擎

                yimapingchuan

                HarmonyOS NEXT

                HarmonyOS开发笔记之Graphics Accelerate Kit加速美颜滤镜渲染

                yimapingchuan

                HarmonyOS NEXT

                HarmonyOS开发实战之XEngine Kit实现跨平台美颜特效

                yimapingchuan

                HarmonyOS NEXT

                鸿蒙运动项目开发:封装超级好用的 RCP 网络库(上)—— 请求参数封装,类型转化器与日志记录篇

                王二蛋和他的张大花

                鸿蒙开发实战之Audio Kit打造美颜相机沉浸式音效

                yimapingchuan

                HarmonyOS NEXT

                鸿蒙开发实战之DRM Kit打造美颜相机数字版权堡垒

                yimapingchuan

                HarmonyOS

                鸿蒙开发实战之Media Library Kit重构美颜相机资源管理体系

                yimapingchuan

                HarmonyOS NEXT

                大数据-14-Hive HQL 表连接查询 HDFS导入导出 逻辑运算 函数查询 全表查询

                武子康

                大数据 hadoop hdfs mapreduce hive

                鸿蒙5开发宝藏案例分享---快捷触达的骑行体验

                莓创技术

                字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距_计算机视觉_褚杏娟_InfoQ精选文章