2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

字节跳动辟谣推出中文版 Sora:还无法完善产品落地,距离国外模型有很大差距

  • 2024-02-20
    北京
  • 本文字数:651 字

    阅读完需:约 2 分钟

大小:303.69K时长:01:43
字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距

今日有消息称,在 Sora 引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

 

对此,字节跳动相关人士向媒体回应称,Boximator 是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

 

根据介绍,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。例如,“小猫把自己藏进杯子里了”:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    “由像素组成的角色正在跳舞”:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      “一个红衣女孩用头骨遮住了脸”:


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        “一名年轻女子转过头,露出了她的侧脸”:


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          “蜘蛛侠向镜头摆动”:


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            根据论文介绍,Boximator 使⽤ 3D U-Net 架构构建在视频扩散模型之上。3D U-Net 由交替的卷积块和注意⼒块构成。每个块包含两个组件:⼀个空间组件,负责将各个视频帧作为单独的图像进⾏处理;另外一个是时间组件,⽀持跨帧信息交换。

             

            为了实现对视频中物体、人物的动作控制,Boximator 使用了“软框”和“硬框”两种约束方法。其中,硬框可精确定义目标对象的边界框,软框则定义一个对象可能存在的区域, 形成一个宽松的边界框。

             

            控制模块可以将框约束的编码与视频帧的视觉编码结合,用来指导视频的精准动作生成。包含框编码器和自注意力层两大块。

             

            论文地址:https://arxiv.org/abs/2402.01566

             

            下面是研发人员给出的 Gen-2、Pink1.0 和 Boximator 的对比:


            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                 根据其在Github上的信息,Boximator 演示网站正在开发中,将在未来 2-3 个月内推出。


                2024-02-20 14:576788

                评论

                发布
                暂无评论
                发现更多内容

                Java日常开发的12个坑,你踩过几个,一招让你拿下seata分布式事务框架

                Java 程序员 后端

                Java架构师必备技能,java程序设计实用教程第五版答案,掌握这个提升路径

                Java 程序员 后端

                阿里云重磅发布业务中台产品 BizWorks,中台发展进入下一个阶段

                阿里巴巴云原生

                阿里云 云原生 业务中台 云栖大会 BizWorks

                Java排序算法面试,黑马java项目一,springboot实战项目源码

                Java 程序员 后端

                Java教程百度云最新版,极客时间vip年卡,Java开发者面试如何系统复习

                Java 程序员 后端

                Java开发面试题!牛客网java开发高频面试题,让我成功在寒冬中站稳脚步

                Java 程序员 后端

                云栖发布|企业级互联网架构全新升级 ,助力数字创新

                阿里巴巴云原生

                阿里云 云原生 产品升级 云栖大会

                Java程序员全套,百度三面牛客网猿生活,疯狂膜拜

                Java 程序员 后端

                Java春招实习面试经验汇总,图灵学院诸葛,Java微服务架构视频下载

                Java 程序员 后端

                Java百度云教程,深入java虚拟机百度云,附详细答案

                Java 程序员 后端

                Java的Io模型你了解多少?尚硅谷大厂学院课,Java开发面试笔试题大汇总

                Java 程序员 后端

                Java微服务架构图,nginx视频教程百度云,学习指南

                Java 程序员 后端

                Java技术成长,kafka学习教程,Java开发者面试如何系统复习

                Java 程序员 后端

                Java研发岗面试复盘总,4面技术5面HR附加笔试面

                Java 程序员 后端

                Java教程视频百度网盘,小甲鱼数据结构百度云,腾讯Java面试题

                Java 程序员 后端

                Java架构师进阶之路,马士兵的java教程,大厂Java面试总结+详细解答

                Java 程序员 后端

                Java框架,黑马java视频教程,面试资料分享

                Java 程序员 后端

                Java程序员如何有效提升学习效率,如何化身BAT面试收割机

                Java 程序员 后端

                Java程序员必会!开课吧java高级架构师课程,Java开发大厂面试经验

                Java 程序员 后端

                Java数据结构面试题,java架构师指南下载百度,Java工程师面试题及答案

                Java 程序员 后端

                Java月薪过万要掌握的技能,javajdk下载教程,高级Java工程师面试问题

                Java 程序员 后端

                Java爬虫爬取视频,尚硅谷笔试答案,最全面试考点与面试技巧

                Java 程序员 后端

                Java百度云资源,java基础案例教程黑马程序员在线阅读,美团Java面试流程

                Java 程序员 后端

                Java百度云,springboot实例教程,面试大厂应该注意哪些问题

                Java 程序员 后端

                Java技术基础知识总结,菜鸟教程mysql,Java重要知识点

                Java 程序员 后端

                Java教程百度云最新版,java写脚本教程视频,程序员必须要了解的知识点

                Java 程序员 后端

                Java数据处理的常用技术,springboot源码解读与原理分析

                Java 程序员 后端

                Java知识体系!极客学院黑马程序员,BIO和NIO有啥区别

                Java 程序员 后端

                Java研发岗必问30+道高级面试题,腾讯,字节等大厂面试真题汇总

                Java 程序员 后端

                Java性能优化最佳实践,mybatis入门视频

                Java 程序员 后端

                Java知识体系!java黑马视频和达内,链表反转的两种实现方法

                Java 程序员 后端

                字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距_计算机视觉_褚杏娟_InfoQ精选文章