QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

字节跳动辟谣推出中文版 Sora:还无法完善产品落地,距离国外模型有很大差距

  • 2024-02-20
    北京
  • 本文字数:651 字

    阅读完需:约 2 分钟

大小:303.69K时长:01:43
字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距

今日有消息称,在 Sora 引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

 

对此,字节跳动相关人士向媒体回应称,Boximator 是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

 

根据介绍,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。例如,“小猫把自己藏进杯子里了”:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    “由像素组成的角色正在跳舞”:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      “一个红衣女孩用头骨遮住了脸”:


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        “一名年轻女子转过头,露出了她的侧脸”:


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          “蜘蛛侠向镜头摆动”:


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            根据论文介绍,Boximator 使⽤ 3D U-Net 架构构建在视频扩散模型之上。3D U-Net 由交替的卷积块和注意⼒块构成。每个块包含两个组件:⼀个空间组件,负责将各个视频帧作为单独的图像进⾏处理;另外一个是时间组件,⽀持跨帧信息交换。

             

            为了实现对视频中物体、人物的动作控制,Boximator 使用了“软框”和“硬框”两种约束方法。其中,硬框可精确定义目标对象的边界框,软框则定义一个对象可能存在的区域, 形成一个宽松的边界框。

             

            控制模块可以将框约束的编码与视频帧的视觉编码结合,用来指导视频的精准动作生成。包含框编码器和自注意力层两大块。

             

            论文地址:https://arxiv.org/abs/2402.01566

             

            下面是研发人员给出的 Gen-2、Pink1.0 和 Boximator 的对比:


            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                 根据其在Github上的信息,Boximator 演示网站正在开发中,将在未来 2-3 个月内推出。


                2024-02-20 14:576030

                评论

                发布
                暂无评论
                发现更多内容

                性能监控之Telegraf+InfluxDB+Grafana+Python实现Oracle实时监控

                zuozewei

                数据库 oracle 性能监控 签约计划第二季

                数据情报在金融行业的探索系列

                nexpose

                数据分析 目标追踪 风险识别 数据分析预测 数据情报

                使用 Apache APISIX serverless 能力快速拦截 Apache Log4j2 的高危漏洞

                API7.ai 技术团队

                Serverless log4j APISIX

                【Promise 源码学习】第十六篇 - 了解 co 库

                Brave

                源码 Promise 12月日更

                性能分析之单条SQL查询案例分析(mysql)

                zuozewei

                MySQL 性能测试 性能分析 签约计划第二季

                皮皮APP x 武汉市残疾人福利基金会 共建成长乐园

                联营汇聚

                性能监控之Filebeat+Kafka+Logstash+Elasticsearch+Kibana 构建日志分析系统

                zuozewei

                ELK 性能监控 日志监控分析 签约计划第二季

                Apache Log4j 2 报高危漏洞,CODING 联手腾讯安全护卫软件安全

                CODING DevOps

                Apache DevSecOps CODING Log4j 2 腾讯安全

                性能基础之CPU、物理核、逻辑核概念与关系

                zuozewei

                Linux 性能测试 基础 签约计划第二季

                实用机器学习笔记九:数据部分总结

                打工人!

                机器学习 算法 学习笔记 12月日更

                深度揭秘技术创新:全球首个知识增强千亿大模型是怎样炼成的?

                百度大脑

                人工智能

                40 K8S之Calico网络插件

                穿过生命散发芬芳

                k8s 28天写作 12月日更

                5G与2021的双向奔赴

                脑极体

                即时通讯(IM)开源项目OpenIM本周版本发布- v1.0.7web端一键部署

                OpenIM

                性能工具之常见性能工具一览

                zuozewei

                工具 性能测试 签约计划第二季

                性能工具之Java分析工具BTrace入门

                zuozewei

                Java 性能测试 性能分析 签约计划第二季

                数据库大赛50强之「华东师范大学」:恰同学少年,代码激扬!

                OceanBase 数据库

                数据库 学习 开源 oceanbase

                TypeScript 之模块

                冴羽

                JavaScript typescript 翻译 前端 web前端

                时间紧资金少人才缺?8位产业专家带你破局AI智能化升级

                百度大脑

                人工智能

                工业4.0时代:低代码的兴起,或将掀起制造业格局的变革

                优秀

                低代码 工业4.0

                iKuai与DNSPod合作,搞了一个大动作!

                网络安全 DNS DNS劫持

                Android单页应用如何在Activity与Fragment中共享状态

                Changing Lin

                12月日更

                记录docker,k8s,oneops,.netcore搭建个人博客过程

                哔啵哔啵

                .net Docker k8s .net core oneops

                睁眼、耸肩、觉醒:人形机器人的吊诡与最终幻想

                脑极体

                Xcode13 适配之打印启动时间

                CRMEB

                XTransfer技术专家康康:从普通程序员到架构师的进化之路

                XTransfer技术

                程序员 创业心态 创业公司 跨境支付 XTransfer

                下周上海见!超越商业,创业邦100未来独角兽峰会议程抢先看

                创业邦

                Linux之ls命令

                入门小站

                Linux

                伙伴大会报名截止倒计时3天!

                明道云

                性能分析之构建 Linux 操作系统分析决策树

                zuozewei

                Linux 性能测试 性能分析 签约计划第二季

                架构实战营第 4 期 -- 模块二作业

                烈火干柴烛灭田边残月

                架构实战营

                字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距_计算机视觉_褚杏娟_InfoQ精选文章