2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

字节跳动辟谣推出中文版 Sora:还无法完善产品落地,距离国外模型有很大差距

  • 2024-02-20
    北京
  • 本文字数:651 字

    阅读完需:约 2 分钟

大小:303.69K时长:01:43
字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距

今日有消息称,在 Sora 引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

 

对此,字节跳动相关人士向媒体回应称,Boximator 是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

 

根据介绍,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。例如,“小猫把自己藏进杯子里了”:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    “由像素组成的角色正在跳舞”:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      “一个红衣女孩用头骨遮住了脸”:


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        “一名年轻女子转过头,露出了她的侧脸”:


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          “蜘蛛侠向镜头摆动”:


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            根据论文介绍,Boximator 使⽤ 3D U-Net 架构构建在视频扩散模型之上。3D U-Net 由交替的卷积块和注意⼒块构成。每个块包含两个组件:⼀个空间组件,负责将各个视频帧作为单独的图像进⾏处理;另外一个是时间组件,⽀持跨帧信息交换。

             

            为了实现对视频中物体、人物的动作控制,Boximator 使用了“软框”和“硬框”两种约束方法。其中,硬框可精确定义目标对象的边界框,软框则定义一个对象可能存在的区域, 形成一个宽松的边界框。

             

            控制模块可以将框约束的编码与视频帧的视觉编码结合,用来指导视频的精准动作生成。包含框编码器和自注意力层两大块。

             

            论文地址:https://arxiv.org/abs/2402.01566

             

            下面是研发人员给出的 Gen-2、Pink1.0 和 Boximator 的对比:


            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                 根据其在Github上的信息,Boximator 演示网站正在开发中,将在未来 2-3 个月内推出。


                2024-02-20 14:576801

                评论

                发布
                暂无评论
                发现更多内容

                2025海外达人营销趋势报告:品牌出海必看的五大变化

                Wolink

                跨境电商 海外社媒营销 海外营销推广 品牌出海 达人营销

                开了 8 年母婴店,靠微擎守住了 20000 会员的信任,再也不怕数据泄露

                微擎应用市场

                每个团队都需要“超级引导者”

                ShineScrum

                敏捷 沟通艺术 引导者

                OceanBase 分布式数据库的 ETL 实践:从抽取到实时分析

                谷云科技RestCloud

                postgresql 数据同步 ETL 数据集成 oceanbase

                大规模微服务系统中的雪崩故障防治

                百度Geek说

                百度 SRE 系统稳定性 雪崩预防和应对 微服务架构治理

                Squid 可观测性最佳实践

                观测云

                squid

                AI赋能:新一代海外网红营销服务公司的核心技术优势

                Wolink

                跨境电商 出海 海外社媒营销 海外营销推广 品牌出海

                海外达人营销全攻略:如何精准锁定高ROI的海外红人?

                Wolink

                跨境电商 海外社媒营销 海外营销推广 品牌出海 达人营销

                《哪吒2》与国产超高清标准突围

                脑极体

                AI

                护理技能AI智能交互训练系统:用AI技术重构护理实训新范式

                上海拔俗

                从“腰酸背疼”到“帝王坐”,只差一把保友金豪E2 Pro人体工学椅

                袁袁袁袁满

                人体工学 人体工学椅 办公椅

                文心快码3.5S开发古风射覆小游戏,它帅到我了!

                Comate编码助手

                AI 编程 文心快码 文心快码3.5S AI编程助手

                暖哇科技陈鸿出席泰康保险集团第七届1024科技节,分享“AI+专识+多智能体”理赔实践

                暖哇科技

                由 Mybatis 源码畅谈软件设计(七):从根上理解 Mybatis 一级缓存

                京东科技开发者

                纯配时效服务-双Redis集群设计

                京东科技开发者

                图灵进化招人啦

                慢点科技SlowTech

                集成平台如何实现“应用即服务”?深入解析 iPaaS 的服务化理念

                谷云科技RestCloud

                数据处理 数据传输 集成平台 应用集成 ipaas

                AI英语听说训练系统:用AI技术打通“能听会说”的最后一公里

                上海拔俗

                快递鸟 API 接口全面解析:企业级物流解决方案

                快递鸟

                过程控制 软件维护经验总结(2)

                万里无云万里天

                工业 工厂运维 过程控制

                过程控制 通讯维护经验总结(2)

                万里无云万里天

                工业 工厂运维 过程控制

                由 Mybatis 源码畅谈软件设计(四):动态 SQL 执行流程

                京东科技开发者

                隐语SecreFlow:如何全面提升MPC多方安全学习的性能?

                隐语SecretFlow

                算法 算子 多方安全学习

                Sentieon | 水稻全基因组(WGS)分析全流程

                INSVAST

                Sentieon WGS 分子育种 全基因组分析流程 农作物

                云栖实录 | AI原生搜索引擎:Elasticsearch 换“芯”——AI原生搜索内核增强技术

                阿里云大数据AI技术

                elasticsearch 阿里云 AI搜索

                百度亮相 SREcon25:搜索稳定背后的秘密,微服务雪崩故障防范

                Baidu AICLOUD

                微服务架构 SRE

                Java数据库应用原型

                码语者

                Java

                设计稿如何快速生成代码?5个提效AI工具盘点

                职场工具箱

                设计 figma AI工具 设计稿转代码 AI 代码助手

                钢铁行业数字化利器,TDengine 时序数据库荣获金恒科技“年度卓越供应商”

                TDengine

                tdengine 时序数据库 国产时序数据库

                AI语料库智慧教学平台:用AI技术解锁语料教学新生态

                上海拔俗

                2025青科会启幕,网易伏羲携游戏AI前沿实践共话未来

                网易伏羲

                知乎 网易伏羲 游戏AI 具身智能 群体智能

                字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距_计算机视觉_褚杏娟_InfoQ精选文章