AICon 上海站|日程100%上线,解锁Al未来! 了解详情
写点什么

字节跳动辟谣推出中文版 Sora:还无法完善产品落地,距离国外模型有很大差距

  • 2024-02-20
    北京
  • 本文字数:651 字

    阅读完需:约 2 分钟

大小:303.69K时长:01:43
字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距

今日有消息称,在 Sora 引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

 

对此,字节跳动相关人士向媒体回应称,Boximator 是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

 

根据介绍,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。例如,“小猫把自己藏进杯子里了”:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    “由像素组成的角色正在跳舞”:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      “一个红衣女孩用头骨遮住了脸”:


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        “一名年轻女子转过头,露出了她的侧脸”:


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          “蜘蛛侠向镜头摆动”:


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            根据论文介绍,Boximator 使⽤ 3D U-Net 架构构建在视频扩散模型之上。3D U-Net 由交替的卷积块和注意⼒块构成。每个块包含两个组件:⼀个空间组件,负责将各个视频帧作为单独的图像进⾏处理;另外一个是时间组件,⽀持跨帧信息交换。

             

            为了实现对视频中物体、人物的动作控制,Boximator 使用了“软框”和“硬框”两种约束方法。其中,硬框可精确定义目标对象的边界框,软框则定义一个对象可能存在的区域, 形成一个宽松的边界框。

             

            控制模块可以将框约束的编码与视频帧的视觉编码结合,用来指导视频的精准动作生成。包含框编码器和自注意力层两大块。

             

            论文地址:https://arxiv.org/abs/2402.01566

             

            下面是研发人员给出的 Gen-2、Pink1.0 和 Boximator 的对比:


            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                 根据其在Github上的信息,Boximator 演示网站正在开发中,将在未来 2-3 个月内推出。


                2024-02-20 14:576389

                评论

                发布
                暂无评论
                发现更多内容

                鸿蒙特效教程10-卡片展开/收起效果

                苏杰豪

                鸿蒙 HarmonyOS ArkTS HarmonyOS NEXT

                openEuler 全栈式 AI 推理方案 使能 AI 普惠千行百业,推动企业实现数智化转型

                极客天地

                来看看现在go开发岗10k的面试强度

                王中阳Go

                Go 面试 后端 中小厂

                【GreatSQL优化器-18】GROUP_INDEX_SKIP_SCAN

                GreatSQL

                鸿蒙特效教程09-深入学习animateTo动画

                苏杰豪

                鸿蒙 HarmonyOS ArkTS HarmonyOS NEXT

                免费好用的HEU KMS Activator(Win/Office全自动激活工具)

                Rose

                axure rp 9怎么转换为中文版?axurerp9中文版安装包 附授权码

                Rose

                PowerVerse QA:打造面向全球的AI+DePIN+Metaverse+Web3.0 DeCloud生态服务

                PowerVerse

                云算力 云算力挖矿 去中心化云算力 算力生态

                借助淘宝拍立淘API,打造超便捷商品识别引擎

                tbapi

                淘宝API接口 淘宝图片搜索接口 淘宝拍立淘接口

                图解「模型上下文协议(MCP)」:从与传统 API 的比较入手

                Baihai IDP

                AI agent LLM MCP 模型上下文协议

                鸿蒙特效教程08-幸运大转盘抽奖

                苏杰豪

                鸿蒙 HarmonyOS ArkTS HarmonyOS NEXT

                哪里有cad2024详细激活教程?Autodesk AutoCAD 2024安装教程分享

                Rose

                精准审查,规避风险:中烟创新智能合同审查系统为企业保驾护航

                中烟创新

                城市综合治理系统(源码+文档+讲解+演示)

                深圳亥时科技

                扫码联网系统(源码+文档+讲解+演示)

                深圳亥时科技

                超级人工智能、具身智能与大世界模型:AI的未来之路

                测试人

                人工智能

                graphpad prism 10中文版 含注册机 | 数据分析绘图软件

                Rose

                专家管理系统(源码+文档+讲解+演示)

                深圳亥时科技

                PHP集成开发环境JetBrains PhpStorm 2024 最新中文密钥分享

                Rose

                Web3的成功离不开什么?

                PowerVerse

                区块链 web3 dapps

                HarmonyOS 之 @Require 装饰器自学指南

                李游Leo

                HarmonyOS NEXT

                Photoshop 2025系统要求 ps2025中文版激活补丁分享

                Rose

                理解文字识别:一文读懂OCR商业化产品的算法逻辑

                合合技术团队

                人工智能 算法 文字识别 OCR #大数据

                请查收官方通知!这5场课程,助您成为数智财务高端人才!

                用友智能财务

                AI 财务 会计

                反向海淘代购系统平台总被骂"二次收费"?搭建者必看的5大自检清单与解决方案

                代码忍者

                Boris FX Silhouette 2024 (影视跟踪抠像合成软件) v2024.5.6 直装版

                Rose

                达芬奇DaVinci Fusion Studio 19.1.4中文激活版

                Rose

                适用于Mac/win的数据库管理工具TablePlus v6.4.1

                Rose

                KeyShot 2025新功能详细介绍(附keyshot2025安装教程)

                Rose

                数据驱动进化:AI Agent如何重构手机交互范式?

                数据堂

                人工智能 数据采集 数据集 大模型 AI Agent

                替代 Airtable / 飞书表格?用零代码构建多对多关系的任务管理系统

                NocoBase

                开源 低代码 零代码 表格 任务管理系统

                字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距_计算机视觉_褚杏娟_InfoQ精选文章