AI 年度盘点与2025发展趋势展望,50+案例解析亮相AICon 了解详情
写点什么

字节跳动辟谣推出中文版 Sora:还无法完善产品落地,距离国外模型有很大差距

  • 2024-02-20
    北京
  • 本文字数:651 字

    阅读完需:约 2 分钟

大小:303.69K时长:01:43
字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距

今日有消息称,在 Sora 引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

 

对此,字节跳动相关人士向媒体回应称,Boximator 是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

 

根据介绍,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。例如,“小猫把自己藏进杯子里了”:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    “由像素组成的角色正在跳舞”:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      “一个红衣女孩用头骨遮住了脸”:


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        “一名年轻女子转过头,露出了她的侧脸”:


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          “蜘蛛侠向镜头摆动”:


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            根据论文介绍,Boximator 使⽤ 3D U-Net 架构构建在视频扩散模型之上。3D U-Net 由交替的卷积块和注意⼒块构成。每个块包含两个组件:⼀个空间组件,负责将各个视频帧作为单独的图像进⾏处理;另外一个是时间组件,⽀持跨帧信息交换。

             

            为了实现对视频中物体、人物的动作控制,Boximator 使用了“软框”和“硬框”两种约束方法。其中,硬框可精确定义目标对象的边界框,软框则定义一个对象可能存在的区域, 形成一个宽松的边界框。

             

            控制模块可以将框约束的编码与视频帧的视觉编码结合,用来指导视频的精准动作生成。包含框编码器和自注意力层两大块。

             

            论文地址:https://arxiv.org/abs/2402.01566

             

            下面是研发人员给出的 Gen-2、Pink1.0 和 Boximator 的对比:


            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                 根据其在Github上的信息,Boximator 演示网站正在开发中,将在未来 2-3 个月内推出。


                2024-02-20 14:575907

                评论

                发布
                暂无评论

                创建公司内部文档的入门指南

                小炮

                工作效率 企业管理 企业管理软件

                Linux之crontab命令

                入门小站

                Linux

                在线Excel文件解析转换成JSON格式

                入门小站

                工具

                火山引擎、阿里云、腾讯云联合发布"超低延时"直播技术标准

                字节跳动视频云技术团队

                音视频

                Serverless 底座的持续创新

                亚马逊云科技 (Amazon Web Services)

                Serverless 架构

                直播带练 | 30 分钟用阿里云容器服务和容器网络文件系统搭建 WordPress 网站

                阿里巴巴云原生

                阿里云 云原生 课程 容器服务 直播回放

                2023届校园招聘正式开启!OceanBase 想和你在这个春天约一场面试

                OceanBase 数据库

                招聘 校园招聘 oceanbase

                华为,在行星的十字路口

                脑极体

                融合通信常见问题2月刊 | 云信小课堂

                网易云信

                音视频 融合通信

                【BBC learningenglish】with Tango

                IT蜗壳-Tango

                IT蜗壳教学 3月月更 Tango English

                【C语言】数据类型存储、原码,反码,补码

                謓泽

                C语言 补码 原码 反码 3月月更

                Serverless常见的应用设计模式

                亚马逊云科技 (Amazon Web Services)

                Serverless 架构

                OceanBase 社区版 OCP 功能解读

                OceanBase 数据库

                分布式 OceanBase 社区版 工具家族

                一文带你认识 SOFARegistry 之基础架构篇

                SOFAStack

                开源 架构 注册中心 SOFA

                前端架构三大巨头之一Angular | 深度讲解

                云智慧AIOps社区

                开源 前端 Web angular 数据源

                ToB月报丨二月融资总金额超152亿元;「东数西算」国家工程全面启动

                ToB行业头条

                【技术分享】历经16年猪八戒网如何成功实现双活流量架构

                八戒技术团队

                架构

                cdr2022序列号CorelDRAW2022绿色密钥

                茶色酒

                CorelDRAW 2022

                基于XuperChain的区块链项目从0到N

                刘旭东

                区块链 XuperChain

                2021 “科创中国”开源创新榜单公布,优麒麟荣登两榜!

                优麒麟

                Linux 开源 开源社区 优麒麟

                HertzBeat赫兹跳动v1.0.beta.4 发布, 易用友好的高性能监控告警系统

                TanCloud探云

                开源 APM 监控 监控系统 监控告警

                与容器服务 ACK 发行版的深度对话第二弹:如何借助 hybridnet 构建混合云统一网络平面

                阿里巴巴云原生

                阿里云 云原生 ACK Distro

                Rainbond 5.6 版本发布,增加多种安装方式,优化拓扑图操作体验

                北京好雨科技有限公司

                网络安全kali渗透学习 web渗透入门 使用msf渗透攻击Win7主机并远程执行命令

                学神来啦

                网络安全 Web 渗透 kali kali Linux

                招聘宣讲会|Rust 如何为量化行业加速赋能?

                非凸科技

                澜起科技加入,龙蜥社区再迎领先的芯片设计厂商

                OpenAnolis小助手

                Linux 开源 操作系统 生态 龙蜥社区

                白话大数据 | 从买菜这件小事来聊聊数据仓库

                星环科技

                开讲了!龙蜥社区走进北大课堂

                OpenAnolis小助手

                开源 操作系统 龙蜥社区 北京大学 走进高校

                揭秘视频千倍压缩背后的技术原理之环路滤波

                拍乐云Pano

                音视频 RTC 视频编码 音视频开发 视频压缩

                系统学习 TypeScript(五)——联合类型

                编程三昧

                typescript 前端 3月月更 联合类型

                对信用卡欺诈 Say No!百行代码实现简化版实时欺诈检测

                沃趣科技

                数据库表

                字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距_计算机视觉_褚杏娟_InfoQ精选文章