写点什么

字节跳动辟谣推出中文版 Sora:还无法完善产品落地,距离国外模型有很大差距

  • 2024-02-20
    北京
  • 本文字数:651 字

    阅读完需:约 2 分钟

大小:303.69K时长:01:43
字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距

今日有消息称,在 Sora 引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

 

对此,字节跳动相关人士向媒体回应称,Boximator 是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

 

根据介绍,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。例如,“小猫把自己藏进杯子里了”:


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    “由像素组成的角色正在跳舞”:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      “一个红衣女孩用头骨遮住了脸”:


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        “一名年轻女子转过头,露出了她的侧脸”:


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          “蜘蛛侠向镜头摆动”:


          00:00 / 00:00
            1.0x
            • 3.0x
            • 2.5x
            • 2.0x
            • 1.5x
            • 1.25x
            • 1.0x
            • 0.75x
            • 0.5x
            网页全屏
            全屏
            00:00


            根据论文介绍,Boximator 使⽤ 3D U-Net 架构构建在视频扩散模型之上。3D U-Net 由交替的卷积块和注意⼒块构成。每个块包含两个组件:⼀个空间组件,负责将各个视频帧作为单独的图像进⾏处理;另外一个是时间组件,⽀持跨帧信息交换。

             

            为了实现对视频中物体、人物的动作控制,Boximator 使用了“软框”和“硬框”两种约束方法。其中,硬框可精确定义目标对象的边界框,软框则定义一个对象可能存在的区域, 形成一个宽松的边界框。

             

            控制模块可以将框约束的编码与视频帧的视觉编码结合,用来指导视频的精准动作生成。包含框编码器和自注意力层两大块。

             

            论文地址:https://arxiv.org/abs/2402.01566

             

            下面是研发人员给出的 Gen-2、Pink1.0 和 Boximator 的对比:


            00:00 / 00:00
              1.0x
              • 3.0x
              • 2.5x
              • 2.0x
              • 1.5x
              • 1.25x
              • 1.0x
              • 0.75x
              • 0.5x
              网页全屏
              全屏
              00:00


              00:00 / 00:00
                1.0x
                • 3.0x
                • 2.5x
                • 2.0x
                • 1.5x
                • 1.25x
                • 1.0x
                • 0.75x
                • 0.5x
                网页全屏
                全屏
                00:00


                 根据其在Github上的信息,Boximator 演示网站正在开发中,将在未来 2-3 个月内推出。


                2024-02-20 14:576836

                评论

                发布
                暂无评论
                发现更多内容

                思维导图用什么软件做?10个主流的导图工具集

                职场工具箱

                人工智能 思维导图 在线白板 AIGC 思维导图软件

                全国文旅AI整活儿,意外暴露了百度搜索的AIGC创意能力

                脑极体

                AI

                社交媒体数据价值爆发:探讨Bright Data、Oxylabs、ThorData海外影音数据采集的潜能 原创

                不觉心动

                数据分析 数据采集

                社区伙伴活动推荐|半个 AI 圈的百位大咖都来啦!10.17-10.18 上海,密集观点碰撞+超炫 AI 互动!

                RTE开发者社区

                反向海淘系统核心解析

                tbapi

                淘宝代购系统 1688代采系统 反向海淘系统 外贸独立站搭建 反向海淘系统搭建

                告别 “一刀切” 管理!MyEMS 为不同行业定制专属能源优化方案

                开源能源管理系统

                开源 开源能源管理系统

                大数据-111 Flink 安装部署 On YARN 部署全流程详解:环境变量、配置与资源申请

                武子康

                Java 大数据 flink spark 分布式

                【RFID工具智能货架选购指南】适合仓库管理的品牌有哪些?

                斯科信息

                斯科信息 深科物联 RFID工具货架 RFID智能货架

                小企业切入AI 一体机市场还有机会吗

                慢点科技SlowTech

                解锁 Windows Server 2025 日志的深入可见性与洞察

                运维有小邓

                日志管理 日志审计 #日志分析

                可灵活定制的切片规则,才是RAG能够精准的核心关键

                UniverAI智宇苍穹

                rag 企业级AI基础设施 RAG应用 UniverAI 智宇苍穹

                免费≠将就!真正能打的招聘系统长这样!

                AI得贤招聘官

                赋值语句

                Miracle

                Pi Network创始人Dr. Chengdiao Fan将发表演讲,探讨加密货币现实应用

                股市老人

                司马阅全线升级,从“AI文档工具”迈向“AI文档智能体平台”的关键跨越

                新消费日报

                定义工业生产新范式!网易灵动发布全球首款全域智能无人装载机“灵载”

                网易伏羲

                网易伏羲 具身智能 网易灵动 无人装载机 装载机器人

                获取电商平台电子面单 API 打印配置接口:从准备到落地的全流程指南

                快递鸟

                黑龙江等保测评安全技术服务:构建网络安全防线的多面盾牌

                等保测评

                飞跃海峡:鲲鹏凿开算力的“米迪运河”

                脑极体

                AI

                哈尔滨三级等保测评:合规运营的必由之路

                等保测评

                大庆企业为何必须做等保测评?4 大核心原因解析

                等保测评

                Gartner报告:可观测性平台魔力象限

                乘云数字DataBuff

                可观测性 数据治理 IT运维

                决战大促之夜:订单洪峰下的“数据速递”如何不宕机?

                谷云科技RestCloud

                数据处理 数据传输 数据集成平台 ipaas 订单同步

                实用的改进

                Miracle

                Huxe 推出主动式 AI 音频服务,无感内容消费;OpenAI 推出 ChatGPT Pulse:主动提供个性化信息丨日报

                RTE开发者社区

                Comate分饰多角:全栈开发一个Python学习网站

                Comate编码助手

                Python #python学习之路 AI 编程 文心快码

                构建终极家庭实验室NUC集群 - 第三部分:Docker自动化与媒体堆栈

                qife122

                Docker 媒体服务器

                MongoDB到关系型数据库:JSON字段如何高效转换?

                谷云科技RestCloud

                MySQL 数据库 mongodb ETL 数据集成平台

                工业管理 项目管理经验总结(14)

                万里无云万里天

                项目管理 工厂运维

                MyEMS 如何让企业碳足迹 “可视化”?

                开源能源管理系统

                开源 开源能源管理系统

                MyEMS:深挖能耗数据,解锁降本与碳管双重 “密码”

                开源能源管理系统

                开源 开源能源管理系统

                字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距_计算机视觉_褚杏娟_InfoQ精选文章