字节跳动辟谣推出中文版Sora：还无法完善产品落地，距离国外模型有很大差距

今日有消息称，在 Sora 引爆文生视频赛道之前，国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与 Gen-2、Pink1.0 等模型不同的是，Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

对此，字节跳动相关人士向媒体回应称，Boximator 是视频生成领域控制对象运动的技术方法研究项目，目前还无法作为完善的产品落地，距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

根据介绍，Boximator 可以通过文本精准控制生成视频中人物或物体的动作。例如，“小猫把自己藏进杯子里了”：

“由像素组成的角色正在跳舞”：

“一个红衣女孩用头骨遮住了脸”：

“一名年轻女子转过头，露出了她的侧脸”：

“蜘蛛侠向镜头摆动”：

根据论文介绍，Boximator 使⽤ 3D U-Net 架构构建在视频扩散模型之上。3D U-Net 由交替的卷积块和注意⼒块构成。每个块包含两个组件：⼀个空间组件，负责将各个视频帧作为单独的图像进⾏处理；另外一个是时间组件，⽀持跨帧信息交换。

为了实现对视频中物体、人物的动作控制，Boximator 使用了“软框”和“硬框”两种约束方法。其中，硬框可精确定义目标对象的边界框，软框则定义一个对象可能存在的区域, 形成一个宽松的边界框。

控制模块可以将框约束的编码与视频帧的视觉编码结合，用来指导视频的精准动作生成。包含框编码器和自注意力层两大块。

下面是研发人员给出的 Gen-2、Pink1.0 和 Boximator 的对比：

根据其在Github上的信息，Boximator 演示网站正在开发中，将在未来 2-3 个月内推出。

字节跳动辟谣推出中文版 Sora：还无法完善产品落地，距离国外模型有很大差距