Index-AniSora：B站开源动画生成模型，斩获多项SOTA入选IJCAI25

B 站开源动画视频生成模型 Index-AniSora，支持番剧、国创、漫改动画、VTuber、动画 PV、鬼畜动画等多种二次元风格视频镜头一键生成！

整个工作技术原理基于 B 站提出的 AniSora: Exploring the Frontiers of Animation Video Generation in the Sora Era 实现，该工作已经被 IJCAI25 接收。我们提出的 AniSora 系统，是首个专为二次元视频生成打造的技术框架，全面提升动画内容的生产效率与质量。

喜欢的漫画一键出动画效果，支持多种小众画风，效果更加丰富，从此告别“PPT 动画”。

Prompt：画面中一个人在快速向前奔跑，他奔跑的速度很快使得人物有些模糊

Prompt：画面中的人物向上抬了下手臂，他手臂上的气体在流动

Prompt：老人的目光紧盯着那颗宝石，右手轻微摆动着手中的放大镜，嘴巴在说话，仿佛它掌握着解开某种古老知识或秘密的关键。

Prompt：左边男人紧紧抿着嘴唇，脸上刻满了愤怒和决心。他的表情传达出无尽的挫折与坚定信念。与此同时，另一个男人的嘴巴张得大大的，仿佛即将开口大声说话或大喊大叫。

Prompt：画面中展现了石块发生爆炸的场景，发出刺眼的光芒，碎石四处飞散。

简单介绍一下我们如何实现这些魔法效果的。通过高效的数据处理链路，构建了超过千万条高质量的文本-视频对，包含了大量不同风格、类型、内容的高质量动画数据，为模型训练提供了坚实的数据基础。其次，针对动画生成的独特需求，我们开发了统一的扩散生成框架，并引入时空掩码机制，灵活支持图生视频、插帧补全和局部控制等任务，实现对角色口型、动作乃至局部区域的精细控制，显著增强内容生成的可控性和创作自由度。最后，我们设计了首个面向动画视频的专用评估基准，涵盖多个二次元子类型，填补了现有自然视频评估体系的空白。我们还基于 VLM 模型进行了定向优化，使其更好地理解动漫语境与 ACG 审美，从而构建出更贴合创作者真实需求的自动化视频评估系统。

时域条件控制（对应任务如视频插帧、扩写开头）

生成的视频：

生成的视频

运动空间条件控制

生成的视频（带有掩码的可视化）

运动强度控制

Prompt：一个穿着粉红色开襟羊毛衫的年轻女子坐在一间舒适房间的地板上。她轻轻地抚摸着她的黑猫，它正在一个小盒子上的碗里吃东西。

首帧：

正常强度：

大幅强度：

详细的技术方案，请看：B站自研动画视频生成模型全链路技术报告

本次开源内容包括：

AniSoraV1.0：基于 CogVideoX-5B 基座模型训练，包括全部的训练和推理代码。支持视频局部区域引导控制、时序引导控制（首帧引导、尾帧引导、关键帧插值、多帧引导等）。4090 可部署的高性价比模型，支持覆盖 80%的应用场景。

AniSoraV2.0：基于 Wan2.1-14B 基座模型训练，基座模型更强，效果更加稳定，覆盖 90%的应用场景。采用蒸馏加速方案，保证效果的同时，提升推理性能。同样，会发布全部的训练和推理代码，包括对国产芯片华为 910B 高效分布式训练的支持，AniSora 模型完全基于国产芯片训练完成。

训练数据集构建的全链路模型，帮助快速扩展训练数据。

基于动画数据优化的 Benchmark 系统，专门为动画视频生成领域研发的自动化评测系统，以及标准测试数据集，更加符合 ACG 审美要求。

此外，我们会一起开源首个基于动画领域人类偏好强化学习模型及训练框架以及用该技术优化过的 AniSoraV1.0_RL，提供更加高效的视频效果强化训练，更加符合二次元审美的模型。该工作的预印版已经整理在 Aligning Anime Video Generation with Human Feedback上，下面简单说他的原理。

我们为动漫视频生成任务构建了首个包含 30,000 条人工标注样本的高质量奖励数据集，涵盖六个关键维度的人类偏好标注：视觉平滑度、运动感、视觉吸引力、文本一致性、图像一致性与角色一致性。基于此，我们设计了 AnimeReward 奖励模型，针对不同维度特征，引入专门的视觉-语言模型以提升拟合准确性。核心创新在于提出差距感知偏好优化算法（GAPO），通过显式建模正负样本间的偏好差距，强化奖励信号，引导模型更高效地学习人类偏好，显著提升对齐性能。

如果你已经跃跃欲试了，快前往：https://github.com/bilibili/Index-anisora/tree/main

创作场景

Index-AniSora：B 站开源动画生成模型，斩获多项 SOTA 入选 IJCAI25