写点什么

Index-AniSora:B 站开源动画生成模型,斩获多项 SOTA 入选 IJCAI25

作者:蒋宇东

  • 2025-05-19
    北京
  • 本文字数:1629 字

    阅读完需:约 5 分钟

大小:685.17K时长:03:53
Index-AniSora:B站开源动画生成模型,斩获多项SOTA入选IJCAI25

B 站开源动画视频生成模型 Index-AniSora,支持番剧、国创、漫改动画、VTuber、动画 PV、鬼畜动画等多种二次元风格视频镜头一键生成!


整个工作技术原理基于 B 站提出的 AniSora: Exploring the Frontiers of Animation Video Generation in the Sora Era 实现,该工作已经被 IJCAI25 接收。我们提出的 AniSora 系统,是首个专为二次元视频生成打造的技术框架,全面提升动画内容的生产效率与质量


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    喜欢的漫画一键出动画效果,支持多种小众画风,效果更加丰富,从此告别“PPT 动画”。



    Prompt:画面中一个人在快速向前奔跑,他奔跑的速度很快使得人物有些模糊




    Prompt:画面中的人物向上抬了下手臂,他手臂上的气体在流动




    Prompt:老人的目光紧盯着那颗宝石,右手轻微摆动着手中的放大镜,嘴巴在说话,仿佛它掌握着解开某种古老知识或秘密的关键。




    Prompt:左边男人紧紧抿着嘴唇,脸上刻满了愤怒和决心。他的表情传达出无尽的挫折与坚定信念。与此同时,另一个男人的嘴巴张得大大的,仿佛即将开口大声说话或大喊大叫。




    Prompt:画面中展现了石块发生爆炸的场景,发出刺眼的光芒,碎石四处飞散



    简单介绍一下我们如何实现这些魔法效果的。通过高效的数据处理链路,构建了超过千万条高质量的文本-视频对,包含了大量不同风格、类型、内容的高质量动画数据,为模型训练提供了坚实的数据基础。其次,针对动画生成的独特需求,我们开发了统一的扩散生成框架,并引入时空掩码机制,灵活支持图生视频、插帧补全和局部控制等任务,实现对角色口型、动作乃至局部区域的精细控制,显著增强内容生成的可控性和创作自由度。最后,我们设计了首个面向动画视频的专用评估基准,涵盖多个二次元子类型,填补了现有自然视频评估体系的空白。我们还基于 VLM 模型进行了定向优化,使其更好地理解动漫语境与 ACG 审美,从而构建出更贴合创作者真实需求的自动化视频评估系统。



    • 时域条件控制(对应任务如视频插帧、扩写开头)



    生成的视频:



    生成的视频



    生成的视频


    运动空间条件控制

    生成的视频(带有掩码的可视化)



    运动强度控制


    Prompt:一个穿着粉红色开襟羊毛衫的年轻女子坐在一间舒适房间的地板上。她轻轻地抚摸着她的黑猫,它正在一个小盒子上的碗里吃东西。


    首帧:

    正常强度:

    大幅强度:



    详细的技术方案,请看:B站自研动画视频生成模型全链路技术报告


    本次开源内容包括:

    AniSoraV1.0:基于 CogVideoX-5B 基座模型训练,包括全部的训练和推理代码。支持视频局部区域引导控制、时序引导控制(首帧引导、尾帧引导、关键帧插值、多帧引导等)。4090 可部署的高性价比模型,支持覆盖 80%的应用场景。


    AniSoraV2.0:基于 Wan2.1-14B 基座模型训练,基座模型更强,效果更加稳定,覆盖 90%的应用场景。采用蒸馏加速方案,保证效果的同时,提升推理性能。同样,会发布全部的训练和推理代码,包括对国产芯片华为 910B 高效分布式训练的支持,AniSora 模型完全基于国产芯片训练完成。


    训练数据集构建的全链路模型,帮助快速扩展训练数据。


    基于动画数据优化的 Benchmark 系统,专门为动画视频生成领域研发的自动化评测系统,以及标准测试数据集,更加符合 ACG 审美要求。


    此外,我们会一起开源首个基于动画领域人类偏好强化学习模型及训练框架以及用该技术优化过的 AniSoraV1.0_RL,提供更加高效的视频效果强化训练,更加符合二次元审美的模型。该工作的预印版已经整理在 Aligning Anime Video Generation with Human Feedback上,下面简单说他的原理。



    我们为动漫视频生成任务构建了首个包含 30,000 条人工标注样本的高质量奖励数据集,涵盖六个关键维度的人类偏好标注:视觉平滑度、运动感、视觉吸引力、文本一致性、图像一致性与角色一致性。基于此,我们设计了 AnimeReward 奖励模型,针对不同维度特征,引入专门的视觉-语言模型以提升拟合准确性。核心创新在于提出差距感知偏好优化算法(GAPO),通过显式建模正负样本间的偏好差距,强化奖励信号,引导模型更高效地学习人类偏好,显著提升对齐性能。


    如果你已经跃跃欲试了,快前往:https://github.com/bilibili/Index-anisora/tree/main

    2025-05-19 09:003807

    评论

    发布
    暂无评论

    Webpack | 提升构建速度和体积优化的N种方式

    梁龙先森

    大前端 webpack 2月春节不断更

    Go Modules v2 及后续版本

    Rayjun

    Go 语言

    Spring Boot 微服务性能下降九成!使用 Arthas 定位根因

    Java架构师迁哥

    Kubernetes 原生 CI/CD 构建框架 Argo 详解!

    字节跳动 Kubernetes 云原生 CI/CD argo

    iMove 基于 X6 + form-render 背后的思考

    阿里巴巴 开源 大前端 Web框架 逻辑编排

    产品经理训练营第二章作业2

    阿波

    2 期架构师训练营 - 大作业(二)

    云飞扬

    架构师训练营第2期

    学习总结之HTML5剑指前端(建议收藏,图文并茂)

    我是哪吒

    学习 程序员 面试 大前端 2月春节不断更

    所见即所得! iMove 在线执行代码探索

    阿里巴巴 开源 大前端 Web框架 逻辑编排

    探寻内部类的奥秘(上)

    后台技术汇

    2月春节不断更

    Linux Lab 进阶: Uboot 引导程序

    贾献华

    Linux bootloader Linux Kenel boot

    团队中的三种成员

    熊斌

    学习 管理 2月春节不断更

    MyBatis专栏 - 进阶(引入外部配置文件, 类型参数设置)

    小马哥

    Java mybatis 七日更 2月春节不断更

    日记 2021年2月5日(周五)

    Changing Lin

    个人感悟 2月春节不断更

    2021最新发布百度云面经总结:Java并发+Redis+数据库+分布式

    比伯

    Java 程序员 架构 面试 计算机

    威联通(NAS)应用篇:自建OwnCloud网盘(百度网盘,拜拜~~~)

    BigYoung

    NAS 威联通 28天写作 2月春节不断更

    OpenCV简介及其工程应用-游戏色块检测

    行者AI

    OpenCV

    【LeetCode】尽可能使字符串相等

    Albert

    算法 LeetCode 2月春节不断更

    什么是防火墙?

    即使技术再精,面试时一问这个必挂!!

    冰河

    面试 类加载器 我要进大厂 Java类加载

    OpenCV--基本的线条操作

    IT蜗壳-Tango

    七日更 2月春节不断更

    从躬身入局到共生入境的做产品

    boshi

    产品经理 产品设计 七日更

    容器&服务:开篇,压力与资源

    程序员架构进阶

    容器 服务 七日更 28天写作 2月春节不断更

    机器学习笔记之:Matrix Matrix Multiplication

    Nydia

    正点原子DS100拆解全过程-硬件工程师必备

    良知犹存

    嵌入式

    盘点:2021年最新、最全、最实用的Java岗面试真题,已收录GitHub

    Java 架构 面试

    2021年前端趋势预测

    阿里巴巴 开源 大前端 Web框架 逻辑编排

    阿里新晋 CNCF TOC 委员张磊:“云原生”为什么对云计算生态充满吸引力?

    阿里巴巴云原生

    云计算 容器 微服务 云原生 cncf

    因果迷境:为什么我们会问“为什么”?

    脑极体

    F2C能否让前端像运营配置一样开发?

    阿里巴巴 开源 大前端 Web框架 逻辑编排

    登上 Github 趋势榜,iMove 原理技术大揭秘!

    阿里巴巴 开源 大前端 Web框架 逻辑编排

    Index-AniSora:B站开源动画生成模型,斩获多项SOTA入选IJCAI25_AI&大模型_InfoQ精选文章