AICon上海「Agent与多模态解决方案专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

Index-AniSora:B 站开源动画生成模型,斩获多项 SOTA 入选 IJCAI25

作者:蒋宇东

  • 2025-05-19
    北京
  • 本文字数:1629 字

    阅读完需:约 5 分钟

大小:685.17K时长:03:53
Index-AniSora:B站开源动画生成模型,斩获多项SOTA入选IJCAI25

B 站开源动画视频生成模型 Index-AniSora,支持番剧、国创、漫改动画、VTuber、动画 PV、鬼畜动画等多种二次元风格视频镜头一键生成!


整个工作技术原理基于 B 站提出的 AniSora: Exploring the Frontiers of Animation Video Generation in the Sora Era 实现,该工作已经被 IJCAI25 接收。我们提出的 AniSora 系统,是首个专为二次元视频生成打造的技术框架,全面提升动画内容的生产效率与质量


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    喜欢的漫画一键出动画效果,支持多种小众画风,效果更加丰富,从此告别“PPT 动画”。



    Prompt:画面中一个人在快速向前奔跑,他奔跑的速度很快使得人物有些模糊




    Prompt:画面中的人物向上抬了下手臂,他手臂上的气体在流动




    Prompt:老人的目光紧盯着那颗宝石,右手轻微摆动着手中的放大镜,嘴巴在说话,仿佛它掌握着解开某种古老知识或秘密的关键。




    Prompt:左边男人紧紧抿着嘴唇,脸上刻满了愤怒和决心。他的表情传达出无尽的挫折与坚定信念。与此同时,另一个男人的嘴巴张得大大的,仿佛即将开口大声说话或大喊大叫。




    Prompt:画面中展现了石块发生爆炸的场景,发出刺眼的光芒,碎石四处飞散



    简单介绍一下我们如何实现这些魔法效果的。通过高效的数据处理链路,构建了超过千万条高质量的文本-视频对,包含了大量不同风格、类型、内容的高质量动画数据,为模型训练提供了坚实的数据基础。其次,针对动画生成的独特需求,我们开发了统一的扩散生成框架,并引入时空掩码机制,灵活支持图生视频、插帧补全和局部控制等任务,实现对角色口型、动作乃至局部区域的精细控制,显著增强内容生成的可控性和创作自由度。最后,我们设计了首个面向动画视频的专用评估基准,涵盖多个二次元子类型,填补了现有自然视频评估体系的空白。我们还基于 VLM 模型进行了定向优化,使其更好地理解动漫语境与 ACG 审美,从而构建出更贴合创作者真实需求的自动化视频评估系统。



    • 时域条件控制(对应任务如视频插帧、扩写开头)



    生成的视频:



    生成的视频



    生成的视频


    运动空间条件控制

    生成的视频(带有掩码的可视化)



    运动强度控制


    Prompt:一个穿着粉红色开襟羊毛衫的年轻女子坐在一间舒适房间的地板上。她轻轻地抚摸着她的黑猫,它正在一个小盒子上的碗里吃东西。


    首帧:

    正常强度:

    大幅强度:



    详细的技术方案,请看:B站自研动画视频生成模型全链路技术报告


    本次开源内容包括:

    AniSoraV1.0:基于 CogVideoX-5B 基座模型训练,包括全部的训练和推理代码。支持视频局部区域引导控制、时序引导控制(首帧引导、尾帧引导、关键帧插值、多帧引导等)。4090 可部署的高性价比模型,支持覆盖 80%的应用场景。


    AniSoraV2.0:基于 Wan2.1-14B 基座模型训练,基座模型更强,效果更加稳定,覆盖 90%的应用场景。采用蒸馏加速方案,保证效果的同时,提升推理性能。同样,会发布全部的训练和推理代码,包括对国产芯片华为 910B 高效分布式训练的支持,AniSora 模型完全基于国产芯片训练完成。


    训练数据集构建的全链路模型,帮助快速扩展训练数据。


    基于动画数据优化的 Benchmark 系统,专门为动画视频生成领域研发的自动化评测系统,以及标准测试数据集,更加符合 ACG 审美要求。


    此外,我们会一起开源首个基于动画领域人类偏好强化学习模型及训练框架以及用该技术优化过的 AniSoraV1.0_RL,提供更加高效的视频效果强化训练,更加符合二次元审美的模型。该工作的预印版已经整理在 Aligning Anime Video Generation with Human Feedback上,下面简单说他的原理。



    我们为动漫视频生成任务构建了首个包含 30,000 条人工标注样本的高质量奖励数据集,涵盖六个关键维度的人类偏好标注:视觉平滑度、运动感、视觉吸引力、文本一致性、图像一致性与角色一致性。基于此,我们设计了 AnimeReward 奖励模型,针对不同维度特征,引入专门的视觉-语言模型以提升拟合准确性。核心创新在于提出差距感知偏好优化算法(GAPO),通过显式建模正负样本间的偏好差距,强化奖励信号,引导模型更高效地学习人类偏好,显著提升对齐性能。


    如果你已经跃跃欲试了,快前往:https://github.com/bilibili/Index-anisora/tree/main

    2025-05-19 09:00692

    评论

    发布
    暂无评论

    应届女生美团Java岗4面,一次性斩offfer,我受到了万点暴击

    Java 编程 程序员 架构师 计算机

    利用亚马逊云科技Direct Connect和Transit Gateway轻松构造企业混合云解决方案

    亚马逊云科技 (Amazon Web Services)

    棒极了!可以让你Java程序快上180%以上的阿里性能优化笔记

    Java架构追梦

    Java 阿里巴巴 架构 面试 性能优化

    一周信创舆情观察(7.12~7.18)

    统小信uos

    哪类技术助力了隐私计算的工业化?如何“组装”发挥更大价值?

    SaaS市场百花齐放:厂商数量已达4500家,用户数量已达915万家

    海比研究院

    还在使用NoSQL数据库?为IoT选择TSDB

    数据库 大数据 时序数据库 tsdb 数据智能

    带你了解WDR-GaussDB(DWS) 的性能监测报告

    华为云开发者联盟

    数据库 数据 GaussDB(DWS) WDR 负荷诊断报告

    Chaos Mesh 助力 Apache APISIX 提升稳定性

    API7.ai 技术团队

    lua 网关 APISIX Chaos Mesh

    数字人民币如何普惠百姓?建行发布新金融数字便民计划

    CECBC

    上架一夜遭全网封杀!阿里大牛熬夜半年手码的Java面试指南太强了

    白亦杨

    Java 编程 程序员 架构师

    EasyRecovery软件帮你快速恢复图片数据

    淋雨

    EasyRecovery 文件恢复 硬盘数据恢复

    去中心化薄饼交易所开发|PancakeSwap去中心化交易所搭建方案

    Geek_23f0c3

    交易所开发 去中心化交易所系统开发 PancakeSwap交易所

    又一数据库高危漏洞爆出,数据安全如何有效保障?

    华为云开发者联盟

    redis 漏洞 GaussDB(for Redis) 开源Redis 数据库安全

    区块链不是一个风口,而是一个时代

    CECBC

    kafka日志存储以及清理机制

    泽睿

    kafak

    Spark 开源新特性:Catalyst 优化流程裁剪

    华为云开发者联盟

    sql spark 开源 Catalyst 优化器

    看焱融云CSI动态感知如何扩展Kubernetes Scheduler

    焱融科技

    云计算 技术 云原生 高性能 分布式存储

    Cassandra的调优总结

    林一

    分布式数据库 Cassandra

    Go语言:new还是make?到底该如何选择?

    微客鸟窝

    Go 语言

    抖音快手短视频获客软件开发系统

    丰富 TF Serving 生态,爱奇艺开源灵活高性能的推理系统 XGBoost Serving

    爱奇艺技术产品团队

    开源 优化 tensorflow serving 推理

    WorkPlus高端制造业数字化解决方案—航天科工

    BeeWorks

    开源 移动 解决方案 即时通讯 私有云

    校友资料登记平台小程序开发笔记二-云数据库设计

    CC同学

    校友录小程序 校友资料小程序

    Java的这个强大功能,很多人都不知道

    华为云开发者联盟

    Java c++ jdk 算法 jni

    网络研讨会|为什么在开发流程中应用静态代码分析工具?

    鉴释

    在线研讨会 静态代码分析

    从 Web 图标演进历史看最佳实践

    百度Geek说

    大前端

    ZooKeeper 分布式锁 Curator 源码 04:分布式信号量和互斥锁

    程序员小航

    Java zookeeper 源码 分布式锁 zookeeper分布式锁

    测试开发之系统篇-安装KVM虚拟机

    禅道项目管理

    虚拟机 测试开发

    13张图,深入理解Synchronized

    程序猿阿星

    synchronized java 并发 锁机制 锁升级

    记一次真实的JVM性能调优过程

    北游学Java

    Java JVM 性能调优

    Index-AniSora:B站开源动画生成模型,斩获多项SOTA入选IJCAI25_AI&大模型_InfoQ精选文章