免费注册!6月19-20日,「亚马逊云科技中国峰会」重磅来袭! 了解详情
写点什么

Index-AniSora:B 站开源动画生成模型,斩获多项 SOTA 入选 IJCAI25

作者:蒋宇东

  • 2025-05-19
    北京
  • 本文字数:1629 字

    阅读完需:约 5 分钟

大小:685.17K时长:03:53
Index-AniSora:B站开源动画生成模型,斩获多项SOTA入选IJCAI25

B 站开源动画视频生成模型 Index-AniSora,支持番剧、国创、漫改动画、VTuber、动画 PV、鬼畜动画等多种二次元风格视频镜头一键生成!


整个工作技术原理基于 B 站提出的 AniSora: Exploring the Frontiers of Animation Video Generation in the Sora Era 实现,该工作已经被 IJCAI25 接收。我们提出的 AniSora 系统,是首个专为二次元视频生成打造的技术框架,全面提升动画内容的生产效率与质量


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    喜欢的漫画一键出动画效果,支持多种小众画风,效果更加丰富,从此告别“PPT 动画”。



    Prompt:画面中一个人在快速向前奔跑,他奔跑的速度很快使得人物有些模糊




    Prompt:画面中的人物向上抬了下手臂,他手臂上的气体在流动




    Prompt:老人的目光紧盯着那颗宝石,右手轻微摆动着手中的放大镜,嘴巴在说话,仿佛它掌握着解开某种古老知识或秘密的关键。




    Prompt:左边男人紧紧抿着嘴唇,脸上刻满了愤怒和决心。他的表情传达出无尽的挫折与坚定信念。与此同时,另一个男人的嘴巴张得大大的,仿佛即将开口大声说话或大喊大叫。




    Prompt:画面中展现了石块发生爆炸的场景,发出刺眼的光芒,碎石四处飞散



    简单介绍一下我们如何实现这些魔法效果的。通过高效的数据处理链路,构建了超过千万条高质量的文本-视频对,包含了大量不同风格、类型、内容的高质量动画数据,为模型训练提供了坚实的数据基础。其次,针对动画生成的独特需求,我们开发了统一的扩散生成框架,并引入时空掩码机制,灵活支持图生视频、插帧补全和局部控制等任务,实现对角色口型、动作乃至局部区域的精细控制,显著增强内容生成的可控性和创作自由度。最后,我们设计了首个面向动画视频的专用评估基准,涵盖多个二次元子类型,填补了现有自然视频评估体系的空白。我们还基于 VLM 模型进行了定向优化,使其更好地理解动漫语境与 ACG 审美,从而构建出更贴合创作者真实需求的自动化视频评估系统。



    • 时域条件控制(对应任务如视频插帧、扩写开头)



    生成的视频:



    生成的视频



    生成的视频


    运动空间条件控制

    生成的视频(带有掩码的可视化)



    运动强度控制


    Prompt:一个穿着粉红色开襟羊毛衫的年轻女子坐在一间舒适房间的地板上。她轻轻地抚摸着她的黑猫,它正在一个小盒子上的碗里吃东西。


    首帧:

    正常强度:

    大幅强度:



    详细的技术方案,请看:B站自研动画视频生成模型全链路技术报告


    本次开源内容包括:

    AniSoraV1.0:基于 CogVideoX-5B 基座模型训练,包括全部的训练和推理代码。支持视频局部区域引导控制、时序引导控制(首帧引导、尾帧引导、关键帧插值、多帧引导等)。4090 可部署的高性价比模型,支持覆盖 80%的应用场景。


    AniSoraV2.0:基于 Wan2.1-14B 基座模型训练,基座模型更强,效果更加稳定,覆盖 90%的应用场景。采用蒸馏加速方案,保证效果的同时,提升推理性能。同样,会发布全部的训练和推理代码,包括对国产芯片华为 910B 高效分布式训练的支持,AniSora 模型完全基于国产芯片训练完成。


    训练数据集构建的全链路模型,帮助快速扩展训练数据。


    基于动画数据优化的 Benchmark 系统,专门为动画视频生成领域研发的自动化评测系统,以及标准测试数据集,更加符合 ACG 审美要求。


    此外,我们会一起开源首个基于动画领域人类偏好强化学习模型及训练框架以及用该技术优化过的 AniSoraV1.0_RL,提供更加高效的视频效果强化训练,更加符合二次元审美的模型。该工作的预印版已经整理在 Aligning Anime Video Generation with Human Feedback上,下面简单说他的原理。



    我们为动漫视频生成任务构建了首个包含 30,000 条人工标注样本的高质量奖励数据集,涵盖六个关键维度的人类偏好标注:视觉平滑度、运动感、视觉吸引力、文本一致性、图像一致性与角色一致性。基于此,我们设计了 AnimeReward 奖励模型,针对不同维度特征,引入专门的视觉-语言模型以提升拟合准确性。核心创新在于提出差距感知偏好优化算法(GAPO),通过显式建模正负样本间的偏好差距,强化奖励信号,引导模型更高效地学习人类偏好,显著提升对齐性能。


    如果你已经跃跃欲试了,快前往:https://github.com/bilibili/Index-anisora/tree/main

    2025-05-19 09:003378

    评论

    发布
    暂无评论

    保10万涨薪、保Offer、保大厂,1V1私教服务上线啦

    测试人

    软件测试 涨薪 测试开发

    细说js变量、作用域和垃圾回收

    hellocoder2029

    JavaScript

    推荐有礼 | 京东云推荐返利活动说明

    京东科技开发者

    京东云 云推客 代理商 分销 渠道

    Qt示例 | 数字时钟 Digital Clock Example

    YOLO.

    qt 10月月更 C++

    SmartBear与龙智宣布建立战略合作伙伴关系

    龙智—DevSecOps解决方案

    合作 龙智

    APICloud AVM 框架 纵向滚动通知栏组件

    YonBuilder低代码开发平台

    面向函数编程:关于函数式组件、dialog的api化

    默默的成长

    前端 Vue 3 10月月更

    制造业转型加速密钥——低代码开发平台

    力软低代码开发平台

    彻底搞懂JS原型与原型链

    hellocoder2029

    JavaScript

    Vue 2x 中使用 render 和 jsx 的最佳实践 (3)

    默默的成长

    前端 Vue 3 10月月更

    一文读懂NodeJs知识体系和原理浅析

    coder2028

    node.js

    Java 19中新推出的虚拟线程到底是怎么回事儿?

    Hollis

    Java

    odejs+Redis实现简易消息队列

    coder2028

    node.js

    Nodejs中的进程间通信

    coder2028

    node.js

    TypeScript介绍和使用

    默默的成长

    typescript 前端 10月月更

    ITSM | Forrester发布报告,7大重要见解总结IT运营状况

    龙智—DevSecOps解决方案

    IT运维

    浅谈理想中的业务开发模式

    久歌

    架构 开发 技术架构 服务编排

    AIGC时代到来?聊聊其中最出圈的语言模型GPT-3

    Baihai IDP

    AI NLP 大模型 AIGC GPT-3

    GameFi链游系统开发(NFT链游)

    薇電13242772558

    NFT

    Nodejs相关ORM框架分析

    coder2028

    node.js

    模块二作业

    知足🐏

    java的可变参数

    TimeFriends

    2022-webpack5实战教程

    Geek_02d948

    webpack

    CEF | 探索实现基于CEF框架的客户端

    YOLO.

    qt 10月月更 C++

    IP设计是什么?为什么它很重要?

    龙智—DevSecOps解决方案

    知识产权 IP 芯片开发 IP核 IP核设计

    细说Js中的this

    hellocoder2029

    JavaScript

    SAP | abap基本语法规则

    暮春零贰

    SAP abap 10月月更

    BizWorks助力企业应用的高效开发与复用

    阿里云E2企业云服务

    阿里云 开发者 云原生 低代码

    常用的文本检测与识别方法 - 第一节【文本检测与识别-白皮书-第三章】

    合合技术团队

    人工智能 机器学习 AI 文字识别 文字擦除

    代码静态测试 | MISRA是什么?如何使用它来改进嵌入式编码?

    龙智—DevSecOps解决方案

    c 嵌入式设计 嵌入式开发

    研发流程管理中,如何实现项目管理与代码信息的协同?

    LigaAI

    研发管理 解决方案 #GitLab LigaAI 企业号十月PK榜

    Index-AniSora:B站开源动画生成模型,斩获多项SOTA入选IJCAI25_AI&大模型_InfoQ精选文章