写点什么

Index-AniSora:B 站开源动画生成模型,斩获多项 SOTA 入选 IJCAI25

作者:蒋宇东

  • 2025-05-19
    北京
  • 本文字数:1629 字

    阅读完需:约 5 分钟

大小:685.17K时长:03:53
Index-AniSora:B站开源动画生成模型,斩获多项SOTA入选IJCAI25

B 站开源动画视频生成模型 Index-AniSora,支持番剧、国创、漫改动画、VTuber、动画 PV、鬼畜动画等多种二次元风格视频镜头一键生成!


整个工作技术原理基于 B 站提出的 AniSora: Exploring the Frontiers of Animation Video Generation in the Sora Era 实现,该工作已经被 IJCAI25 接收。我们提出的 AniSora 系统,是首个专为二次元视频生成打造的技术框架,全面提升动画内容的生产效率与质量


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    喜欢的漫画一键出动画效果,支持多种小众画风,效果更加丰富,从此告别“PPT 动画”。



    Prompt:画面中一个人在快速向前奔跑,他奔跑的速度很快使得人物有些模糊




    Prompt:画面中的人物向上抬了下手臂,他手臂上的气体在流动




    Prompt:老人的目光紧盯着那颗宝石,右手轻微摆动着手中的放大镜,嘴巴在说话,仿佛它掌握着解开某种古老知识或秘密的关键。




    Prompt:左边男人紧紧抿着嘴唇,脸上刻满了愤怒和决心。他的表情传达出无尽的挫折与坚定信念。与此同时,另一个男人的嘴巴张得大大的,仿佛即将开口大声说话或大喊大叫。




    Prompt:画面中展现了石块发生爆炸的场景,发出刺眼的光芒,碎石四处飞散



    简单介绍一下我们如何实现这些魔法效果的。通过高效的数据处理链路,构建了超过千万条高质量的文本-视频对,包含了大量不同风格、类型、内容的高质量动画数据,为模型训练提供了坚实的数据基础。其次,针对动画生成的独特需求,我们开发了统一的扩散生成框架,并引入时空掩码机制,灵活支持图生视频、插帧补全和局部控制等任务,实现对角色口型、动作乃至局部区域的精细控制,显著增强内容生成的可控性和创作自由度。最后,我们设计了首个面向动画视频的专用评估基准,涵盖多个二次元子类型,填补了现有自然视频评估体系的空白。我们还基于 VLM 模型进行了定向优化,使其更好地理解动漫语境与 ACG 审美,从而构建出更贴合创作者真实需求的自动化视频评估系统。



    • 时域条件控制(对应任务如视频插帧、扩写开头)



    生成的视频:



    生成的视频



    生成的视频


    运动空间条件控制

    生成的视频(带有掩码的可视化)



    运动强度控制


    Prompt:一个穿着粉红色开襟羊毛衫的年轻女子坐在一间舒适房间的地板上。她轻轻地抚摸着她的黑猫,它正在一个小盒子上的碗里吃东西。


    首帧:

    正常强度:

    大幅强度:



    详细的技术方案,请看:B站自研动画视频生成模型全链路技术报告


    本次开源内容包括:

    AniSoraV1.0:基于 CogVideoX-5B 基座模型训练,包括全部的训练和推理代码。支持视频局部区域引导控制、时序引导控制(首帧引导、尾帧引导、关键帧插值、多帧引导等)。4090 可部署的高性价比模型,支持覆盖 80%的应用场景。


    AniSoraV2.0:基于 Wan2.1-14B 基座模型训练,基座模型更强,效果更加稳定,覆盖 90%的应用场景。采用蒸馏加速方案,保证效果的同时,提升推理性能。同样,会发布全部的训练和推理代码,包括对国产芯片华为 910B 高效分布式训练的支持,AniSora 模型完全基于国产芯片训练完成。


    训练数据集构建的全链路模型,帮助快速扩展训练数据。


    基于动画数据优化的 Benchmark 系统,专门为动画视频生成领域研发的自动化评测系统,以及标准测试数据集,更加符合 ACG 审美要求。


    此外,我们会一起开源首个基于动画领域人类偏好强化学习模型及训练框架以及用该技术优化过的 AniSoraV1.0_RL,提供更加高效的视频效果强化训练,更加符合二次元审美的模型。该工作的预印版已经整理在 Aligning Anime Video Generation with Human Feedback上,下面简单说他的原理。



    我们为动漫视频生成任务构建了首个包含 30,000 条人工标注样本的高质量奖励数据集,涵盖六个关键维度的人类偏好标注:视觉平滑度、运动感、视觉吸引力、文本一致性、图像一致性与角色一致性。基于此,我们设计了 AnimeReward 奖励模型,针对不同维度特征,引入专门的视觉-语言模型以提升拟合准确性。核心创新在于提出差距感知偏好优化算法(GAPO),通过显式建模正负样本间的偏好差距,强化奖励信号,引导模型更高效地学习人类偏好,显著提升对齐性能。


    如果你已经跃跃欲试了,快前往:https://github.com/bilibili/Index-anisora/tree/main

    2025-05-19 09:003572

    评论

    发布
    暂无评论

    B站基于Iceberg+Alluxio助力湖仓一体项目落地实践

    Alluxio

    B站 iceberg Alluxio 湖仓一体 8月月更

    本周四晚19:00知识赋能第七期第3课丨OpenHarmony WiFi扫描仪实现

    OpenHarmony开发者

    OpenHarmony

    阿里云 ACK 容器服务生产级可观测体系建设实践

    阿里巴巴中间件

    阿里云 容器 云原生 可观测

    这三道MySQL面试题,99%的人答不出来!

    程序员小毕

    Java MySQL 数据库 程序员 面试

    泰禾智能:智能改变未来,成就工业设备行业佼佼者

    科技怪咖

    马蹄链Dapp系统开发部署技术

    薇電13242772558

    dapp

    技术分享| anyRTC 8月更新迭代

    anyRTC开发者

    音视频 WebRTC 视频通话 实时消息 抓拍图片

    何去何从的并行计算

    博文视点Broadview

    左邻云安全 | 全程守护,让园区安全看得见

    科技怪咖

    秋招涨薪攻略!拿着GitHub标星80k的阿里性能优化笔记,把项目优化个遍

    退休的汤姆

    Java 阿里 社招 Java工程师 秋招

    计费准确率高达100%,是如何实现的?

    科技怪咖

    打造耳聪目明的MES系统,你准备好了吗?

    科技怪咖

    105份墨天轮“国产化迁移”干货文档汇总(含TiDB、openGauss、上云等)

    墨天轮

    数据库 阿里云 TiDB 国产数据库 达梦

    将 SAP Spartacus 作为 feature module 进行 Lazy Load 延迟加载时遇到的注入错误分析

    汪子熙

    typescript 前端开发 angular Spartacus 8月月更

    解决 NGINX LDAP 参考实施中的安全问题

    NGINX开源社区

    nginx HTTP 安全漏洞 ldap 身份验证

    ​Black Hat 2022 聚焦软件供应链安全

    SEAL安全

    网络安全 软件供应链安全

    SpringBoot 整合 数据库连接池(Druid、HicariCP、C3P0等等)

    SpringBoot 2 Druid 8月月更

    从实验室到用户桌面,深度解析AI 落地实践之路

    云智慧AIOps社区

    人工智能 机器学习 AI 算法实践 智能运维AIOps

    保利威荣获「年度最佳直播服务商」!引领视频直播行业创新发展

    科技怪咖

    打破数字化盐碱地:传统型企业如何踏稳数字化转型第一步

    科技怪咖

    “似水无形” 的小程序化技术

    Speedoooo

    小程序 小程序管理平台 轻应用 快应用 小程序平台

    Gitlab 中 Github import 功能存在远程代码执行漏洞

    墨菲安全

    Rewind the PlanetScale Rewind | 拆解硅谷当红科技公司如何做 Product Marketing

    Bytebase

    教你使用Jupyter可视化查询语句的语法树

    华为云开发者联盟

    人工智能

    KubeEdge边缘计算在顺丰科技工业物联网中的实践

    华为云开发者联盟

    云计算 云原生 工业物联网 顺丰

    Kruise Rollout v0.2.0 版本发布:支持 Gateway API、StatefulSet 分批发布等能力

    阿里巴巴中间件

    阿里云 开源 容器 云原生 OpenKruise

    如何应对软件可变性?这4种常用的方法肯定要知道

    华为云开发者联盟

    云计算 软件 后端

    从零到一,教你搭建「以文搜图」搜索服务(一)

    Zilliz

    人工智能 机器学习 深度学习

    RT-Thread记录(十四、I/O 设备模型之ADC设备)

    矜辰所致

    RT-Thread 8月月更 ADC

    1 分钟在 Serverless 上部署现代化 Deno Web 应用

    阿里巴巴中间件

    阿里云 Serverless 云原生

    MobTech ShareSDK Android端微信分享小程序

    MobTech袤博科技

    微信小程序 android sdk

    Index-AniSora:B站开源动画生成模型,斩获多项SOTA入选IJCAI25_AI&大模型_InfoQ精选文章