NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

阿里云开源视频生成大模型 I2VGen-XL,2 分钟生成高清电影级效果视频

  • 2023-09-06
    北京
  • 本文字数:749 字

    阅读完需:约 2 分钟

大小:434.29K时长:02:28
阿里云开源视频生成大模型I2VGen-XL,2分钟生成高清电影级效果视频

近日,阿里云推出全新视频生成大模型 I2VGen-XL,并在魔搭社区开放体验,用户上传一张图片后 2 分钟左右即可生成一段 1280*720 的高分辨率视频。据介绍,该模型的训练还使用了多种风格的视频数据,可生成科技感、电影色、卡通风格和素描等类型丰富的视频。目前,I2VGen-XL 的模型和代码均已开源。

 

在此之前,阿里云曾推出 AI 绘画创作大模型通义万相(基座模型 Composer)和可控视频生成模型 VideoComposer,团队在该领域发表 60 多篇 CCF-A 类论文,并在国际顶级视觉竞赛中获得 10 余项冠军。

 

和 AI 绘画创作大模型相比,视频生成大模型的技术门槛更高,其需要克服文本和视频内容匹配度、视频画面质量、画面连续性等诸多技术挑战。在此之前,阿里云和微软等科技公司相继推出一系列可控视频生成研究成果,例如用户可通过定义空间布局、运动模式等条件来生成视频,但其画面清晰度难以满足真实场景应用的需求。

 

针对该问题,阿里云进一步提出创新思路,I2VGen-XL 模型设计了两个阶段:首先在低分辨率条件下保证生成结果和给定图像语义的匹配度,随后通过视频扩散模型(VLDM)来提高视频分辨率,并同时提升时间和空间上的一致性,保证最终视频内容的清晰度和连贯性,最终实现 1280*720 高分辨率的突破,并且在画面细节的展现上大幅领先现有模型。

 

I2VGen-XL 模型研发负责人表示,未来将进一步实现 2K 超清效果,可应用于短视频内容生产、电影制作等场景。


I2VGen-XL流程图

 

目前,I2VGen-XL 模型已吸引国内外用户和开发者的广泛体验和二次开发,涌现了大量创意 AI 视频生成内容,例如在城堡上展翅的恐龙、宇航员在飞船中行走的科幻电影画面等等……知名 AI 社交媒体分析师 Ahsen Khaliq 在推特发布多条由该模型生成的视频效果,并表示模型在清晰度、纹理、语义和时间连续性方面有优势。



模型体验地址:

https://modelscope.cn/studios/damo/I2VGen-XL-Demo/summary

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-09-06 11:277136

评论

发布
暂无评论
发现更多内容

终于有腾讯架构师把困扰我多年的《计算机网络原理》全部讲明白了

Java 程序员 架构 网络 计算机

2021年金三银四最新美团、字节、阿里、腾讯Java面经,已拿offer!

Java架构之路

Java 程序员 架构 面试 编程语言

mysql事务隔离的研究

这就是编程

「开源」首次被列入“十四五”规划,未来大有可为

百度开发者中心

CMS垃圾收集器

张sir

Java JVM 垃圾收集

架构可视化支撑系统演进探索

华为云开发者联盟

架构 软件系统 架构可视化 辅助系统 架构可视化辅助系统

三年Java程序员成功跳槽涨薪,这份《阿里巴巴金三银四Java高级面试题》给了我很大的帮助。

Java架构之路

Java 程序员 架构 面试 编程语言

[知识它]一篇文章或一本书是怎么写出来的

知识它

写作技巧 写文章 快速写作 写作方法

百度应用部署秘籍

百度开发者中心

Impala简介以及与Hive的异同

五分钟学大数据

4月日更 impala

5G 和云原生时代的技术下半场,视频化是最大最新的确定性

阿里巴巴云原生

人工智能 云原生 5G 存储 调度

翻译:《实用的Python编程》08_00_Overview

codists

Python

阿里最新发布Spring Cloud ALiBaBa全解第三版开源!

Java架构追梦

Java 阿里巴巴 架构 面试 SpringCloud Alibaba

软件测试面试题【2021模拟面试整理版(含答案)】

程序员阿沐

面试 软件测试

Linux后台开发面试总结

赖猫

中间件技术在百度云原生测试中的应用实践

百度开发者中心

中间件

乡村振兴:AI+乡村的下一个命题

百度开发者中心

HugeGraph图数据库获Apache TinkerPop官方认证

百度开发者中心

工作中的设计模式 —— 策略模式

程序员小航

Java 设计模式

月薪30K以上的C/C++Linux后台服务器开发学习路线是怎样的?

赖猫

c++ Linux 后台开发 后端

Redis 客户端服务端命令数据交换

escray

redis 学习 极客时间 Redis 核心技术与实战 4月日更

纹理打包器TexturePacker

空城机

UI 4月日更 Texture Packer 纹理打包器 pixi

学会 Java 数据结构,想不飘都难

学Java关注我

Java 编程 架构 程序人生 计算机

为什么很多SaaS叫好不叫座?

ToB行业头条

SaaS tob

大牛荐书 | 百度技术大牛都在读的7本书!

百度开发者中心

开放原子超级链动态内核上线,十分钟可搭建一条区块链

百度开发者中心

San介绍以及在百度APP的实践

百度开发者中心

初窥Ray框架

行者AI

深度学习

飞桨框架2.0正式版重磅发布,一次端到端的“基础设施”革新

百度开发者中心

为什么主动跨数据复制在5G时代非常重要?

VoltDB

数据分析 5G VoltDB 电信

iOS 面试策略之算法基础1-3节

iOSer

ios 面试 算法 iOS算法

阿里云开源视频生成大模型I2VGen-XL,2分钟生成高清电影级效果视频_阿里巴巴_凌敏_InfoQ精选文章