写点什么

阿里云开源视频生成大模型 I2VGen-XL,2 分钟生成高清电影级效果视频

  • 2023-09-06
    北京
  • 本文字数:749 字

    阅读完需:约 2 分钟

大小:434.29K时长:02:28
阿里云开源视频生成大模型I2VGen-XL,2分钟生成高清电影级效果视频

近日,阿里云推出全新视频生成大模型 I2VGen-XL,并在魔搭社区开放体验,用户上传一张图片后 2 分钟左右即可生成一段 1280*720 的高分辨率视频。据介绍,该模型的训练还使用了多种风格的视频数据,可生成科技感、电影色、卡通风格和素描等类型丰富的视频。目前,I2VGen-XL 的模型和代码均已开源。

 

在此之前,阿里云曾推出 AI 绘画创作大模型通义万相(基座模型 Composer)和可控视频生成模型 VideoComposer,团队在该领域发表 60 多篇 CCF-A 类论文,并在国际顶级视觉竞赛中获得 10 余项冠军。

 

和 AI 绘画创作大模型相比,视频生成大模型的技术门槛更高,其需要克服文本和视频内容匹配度、视频画面质量、画面连续性等诸多技术挑战。在此之前,阿里云和微软等科技公司相继推出一系列可控视频生成研究成果,例如用户可通过定义空间布局、运动模式等条件来生成视频,但其画面清晰度难以满足真实场景应用的需求。

 

针对该问题,阿里云进一步提出创新思路,I2VGen-XL 模型设计了两个阶段:首先在低分辨率条件下保证生成结果和给定图像语义的匹配度,随后通过视频扩散模型(VLDM)来提高视频分辨率,并同时提升时间和空间上的一致性,保证最终视频内容的清晰度和连贯性,最终实现 1280*720 高分辨率的突破,并且在画面细节的展现上大幅领先现有模型。

 

I2VGen-XL 模型研发负责人表示,未来将进一步实现 2K 超清效果,可应用于短视频内容生产、电影制作等场景。


I2VGen-XL流程图

 

目前,I2VGen-XL 模型已吸引国内外用户和开发者的广泛体验和二次开发,涌现了大量创意 AI 视频生成内容,例如在城堡上展翅的恐龙、宇航员在飞船中行走的科幻电影画面等等……知名 AI 社交媒体分析师 Ahsen Khaliq 在推特发布多条由该模型生成的视频效果,并表示模型在清晰度、纹理、语义和时间连续性方面有优势。



模型体验地址:

https://modelscope.cn/studios/damo/I2VGen-XL-Demo/summary

2023-09-06 11:279138

评论

发布
暂无评论
发现更多内容

【LeetCode】分割回文串 II Java题解

Albert

算法 LeetCode 28天写作

Java程序员福利!2021年最新17套完整版一线大厂面试真题

Java架构追梦

Java 架构 面试 金三银四

LDAP身份认证管理最佳实践

龙归科技

服务器 ldap 客户端

Kafka 架构中 ZooKeeper 以怎样的形式存在?

李尚智

Java 消息中间件

音视频之opengl渲染图片

赖猫

音视频

深入理解Linux内核 RCU 机制

赖猫

Linux linux编程 Linux内核

实习记录-埋点测试

YUKI0506

如何招聘一名产品经理

马踏飞机747

互联网 产品经理 招聘 职场成长

JAVA已经呈饱和趋势了吗?

cdhqyj

Java 程序员 工作 IT

Alluxio 助力 Kubernetes,加速云端深度学习

阿里巴巴云原生

人工智能 大数据 容器 云原生 k8s

分布式事务与解决方案

一个大红包

28天写作 3月日更

半个多月时间4面阿里,已经成功拿下offer,分享一下个人面经

Java架构之路

Java 程序员 架构 面试 编程语言

币管家量化交易软件开发|币管家量化交易APP系统开发

系统开发

mongodb 源码实现系列 - Mongodb write写(增、删、改)模块设计与实现

杨亚洲(专注MongoDB及高性能中间件)

MySQL 数据库 mongodb 架构 分布式数据库mongodb

OCE等你加入

滴滴云

云计算 私有云 滴滴夜莺 Obsuite

平安智慧社区建设方案,平安小区的系统功能

13530558032

力扣(LeetCode)刷题,简单题(第19期)

不脱发的程序猿

程序员 LeetCode 28天写作 算法面经 3月日更

Python 中文编码

依旧廖凯

Python 28天写作 3月日更

职场里,对数据库要有敬畏之心!

Simon

MySQL 数据库

收藏!这些 IDE 使用技巧,你都知道吗

阿里巴巴云原生

Java ide 云原生 API 调度

WebRTC 音视频同步原理与实现

阿里云CloudImagine

阿里云 音视频 WebRTC 流媒体 视频云

Linux内核 设备树操作常用API

赖猫

Linux Linux内核

数据库定时备份linux篇

xiezhr

数据库 Linux Shell 数据备份 3月日更

不吹不黑聊中台

Geek_dn82ci

云计算 中台 企业架构

2021最新分享:阿里内部总监手码的“Redis学习手册”风靡全网

比伯

Java 编程 程序员 架构 面试

区块链电子合同应用落地--区块链电子合同签约

13530558032

智能炒币机器人软件开发|智能炒币机器人APP系统开发

系统开发

Linux/Centos Epoll 原理解析

赖猫

Linux 高并发 epoll

十四五,鹏城应作先锋看,山河同襄智能体

脑极体

SRS流媒体服务器源码分析--RTMP消息play

赖猫

音视频 流媒体 SRS 流媒体开发

高考大数据:全国31省高考难度,哪个才是地狱模式?

不脱发的程序猿

大数据 数据分析 28天写作 高考难度 3月日更

阿里云开源视频生成大模型I2VGen-XL,2分钟生成高清电影级效果视频_阿里巴巴_凌敏_InfoQ精选文章