写点什么

阿里云开源视频生成大模型 I2VGen-XL,2 分钟生成高清电影级效果视频

  • 2023-09-06
    北京
  • 本文字数:749 字

    阅读完需:约 2 分钟

大小:434.29K时长:02:28
阿里云开源视频生成大模型I2VGen-XL,2分钟生成高清电影级效果视频

近日,阿里云推出全新视频生成大模型 I2VGen-XL,并在魔搭社区开放体验,用户上传一张图片后 2 分钟左右即可生成一段 1280*720 的高分辨率视频。据介绍,该模型的训练还使用了多种风格的视频数据,可生成科技感、电影色、卡通风格和素描等类型丰富的视频。目前,I2VGen-XL 的模型和代码均已开源。

 

在此之前,阿里云曾推出 AI 绘画创作大模型通义万相(基座模型 Composer)和可控视频生成模型 VideoComposer,团队在该领域发表 60 多篇 CCF-A 类论文,并在国际顶级视觉竞赛中获得 10 余项冠军。

 

和 AI 绘画创作大模型相比,视频生成大模型的技术门槛更高,其需要克服文本和视频内容匹配度、视频画面质量、画面连续性等诸多技术挑战。在此之前,阿里云和微软等科技公司相继推出一系列可控视频生成研究成果,例如用户可通过定义空间布局、运动模式等条件来生成视频,但其画面清晰度难以满足真实场景应用的需求。

 

针对该问题,阿里云进一步提出创新思路,I2VGen-XL 模型设计了两个阶段:首先在低分辨率条件下保证生成结果和给定图像语义的匹配度,随后通过视频扩散模型(VLDM)来提高视频分辨率,并同时提升时间和空间上的一致性,保证最终视频内容的清晰度和连贯性,最终实现 1280*720 高分辨率的突破,并且在画面细节的展现上大幅领先现有模型。

 

I2VGen-XL 模型研发负责人表示,未来将进一步实现 2K 超清效果,可应用于短视频内容生产、电影制作等场景。


I2VGen-XL流程图

 

目前,I2VGen-XL 模型已吸引国内外用户和开发者的广泛体验和二次开发,涌现了大量创意 AI 视频生成内容,例如在城堡上展翅的恐龙、宇航员在飞船中行走的科幻电影画面等等……知名 AI 社交媒体分析师 Ahsen Khaliq 在推特发布多条由该模型生成的视频效果,并表示模型在清晰度、纹理、语义和时间连续性方面有优势。



模型体验地址:

https://modelscope.cn/studios/damo/I2VGen-XL-Demo/summary

2023-09-06 11:279324

评论

发布
暂无评论
发现更多内容

彻底理解对象内存分配及Minor GC和Full GC全过程

JavaEdge

1月月更

电商秒杀系统架构设计

stars

架构训练营

Log4j 爆发“核弹级”漏洞、工信部力推开源软件发展、“龙腾计划”启动|开源月报 Vol. 02

腾源会

开源

更快的Maven构建工具mvnd和Gradle哪个更快?

王磊

无服务器应用DevOps最新实践(内附完整演讲+视频)

亚马逊云科技 (Amazon Web Services)

计算

Linux之ln命令

入门小站

Linux

模块九作业 - 设计电商秒杀系统

渐行渐远

架构实战营

陈梓立tison:投身开源,需要持之以恒的热爱与贡献

腾源会

开源

LeetCode 每日一题 No.382 链表随机节点

DawnMagnet

c++ rust LeetCode 力扣

云原生-模块三-作业

hunk

毕业设计

Geek_1d37ea

架构实战营

毕业总结

Geek_1d37ea

架构训练营

在 Flutter 中创建自定义 NumPad(数字键盘)

坚果

flutter 1月月更

编程进阶之路,虽无捷径但有长短

程序人生

毕业设计项目-电商秒杀系统

小朱

架构实战营

进击与危机同在,对抗与成长共存:2021年开源圈大事件盘点

腾源会

开源

模块五作业

whoami

「架构实战营」

聊聊 Kafka:如何避免消费组的 Rebalance

老周聊架构

kafka

好家伙!你这网络基础可以啊!2️⃣

XiaoLin_Java

1月日更

云原生课程总结

dll

Apache 首位华人董事吴晟:开源里的“偷懒”学

腾源会

开源

在线条码生成器

入门小站

工具

毕业设计项目

忘记喝水的猫

架构训练营

ReactNative进阶(二十二):点击事件.bind(this)引发的思考

No Silver Bullet

1月月更 ReactNative

架构实战营 - 毕业设计

唐敏

「架构实战营」

AI遇上强迫症,大脑与情绪的羁绊有解了

脑极体

2022 年十大 AI 开源工具和框架

腾源会

开源

4种高速安全混合云解决方案,助力您的云迁移之旅!

亚马逊云科技 (Amazon Web Services)

计算

040022-week3-algorithm

InfoQ_70156470130f

040022-week9-design

InfoQ_70156470130f

腾讯开源企业级设计体系 TDesign

腾源会

阿里云开源视频生成大模型I2VGen-XL,2分钟生成高清电影级效果视频_阿里巴巴_凌敏_InfoQ精选文章