写点什么

阿里云开源视频生成大模型 I2VGen-XL,2 分钟生成高清电影级效果视频

  • 2023-09-06
    北京
  • 本文字数:749 字

    阅读完需:约 2 分钟

大小:434.29K时长:02:28
阿里云开源视频生成大模型I2VGen-XL,2分钟生成高清电影级效果视频

近日,阿里云推出全新视频生成大模型 I2VGen-XL,并在魔搭社区开放体验,用户上传一张图片后 2 分钟左右即可生成一段 1280*720 的高分辨率视频。据介绍,该模型的训练还使用了多种风格的视频数据,可生成科技感、电影色、卡通风格和素描等类型丰富的视频。目前,I2VGen-XL 的模型和代码均已开源。

 

在此之前,阿里云曾推出 AI 绘画创作大模型通义万相(基座模型 Composer)和可控视频生成模型 VideoComposer,团队在该领域发表 60 多篇 CCF-A 类论文,并在国际顶级视觉竞赛中获得 10 余项冠军。

 

和 AI 绘画创作大模型相比,视频生成大模型的技术门槛更高,其需要克服文本和视频内容匹配度、视频画面质量、画面连续性等诸多技术挑战。在此之前,阿里云和微软等科技公司相继推出一系列可控视频生成研究成果,例如用户可通过定义空间布局、运动模式等条件来生成视频,但其画面清晰度难以满足真实场景应用的需求。

 

针对该问题,阿里云进一步提出创新思路,I2VGen-XL 模型设计了两个阶段:首先在低分辨率条件下保证生成结果和给定图像语义的匹配度,随后通过视频扩散模型(VLDM)来提高视频分辨率,并同时提升时间和空间上的一致性,保证最终视频内容的清晰度和连贯性,最终实现 1280*720 高分辨率的突破,并且在画面细节的展现上大幅领先现有模型。

 

I2VGen-XL 模型研发负责人表示,未来将进一步实现 2K 超清效果,可应用于短视频内容生产、电影制作等场景。


I2VGen-XL流程图

 

目前,I2VGen-XL 模型已吸引国内外用户和开发者的广泛体验和二次开发,涌现了大量创意 AI 视频生成内容,例如在城堡上展翅的恐龙、宇航员在飞船中行走的科幻电影画面等等……知名 AI 社交媒体分析师 Ahsen Khaliq 在推特发布多条由该模型生成的视频效果,并表示模型在清晰度、纹理、语义和时间连续性方面有优势。



模型体验地址:

https://modelscope.cn/studios/damo/I2VGen-XL-Demo/summary

2023-09-06 11:279364

评论

发布
暂无评论
发现更多内容

「产品功能授权」和「外部开发者授权」的差异

柯杰

授权

五一出行看科技,高速巡检无人机 AI 算法开启智慧新篇

极小新

人工智能 目标检测算法 视觉智能 智能巡检

哈尔滨等保应用安全测评

黑龙江陆陆信息测评部

AI算法 | 睡岗识别冠军方案解读(姿态估计)

极小新

人工智能 计算机视觉 算法竞赛 目标检测算法 人体姿态估计

《Operating System Concepts》阅读笔记:p778-p793

codists

操作系统

从 Java 到 Go:面向对象的巨人与云原生的轻骑兵

京东科技开发者

YashanDB|Ubuntu 加载 C 驱动后 PHP 启动失败?原来是“库冲突”惹的祸

数据库砖家

数据库·

桌面日历工具有哪些?3个常用的任务管理软件盘点!

职场工具箱

项目管理 任务管理 在线白板 办公软件 日历应用程序

烟草行业信创迁移-企业综合管理平台上线运行

中烟创新

YashanDB |执行 SQL 报 YAS-02024 锁等待超时?可能是默认设置的问题

数据库砖家

数据库·

YashanDB|关闭归档时报 YAS-02079?你可能忘了关闭“复制模式”

数据库砖家

数据库·

开源鸿蒙,给机器人带来了什么?

脑极体

AI 操作系统

Arthas sc(查看JVM已加载的类信息 )

刘大猫

人工智能 监控 Arthas 大模型 sc

Aloudata Agent :基于 NoETL 明细语义层的分析决策智能体

Aloudata

数据分析 大模型 智能问数 智能归因 智能报告

python 实现消费者优先级队列

天翼云开发者社区

rython 堆队列算法

从 Java 到 Go:面向对象的巨人与云原生的轻骑兵

京东科技开发者

从Servlet到云原生:一文讲透Java Web容器的核心技术体系

AI时代的一滴水

tomcat 云原生 Java web

基于 Amazon Nova 和 TEN 框架的实时音视频交互解决方案

亚马逊云科技 (Amazon Web Services)

AI重构鞋服品牌「增长基因」:数据驱动的商品力革命已至

第七在线

BOE(京东方)发布行业首个可持续发展品牌“ONE”:以开放创新科技之力守护人类未来

爱极客侠

京东方

用知识图谱重构电商测试用例:精准覆盖业务场景的实践

测试人

人工智能

秒送LBS场景下的C端SOA服务容灾建设之-数据备份篇

京东科技开发者

10.接口而非实现编程

杨充

八大年度奖项揭晓!2024 BSRC年度盛典沙龙圆满举办

百度安全

使用 gt-checksum 分析迁移对象

GreatSQL

白鲸开源与亚马逊云科技携手推动AI-Ready数据架构创新

白鲸开源

AWS 亚马逊 白鲸开源 WhaleStudio

淘宝/天猫订单同步实战:用API打通电商“任督二脉”

代码忍者

淘宝API接口

Kairos:AI Agent 时代的基础设施新范式,重塑全球算力网络

股市老人

YashanDB|YAS-00413 超时报错?其实是系统资源限制“卡脖子”了

数据库砖家

数据库·

「Boli-职业发展助手」:技术人必备的智能职业规划与求职利器

Y11

找工作 简历 实习 校招 失业

阿里云开源视频生成大模型I2VGen-XL,2分钟生成高清电影级效果视频_阿里巴巴_凌敏_InfoQ精选文章