写点什么

超越 Sora!阿里万相大模型正式开源,消费级显卡也能跑

  • 2025-02-27
    北京
  • 本文字数:1239 字

    阅读完需:约 4 分钟

大小:642.67K时长:03:39
超越Sora!阿里万相大模型正式开源,消费级显卡也能跑

2 月 25 日消息,阿里云旗下视觉生成基座模型万相 2.1(Wan)重磅开源,此次开源采用最宽松的 Apache2.0 协议,14B 和 1.3B 两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务,全球开发者可在 Github、HuggingFace 和魔搭社区下载体验。

 

开源地址:

Github: https://github.com/Wan-Video

HuggingFace: https://huggingface.co/Wan-AI

魔搭社区:https://modelscope.cn/organization/Wan-AI



据介绍,14B 万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出,在权威评测集 VBench 中,万相 2.1 以总分 86.22%的成绩大幅超越 Sora、Luma、Pika 等国内外模型,稳居榜首位置。1.3B 版本测试结果不仅超过了更大尺寸的开源模型,甚至还接近部分闭源模型,同时能在消费级显卡运行,仅需 8.2GB 显存就可以生成高质量视频,适用于二次模型开发和学术研究。

 


在算法设计上,万相基于主流 DiT 架构和线性噪声轨迹 Flow Matching 范式,研发了高效的因果 3D VAE、可扩展的预训练策略等。以 3D VAE 为例,为了高效支持任意长度视频的编码和解码,万相在 3D VAE 的因果卷积模块中实现了特征缓存机制,从而代替直接对长视频端到端的编解码过程,实现了无限长 1080P 视频的高效编解码。此外,通过将空间降采样压缩提前,在不损失性能的情况下进一步减少了 29%的推理时内存占用。

 

万相团队的实验结果显示,在运动质量、视觉质量、风格和多目标等 14 个主要维度和 26 个子维度测试中,万相均达到了业界领先表现,并且斩获 5 项第一。尤其在复杂运动和物理规律遵循上的表现上大幅提升,万相能够稳定展现各种复杂的人物肢体运动,如旋转、跳跃、转身、翻滚等;能够精准还原碰撞、反弹、切割等复杂真实物理场景。

 


(万相在 14 个主要维度测试中斩获 5 项第一及平均分第一)

 

从 2023 年开始,阿里云就坚定大模型开源路线,其千问(Qwen)衍生模型数量已超过 10 万个,是全球最大的 AI 模型家族。随着万相的开源,阿里云实现了全模态、全尺寸大模型的开源。 

生成效果如何


下面我们可以看下万相 2.1 的实际生成效果。

 

输入 Prompt:

体育摄影风格,骑手在场地障碍赛中引导马匹快速通过障碍物。骑手身着专业比赛服,头戴安全帽,表情专注而坚定,双手紧握缰绳,双腿夹紧马腹,与马匹完美配合。马匹腾空跃起,动作连贯且准确,四蹄有力地踏过每一个障碍物,保持速度和平衡。背景是自然的草地和蓝天,画面充满动感和紧张感。4K, 高清画质, 动作完整。

 

生成图片:



输入 Prompt:

体育摄影风格,中国皮划艇运动员在激流回旋比赛中,于湍急的水流中用桨快速划水,灵活地绕过一个又一个障碍物。他身着专业运动服,肌肉线条明显,表情专注而坚定,展现出出色的操控技术和顽强的拼搏精神。背景是清澈的河流和翠绿的山峦,画面充满动感与活力。近景特写,运动员在空中翻转滑板,动作完整,4K, 高清画质。


生成图片:



输入 Prompt:

一段超速 POV 镜头,摄像机疾驰穿越一条阳光下的中国乡村小路,镜头紧跟着一个在空中飞行的穿着休闲服休闲鞋的中国女子的背后,她身体直立展开双臂,风吹动她的头发和衣服。


生成图片:



2025-02-27 12:549660

评论 5 条评论

发布
用户头像
666666
2025-02-27 14:33 · 福建
回复
用户头像
111111
2025-02-27 14:02 · 广东
回复
1111
2025-02-27 14:02 · 广东
回复
11111
2025-02-27 14:09 · 广东
回复
11111111
2025-02-27 14:09 · 广东
回复
没有更多了

千万级车联网 MQTT 消息平台架构设计|车联网平台搭建从入门到精通 02

EMQ映云科技

架构 车联网 物联网 mqtt 分布式消息流平台

J2PaaS企业级低代码平台,如何支撑开发企业级应用?

J2PaaS低代码平台

低代码 低代码开发 企业级低代码平台 企业级应用

那一年,我们在巴塞罗那找到的「ONES 图腾」

万事ONES

ONES

2022年中国数字孪生城市市场分析:孪生城市产业经济全域协作

易观分析

数字孪生

小熊派:用OpenHarmory3.0点亮LED

华为云开发者联盟

小熊派 OpenHarmony 驱动开发 小熊派Micro LED

Linux中buff-cache占用过高解决方案

入门小站

Linux

网络安全kali渗透学习 web渗透入门Metasploitable2靶机系统介绍

学神来啦

低代码实现探索(三十二)多版本开发/本地开发

零道云-混合式低代码平台

【邀请函】3月4日平台赋能 数智创新 ———用友BIP PaaS云平台iuap数智化百城论坛·济南站

用友BIP

用友 用友iuap 企业数智化 平台赋能 数智创新

3月2日,阿里云开源 PolarDB 企业级架构将迎来重磅发布

阿里云数据库开源

数据库 阿里云 开源 分布式 polarDB

用实例带你深入理解Java内存模型

华为云开发者联盟

Java JVM JMM 线程安全 Java内存模型

通过5个函数带你理解K8s DeltaFIFO

华为云开发者联盟

k8s Queue Client-go DeltaFIFO FIFO

安全专属的移动数字化平台WorkPlus加速国企数字化转型

BeeWorks

一句话回顾会

Bruce Talk

敏捷 Agile 回顾会 Coach/Facilitate

加速企业数据应用创新的核心能力——灵活性

用友BIP

数据中台 创新 用友

数据治理:从一把手工程到数据文化!

用友BIP

数据治理 用友 用友iuap 数据文化

【web安全】你的open_basedir安全吗?

H

网络安全 WEB安全

哈佛商业评论对话王文京:如何制定正确的数智化战略和路径?

用友BIP

用友 数智化

中台和低代码,“零和”还是“竞合”?

BeeWorks

元年云李彤:ToB产品应具备数据驱动和「宽能力」

ToB行业头条

针对 Kubernetes v1.22,阿里云容器服务 ACK 提供了哪些升级和增强能力?

阿里巴巴云原生

阿里云 容器 云原生 产品升级 ACK

前后端分离项目,如何解决跨域问题?

CRMEB

什么是数字化转型?

BeeWorks

16 张图解带你掌握一致性哈希算法

华为云开发者联盟

负载均衡 分布式系统 一致性哈希 哈希算法 数据迁移

TDengine在蔚来能源系统的落地实践

TDengine

MySQL 数据库 tdengine 物联网 时序数据库

中国信息通信研究院云计算与大数据研究所一行莅临亚信科技考察交流

亚信AntDB数据库

详解近端策略优化

行者AI

深度强化学习

重磅!博睿数据发布新一代统一告警平台

博睿数据

在线JWT Token解析解码

入门小站

工具

丰e足食将大量引入算法人才 加快无人零售算法研发和应用

江湖老铁

外包学生管理系统架构设计

炎彬

「架构实战营」

超越Sora!阿里万相大模型正式开源,消费级显卡也能跑_AI&大模型_褚杏娟_InfoQ精选文章