2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

超越 Sora!阿里万相大模型正式开源,消费级显卡也能跑

  • 2025-02-27
    北京
  • 本文字数:1239 字

    阅读完需:约 4 分钟

大小:642.67K时长:03:39
超越Sora!阿里万相大模型正式开源,消费级显卡也能跑

2 月 25 日消息,阿里云旗下视觉生成基座模型万相 2.1(Wan)重磅开源,此次开源采用最宽松的 Apache2.0 协议,14B 和 1.3B 两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务,全球开发者可在 Github、HuggingFace 和魔搭社区下载体验。

 

开源地址:

Github: https://github.com/Wan-Video

HuggingFace: https://huggingface.co/Wan-AI

魔搭社区:https://modelscope.cn/organization/Wan-AI



据介绍,14B 万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出,在权威评测集 VBench 中,万相 2.1 以总分 86.22%的成绩大幅超越 Sora、Luma、Pika 等国内外模型,稳居榜首位置。1.3B 版本测试结果不仅超过了更大尺寸的开源模型,甚至还接近部分闭源模型,同时能在消费级显卡运行,仅需 8.2GB 显存就可以生成高质量视频,适用于二次模型开发和学术研究。

 


在算法设计上,万相基于主流 DiT 架构和线性噪声轨迹 Flow Matching 范式,研发了高效的因果 3D VAE、可扩展的预训练策略等。以 3D VAE 为例,为了高效支持任意长度视频的编码和解码,万相在 3D VAE 的因果卷积模块中实现了特征缓存机制,从而代替直接对长视频端到端的编解码过程,实现了无限长 1080P 视频的高效编解码。此外,通过将空间降采样压缩提前,在不损失性能的情况下进一步减少了 29%的推理时内存占用。

 

万相团队的实验结果显示,在运动质量、视觉质量、风格和多目标等 14 个主要维度和 26 个子维度测试中,万相均达到了业界领先表现,并且斩获 5 项第一。尤其在复杂运动和物理规律遵循上的表现上大幅提升,万相能够稳定展现各种复杂的人物肢体运动,如旋转、跳跃、转身、翻滚等;能够精准还原碰撞、反弹、切割等复杂真实物理场景。

 


(万相在 14 个主要维度测试中斩获 5 项第一及平均分第一)

 

从 2023 年开始,阿里云就坚定大模型开源路线,其千问(Qwen)衍生模型数量已超过 10 万个,是全球最大的 AI 模型家族。随着万相的开源,阿里云实现了全模态、全尺寸大模型的开源。 

生成效果如何


下面我们可以看下万相 2.1 的实际生成效果。

 

输入 Prompt:

体育摄影风格,骑手在场地障碍赛中引导马匹快速通过障碍物。骑手身着专业比赛服,头戴安全帽,表情专注而坚定,双手紧握缰绳,双腿夹紧马腹,与马匹完美配合。马匹腾空跃起,动作连贯且准确,四蹄有力地踏过每一个障碍物,保持速度和平衡。背景是自然的草地和蓝天,画面充满动感和紧张感。4K, 高清画质, 动作完整。

 

生成图片:



输入 Prompt:

体育摄影风格,中国皮划艇运动员在激流回旋比赛中,于湍急的水流中用桨快速划水,灵活地绕过一个又一个障碍物。他身着专业运动服,肌肉线条明显,表情专注而坚定,展现出出色的操控技术和顽强的拼搏精神。背景是清澈的河流和翠绿的山峦,画面充满动感与活力。近景特写,运动员在空中翻转滑板,动作完整,4K, 高清画质。


生成图片:



输入 Prompt:

一段超速 POV 镜头,摄像机疾驰穿越一条阳光下的中国乡村小路,镜头紧跟着一个在空中飞行的穿着休闲服休闲鞋的中国女子的背后,她身体直立展开双臂,风吹动她的头发和衣服。


生成图片:



2025-02-27 12:5410524

评论 5 条评论

发布
用户头像
666666
2025-02-27 14:33 · 福建
回复
用户头像
111111
2025-02-27 14:02 · 广东
回复
1111
2025-02-27 14:02 · 广东
回复
11111
2025-02-27 14:09 · 广东
回复
11111111
2025-02-27 14:09 · 广东
回复
没有更多了

Webpack完整打包流程分析

Geek_02d948

webpack

华为云ECS,弹性云服务器标杆,众多企业的共同选择

爱尚科技

员工离职率高如何解决?

优秀

企业管理 员工离职

阿里架构师耗时三个月整理的 Spring实战笔记:入门到实战

小二,上酒上酒

spring

京东T8架构师墙裂推荐:史上最全高性能MySQL实战(赶紧收藏)

小二,上酒上酒

Nodejs相关ORM框架分析

coder2028

node.js

华为云ECS,如何助力数字化企业创新发展

爱尚科技

太厉害了!GitHub上标星80K的微服务实战笔记,看完跪了

小二,上酒上酒

Java 微服务

Vue响应式依赖收集原理分析-vue高级必备

yyds2026

Vue

重塑感知,荣耀金洋,银行APP用户体验外滩峰会相聚上海

易观分析

银行 峰会 上海

React组件设计模式-纯组件,函数组件,高阶组件

xiaofeng

React

Webpack中的高级特性

Geek_02d948

webpack

javascript 高级编程 之 Array 用法总结

hellocoder2029

JavaScript

技术分享| 基于 Etcd 的分布式锁实现原理及方案

anyRTC开发者

分布式 etcd 存储系统

一站式全覆盖数据 I/O 平台 - Alluxio 与 Aunalytics 的完美结合

Alluxio

分布式 presto Alluxio 大数据 开源 #开源

华为云ECS,去除现代化企业服务器的数据安全忧虑

爱尚科技

javascript尾递归优化

hellocoder2029

JavaScript

清华年薪百万大佬,带你深入JVM实战调优,看完还敢说你懂JVM

小二,上酒上酒

Java 马士兵

机器学习服务文本识别能力演进,大幅提升识别准确率

HarmonyOS SDK

机器学习

和至少为 K 的最短子数组

掘金安东尼

算法 10月月更

Vue中的diff算法深度解析

yyds2026

Vue

Go语言入门07—指针

良猿

Go golang 后端 10月月更

融云一站式「云市场」上线,携手生态伙伴,共建价值平台

融云 RongCloud

通讯协议 市场 CND

太厉害了!阿里年薪120W架构师整理的学习笔记,看完收获良多

小二,上酒上酒

Java 架构 微服务 高并发

京东T8连夜肝出的《JVM性能优化知识点》吊打所有提问的面试官

小二,上酒上酒

性能优化 JVM Java虚拟机

Nodejs:ESModule和commonjs,傻傻分不清

coder2028

node.js

华为云ECS,弹性伸缩按需选择,让企业以更低成本享受云服务

爱尚科技

腾讯T4耗时36天整理出了:多线程+JVM+设计模式+Redis+MySQL

小二,上酒上酒

MySQL redis JVM 多线程

【文本检测与识别白皮书-3.2】第一节: 基于分割的场景文本识别方法

合合技术团队

人工智能 文字识别 文字检测 智能识别

在 Java 代码中来一段 JavaScript?聊聊 Flowable 中的脚本任务

江南一点雨

Java springboot workflow flowable

来了!Spring Boot从入门到入土的私藏教程,不收藏你就亏了

小二,上酒上酒

spring springboot

超越Sora!阿里万相大模型正式开源,消费级显卡也能跑_AI&大模型_褚杏娟_InfoQ精选文章