9 月 13 日,2025 Inclusion・外滩大会「开源嘉年华」正在限量报名中! 了解详情
写点什么

超越 Sora!阿里万相大模型正式开源,消费级显卡也能跑

  • 2025-02-27
    北京
  • 本文字数:1239 字

    阅读完需:约 4 分钟

大小:642.67K时长:03:39
超越Sora!阿里万相大模型正式开源,消费级显卡也能跑

2 月 25 日消息,阿里云旗下视觉生成基座模型万相 2.1(Wan)重磅开源,此次开源采用最宽松的 Apache2.0 协议,14B 和 1.3B 两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务,全球开发者可在 Github、HuggingFace 和魔搭社区下载体验。

 

开源地址:

Github: https://github.com/Wan-Video

HuggingFace: https://huggingface.co/Wan-AI

魔搭社区:https://modelscope.cn/organization/Wan-AI



据介绍,14B 万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出,在权威评测集 VBench 中,万相 2.1 以总分 86.22%的成绩大幅超越 Sora、Luma、Pika 等国内外模型,稳居榜首位置。1.3B 版本测试结果不仅超过了更大尺寸的开源模型,甚至还接近部分闭源模型,同时能在消费级显卡运行,仅需 8.2GB 显存就可以生成高质量视频,适用于二次模型开发和学术研究。

 


在算法设计上,万相基于主流 DiT 架构和线性噪声轨迹 Flow Matching 范式,研发了高效的因果 3D VAE、可扩展的预训练策略等。以 3D VAE 为例,为了高效支持任意长度视频的编码和解码,万相在 3D VAE 的因果卷积模块中实现了特征缓存机制,从而代替直接对长视频端到端的编解码过程,实现了无限长 1080P 视频的高效编解码。此外,通过将空间降采样压缩提前,在不损失性能的情况下进一步减少了 29%的推理时内存占用。

 

万相团队的实验结果显示,在运动质量、视觉质量、风格和多目标等 14 个主要维度和 26 个子维度测试中,万相均达到了业界领先表现,并且斩获 5 项第一。尤其在复杂运动和物理规律遵循上的表现上大幅提升,万相能够稳定展现各种复杂的人物肢体运动,如旋转、跳跃、转身、翻滚等;能够精准还原碰撞、反弹、切割等复杂真实物理场景。

 


(万相在 14 个主要维度测试中斩获 5 项第一及平均分第一)

 

从 2023 年开始,阿里云就坚定大模型开源路线,其千问(Qwen)衍生模型数量已超过 10 万个,是全球最大的 AI 模型家族。随着万相的开源,阿里云实现了全模态、全尺寸大模型的开源。 

生成效果如何


下面我们可以看下万相 2.1 的实际生成效果。

 

输入 Prompt:

体育摄影风格,骑手在场地障碍赛中引导马匹快速通过障碍物。骑手身着专业比赛服,头戴安全帽,表情专注而坚定,双手紧握缰绳,双腿夹紧马腹,与马匹完美配合。马匹腾空跃起,动作连贯且准确,四蹄有力地踏过每一个障碍物,保持速度和平衡。背景是自然的草地和蓝天,画面充满动感和紧张感。4K, 高清画质, 动作完整。

 

生成图片:



输入 Prompt:

体育摄影风格,中国皮划艇运动员在激流回旋比赛中,于湍急的水流中用桨快速划水,灵活地绕过一个又一个障碍物。他身着专业运动服,肌肉线条明显,表情专注而坚定,展现出出色的操控技术和顽强的拼搏精神。背景是清澈的河流和翠绿的山峦,画面充满动感与活力。近景特写,运动员在空中翻转滑板,动作完整,4K, 高清画质。


生成图片:



输入 Prompt:

一段超速 POV 镜头,摄像机疾驰穿越一条阳光下的中国乡村小路,镜头紧跟着一个在空中飞行的穿着休闲服休闲鞋的中国女子的背后,她身体直立展开双臂,风吹动她的头发和衣服。


生成图片:



2025-02-27 12:5410241

评论 5 条评论

发布
用户头像
666666
2025-02-27 14:33 · 福建
回复
用户头像
111111
2025-02-27 14:02 · 广东
回复
1111
2025-02-27 14:02 · 广东
回复
11111
2025-02-27 14:09 · 广东
回复
11111111
2025-02-27 14:09 · 广东
回复
没有更多了

大模型背景下软件工程的机遇与挑战

CODING DevOps

9款好用的在线流程图软件推荐!

彭宏豪95

效率 流程图 在线工具 科技 流程图绘制

语音识别技术的挑战与机遇再探讨

数据堂

Generative AI 新世界 | 大模型参数高效微调和量化原理概述

亚马逊云科技 (Amazon Web Services)

人工智能 机器学习 生成式人工智能 Amazon SageMaker 大语言模型

稳定币揭幕:了解发展策略

区块链软件开发推广运营

数字藏品开发 dapp开发 区块链开发 链游开发 NFT开发

低代码:时代的选择

树上有只程序猿

低代码 低代码开发平台

敏捷思维和免费敏捷管理工具

顿顿顿

敏捷项目管理 敏捷开发管理工具 scrum工具 scrum敏捷工具 敏捷开发工具

“创新启变 聚焦增长”极狐(GitLab)媒体沟通会,共话智能时代软件开发新生态

极客天地

流程图如何制作?好用的11款流程图软件盘点!

彭宏豪95

效率 流程图 流程图绘制工具 办公软件 绘图工具

Hyperworks对比其他仿真软件有哪些特色_Hyperworks介绍

智造软件

CAE软件 altair hyperworks

开放原子开源基金会开源安全委员会九月新增成员单位

开放原子开源基金会

语音识别技术:端到端的挑战与解决方案

数据堂

大规模语言LLaVA:多模态GPT-4智能助手,融合语言与视觉,满足用户复杂需求

汀丶人工智能

人工智能 计算机视觉 GPT 大语言模型

消除隐患 防患未然|AIRIOT智慧消防管理解决方案

AIRIOT

腾讯云发布新品数据编排平台(dop)-与大数据生态紧密结合,提供通用数据编排服务

腾讯云大数据

大数据

等不及了,2023云栖大会精彩剧透提前看!

阿里云CloudImagine

云计算 云栖大会

ABAQUS常用的插件及使用介绍-ABAQUS软件教程

思茂信息

abaqus 有限元仿真 有限元技术

从手动操作到自动化管理,如何实现企业身份业务全面自动化?

Authing

事件驱动 企业管理 Authing 身份自动化

五大场景告诉你,如何把iPaaS运用到实处

RestCloud

数据同步 数据同步工具 ipaas

OpenHarmonyMeetup2023深圳站圆满举办

科技热闻

2023-10-18:用go语言,给定一个数组arr,长度为n,表示有0~n-1号设备, arr[i]表示i号设备的型号,型号的种类从0~k-1,一共k种型号, 给定一个k*k的矩阵map,来表示型号

福大大架构师每日一题

福大大架构师每日一题

软件测试/测试开发丨深入了解性能测试:方法、工具和最佳实践

测试人

软件测试 性能测试 测试开发

Disruptor在流程编排中的应用与探索

ZA技术社区

金融科技 众安保险 ZA技术社区 keji

语音识别技术的行业应用与发展趋势

数据堂

低代码系列——可视化编辑器

互联网工科生

低代码 可视化编排

阿里内推强推的并发编程学习笔记,原理+实战+面试题,面面俱到!

小小怪下士

Java 程序员 并发编程

超越Sora!阿里万相大模型正式开源,消费级显卡也能跑_AI&大模型_褚杏娟_InfoQ精选文章