AICon 深圳站聚焦 Agent 技术、应用与生态,大咖分享实战干货 了解详情
写点什么

超越 Sora!阿里万相大模型正式开源,消费级显卡也能跑

  • 2025-02-27
    北京
  • 本文字数:1239 字

    阅读完需:约 4 分钟

大小:642.67K时长:03:39
超越Sora!阿里万相大模型正式开源,消费级显卡也能跑

2 月 25 日消息,阿里云旗下视觉生成基座模型万相 2.1(Wan)重磅开源,此次开源采用最宽松的 Apache2.0 协议,14B 和 1.3B 两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务,全球开发者可在 Github、HuggingFace 和魔搭社区下载体验。

 

开源地址:

Github: https://github.com/Wan-Video

HuggingFace: https://huggingface.co/Wan-AI

魔搭社区:https://modelscope.cn/organization/Wan-AI



据介绍,14B 万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出,在权威评测集 VBench 中,万相 2.1 以总分 86.22%的成绩大幅超越 Sora、Luma、Pika 等国内外模型,稳居榜首位置。1.3B 版本测试结果不仅超过了更大尺寸的开源模型,甚至还接近部分闭源模型,同时能在消费级显卡运行,仅需 8.2GB 显存就可以生成高质量视频,适用于二次模型开发和学术研究。

 


在算法设计上,万相基于主流 DiT 架构和线性噪声轨迹 Flow Matching 范式,研发了高效的因果 3D VAE、可扩展的预训练策略等。以 3D VAE 为例,为了高效支持任意长度视频的编码和解码,万相在 3D VAE 的因果卷积模块中实现了特征缓存机制,从而代替直接对长视频端到端的编解码过程,实现了无限长 1080P 视频的高效编解码。此外,通过将空间降采样压缩提前,在不损失性能的情况下进一步减少了 29%的推理时内存占用。

 

万相团队的实验结果显示,在运动质量、视觉质量、风格和多目标等 14 个主要维度和 26 个子维度测试中,万相均达到了业界领先表现,并且斩获 5 项第一。尤其在复杂运动和物理规律遵循上的表现上大幅提升,万相能够稳定展现各种复杂的人物肢体运动,如旋转、跳跃、转身、翻滚等;能够精准还原碰撞、反弹、切割等复杂真实物理场景。

 


(万相在 14 个主要维度测试中斩获 5 项第一及平均分第一)

 

从 2023 年开始,阿里云就坚定大模型开源路线,其千问(Qwen)衍生模型数量已超过 10 万个,是全球最大的 AI 模型家族。随着万相的开源,阿里云实现了全模态、全尺寸大模型的开源。 

生成效果如何


下面我们可以看下万相 2.1 的实际生成效果。

 

输入 Prompt:

体育摄影风格,骑手在场地障碍赛中引导马匹快速通过障碍物。骑手身着专业比赛服,头戴安全帽,表情专注而坚定,双手紧握缰绳,双腿夹紧马腹,与马匹完美配合。马匹腾空跃起,动作连贯且准确,四蹄有力地踏过每一个障碍物,保持速度和平衡。背景是自然的草地和蓝天,画面充满动感和紧张感。4K, 高清画质, 动作完整。

 

生成图片:



输入 Prompt:

体育摄影风格,中国皮划艇运动员在激流回旋比赛中,于湍急的水流中用桨快速划水,灵活地绕过一个又一个障碍物。他身着专业运动服,肌肉线条明显,表情专注而坚定,展现出出色的操控技术和顽强的拼搏精神。背景是清澈的河流和翠绿的山峦,画面充满动感与活力。近景特写,运动员在空中翻转滑板,动作完整,4K, 高清画质。


生成图片:



输入 Prompt:

一段超速 POV 镜头,摄像机疾驰穿越一条阳光下的中国乡村小路,镜头紧跟着一个在空中飞行的穿着休闲服休闲鞋的中国女子的背后,她身体直立展开双臂,风吹动她的头发和衣服。


生成图片:



2025-02-27 12:5410177

评论 5 条评论

发布
用户头像
666666
2025-02-27 14:33 · 福建
回复
用户头像
111111
2025-02-27 14:02 · 广东
回复
1111
2025-02-27 14:02 · 广东
回复
11111
2025-02-27 14:09 · 广东
回复
11111111
2025-02-27 14:09 · 广东
回复
没有更多了

从持续交付到业务创新(上):互联网时代研发效能的核心

阿里云云效

云计算 阿里云 云原生 研发效能 持续交付

中国企业的测试之道被美国学习了?

博文视点Broadview

即学即会 Serverless 系列:初识 Serverless 架构

Serverless Devs

云计算 阿里云 Serverless 架构

科技筑基、高效实战:中科柏诚信云链正当时

联营汇聚

ironSource 推出全球首个跨渠道应用营销平台 ironSource Luna

科技热闻

6张图为你分析Kafka Producer 消息缓存模型

华为云开发者联盟

kafka 消息 Kafka Producer 消息缓存模型 消息缓存

电路模型和电路定律 (Ⅱ)

謓泽

3月月更

web前端培训React合成事件原理解析

@零度

React web前端开发

隐私安全的必答题,网易云信如何解?

网易云信

隐私安全

如何使用Java AWT 创建一个简易计算器

华为云开发者联盟

Java 计算器 GUI AWT 图形

ModStartCMS模块化建站系统 v3.5.0 多图字段支持,系统优化升级

ModStart开源

深度揭秘阿里云 Serverless Kubernetes

Serverless Devs

动态卡片:富媒体内容井喷式增长下,新一代移动端动态研发的模式

蚂蚁集团移动开发平台 mPaaS

ios android 前端 mPaaS 卡片技术

金三银四的 Vue 面试准备

CRMEB

如何实现24小时客户服务

小炮

客户服务

《Mybatis 手撸专栏》第1章:开篇介绍,我要带你撸 Mybatis 啦!

小傅哥

小傅哥 mybatis 手写Mybatis

Redis面试题:基本数据类型与底层存储结构

Linux服务器开发

redis 面试题 Linux服务器开发 Linux后台开发 BAT面试题

ShardingSphere-Proxy 5.0 分库分表(一)

神农写代码

从持续交付到业务创新(下):有效的业务创新

阿里云云效

云计算 阿里云 云原生 研发效能

打印总是遇到问题?一文教你如何在优麒麟上使用 CUPS 管理打印机

优麒麟

Linux 终端 优麒麟 打印机管理

字节跳动流式数据集成基于Flink Checkpoint两阶段提交的实践和优化背景

字节跳动数据平台

大数据 flink 字节跳动 数据集成

安全大讲堂 | 孙朝晖:全量数据是一切网络安全分析的起点

腾讯安全云鼎实验室

数据分析 网络安全 数据安全 安全大讲堂

API接口知识小结

源字节1号

程序员 有趣的技术知识

OceanBase 源码解读(八):事务日志的提交和回放

OceanBase 数据库

oceanbase 源码解读

31岁的Python,蝉联年度编程语言排行榜冠军

JackTian

Python 编程 程序员 编程语言 后端

TSP 平台场景中的 MQTT 主题设计|车联网平台搭建从入门到精通 03

EMQ映云科技

开源 物联网 IoT mqtt emq

阿里巴巴开源大规模稀疏模型训练/预测引擎DeepRec

阿里云大数据AI技术

机器学习 深度学习 搜索引擎 分布式训练 推荐引擎

资金管理系统解决方案

低代码小观

资产管理 企业管理系统 资金安全 CRM系统 客户关系管理系统

小程序多端引流新思路:App公域流量挖掘

Speedoooo

APP开发 智慧终端 引流获客工具 引流获客系统

信创云管理平台,头部券商解决异构云资源管理的关键

BoCloud博云

信创 云管平台

企业知识管理的措施

小炮

知识管理

超越Sora!阿里万相大模型正式开源,消费级显卡也能跑_AI&大模型_褚杏娟_InfoQ精选文章