50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

智源悟界·Emu3.5 发布,开启“下一状态预测”!王仲远:或开启第三个 Scaling 范式

  • 2025-10-31
    北京
  • 本文字数:3539 字

    阅读完需:约 12 分钟

大小:1.77M时长:10:18
智源悟界·Emu3.5发布,开启“下一状态预测”!王仲远:或开启第三个Scaling范式

2024 年 10 月,智源研究院发布了全球首个原生多模态世界模型悟界·Emu3,该模型只基于下一个 token 预测,无需扩散模型或组合方法,实现图像、文本、视频的大一统。模型一经上线便在技术社区引发了热议。

 

一年后,智源发布悟界·Emu3.5,在“Next-Token Prediction”范式的基础上,模拟人类自然学习方式,以自回归架构实现了对多模态序列的“Next-State Prediction (NSP)”,获得了可泛化的世界建模能力。

 

智源研究院院长王仲远表示,世界模型的核心是预测下一个时空状态,这种预测对具身智能至关重要,且不局限于视频或图像形式。他解释道,人类面对真实世界场景时,会形成多模态理解(如看到靠边的咖啡会预判掉落风险),机器人执行相关操作(如抓取咖啡)时,需要精准把控力度、方向等细节。

 

 

论文介绍:https://arxiv.org/pdf/2510.26583

 

Emu3.5 在各方面能力上实现了全面提升。它具备三大特点:一是从意图到规划,模型能够理解高层级的人类意图(如“如何制作一艘宇宙飞船”“如何做咖啡拉花”),并自主生成详细、连贯的多步骤行动路径;二是动态世界模拟,模型在统一框架内无缝融合了对世界的理解、规划与模拟,能够预测物理动态、时空演化和长时程因果关系;三是可成为泛化交互基础:其涌现出的因果推理和规划能力,为 AI 与人类及物理环境进行泛化交互(如具身操控)提供了关键的认知基础。

 

“我们认为,Emu3.5 很可能开启了第三个 Scaling 范式。”王仲远说道。

 

随着大语言模型的成功,行业探索出语言预训练的 Scaling 范式,即通过提升模型参数量、数据量与算力,实现性能的显著优化。但随着文本数据逐渐耗尽,过去两年行业将重点转向后训练与推理阶段的 Scaling 范式,这一方向也成功进一步激发了模型潜力,取得了良好效果。但多模态领域长期以来始终缺乏成熟的 Scaling 范式。“从 Emu3 到 Emu3.5 的演进,我们首次证明了多模态领域同样存在这样的 Scaling 可能性,”王仲远表示,其核心依据有三点:

 

1. Emu3.5 架构采用自回归设计,实现了多模态数据的大一统,能够大规模复用现有计算基础设施;

2. Emu3.5 首次在多模态领域落地自回归架构下的大规模强化学习技术,行业已具备成熟解决方案,这为多模态大模型的 Scaling up 提供了关键支撑;

3. 从 Emu3 到 Emu3.5,模型性能实现显著跃升,目前 Emu3.5 已达到产品级水准,后续将向行业开放。

 

王仲远介绍,此次团队研发的核心思路是回归第一性原理。这源于对人类学习本质的认知:人类的学习并非从文本开始,每个人自出生起,对世界的认知(包括与他人的交流、物理世界的运行规律),都是以视觉为起点建立的。当前视频形态的存在,恰好为模型学习世界知识提供了优质载体:通过视频,模型能够有效掌握世界的内在运行规律、因果关系、逻辑推理逻辑,以及各类物理常识。

 

世界多模态模型探索

 

市面上多数模型仍将“多模态理解”与“多模态生成”拆分处理。其中,多模态理解类模型多采用组合式架构,例如以大语言模型为基础,先完成语言能力学习,再叠加多模态学习。但这种模式存在明显问题:模型易出现“遗忘现象”,其记忆能力不足的问题至今未得到妥善解决;同时,Agent 在处理相关任务时如何优化表现等,都是企业场景落地过程中必须突破的关键难点。

 

Emu 系列模型采用了自回归架构,使其可扩展性更强。它的 Next Token,可以是视觉和文字的 Token,且性能无损。王仲远特别提到,它的强推理、长时序一致性,能给具身智能带来根本性的改变。

 

相比之下,当前主流模型架构(如 DiT 架构)虽已在特定场景中取得亮眼成果,但其设计本质上限制了模型的泛化能力与任务迁移能力。换言之,这类架构更偏向针对具体问题的“精巧解决方案”,而非能够跨场景、跨模态实现自适应学习的通用智能系统。

 

在多模态发展方向上,智源认为,无论是聚焦 Emu3.5 本身,还是从更长时间尺度回望,它都代表了一条切实可行的多模态智能发展路径。

 

“悟界·Emu3.5 是 AI 大模型领域一项至关重要的原始创新。它并非单纯的算法创新,也不是单一的工程创新,而是融合了算法、工程架构、数据训练范式与模型思想的综合性创新。此类创新恰恰只有智源这样的机构能够实现——因为智源是一种介于高校与企业之间的中间态组织,这种独特的组织形态,为开展跨维度、多层面的综合性创新提供了必要条件。”王仲远表示。

 

三大技术创新

 

具体来看,Emu3.5 首先在约 13 万亿 tokens 上进行两阶段端到端预训练,第二阶段进一步提升视觉分辨率多样性、数据质量和标注丰富度,提供更精准的多模态监督。两阶段训练使模型能在统一生成框架下自然处理交错视觉-语言输入并生成交错输出。随后,模型在 1500 亿样本上进行有监督微调(SFT)以构建统一多模态生成接口,再通过大规模强化学习提升多模态推理与生成能力。最后,利用少量(数十亿 tokens)SFT 和自蒸馏数据,通过 DiDA 技术快速适配高效推理。

 


首先,在预训练环节,Emu3.5 消耗了超过 10T Token,这主要得益于其易拓展的架构以及海量长视频数据的支撑。这也是 Emu3.5 与之前版本的主要区别:大部分数据是长视频而不是文字主导。

 

视觉-语言交错数据来源于多样化视频(含开源数据集、公开网络视频及第三方合作获取视频),共包含约 6300 万条视频,平均时长 6.5 分钟,总时长约 790 年。数据覆盖教育、科技、教育、娱乐、体育、游戏、旅游、动画等多个领域,全面捕捉真实世界和想象场景。

 

值得关注的是,当前 Emu3.5 仅为 340 亿参数规模,所使用的视频数据累计时长达 790 年,却仅占全互联网公开视频数据的不到 1%。这意味着,无论是训练数据量、参数规模的拓展,还是未来向 MOE 架构的演化,所有在语言大模型上已验证的 Scaling up 路径与能力,都有望在多模态领域重新实现。

 

“训练过程稳定性极佳,即便在各类下游未见过场景的验证损失中,也能观察到随着计算量增加,模型效果持续稳定提升,这也印证了原生多模态的 Scaling 范式有效性。”智源研究员王鑫龙表示。

 

第二项核心技术是大规模原生多模态强化学习。

 

GPT-o1 和 DeepSeekR1 通过强化学习极大增强了语言能力,但该技术应用于更长的多模态场景时会面临诸多问题。而依托易拓展的自回归架构与整体范式,Emu3.5 可轻松实现统一多任务的多模态强化学习。

 

智源团队构建了包含不同奖励的综合奖励系统,为多样化下游任务提供全面统一的指导。该奖励系统具备通用性、任务特异性和统一性三项核心特性,这种多维度奖励系统确保 Emu3.5 可以平衡多种质量标准,更重要的是,避免单一奖励过拟合,实现多任务的一致提升,且不会损害单个任务的性能。

 

通过多模态强化学习,模型能够模仿多模态交互,将众多多模态任务统一在相同的交互形式下,既包括复杂文生图,也涵盖具备强推理能力的图像编辑(文字与图像均为生成内容)。

 

例如,精准呈现“一步步拿出手机”“倒水”等动作,体现对现实世界的理解;还能实现交互式探索(室内、室外、想象或真实场景)及问题操作,这些能力定义了下一代原生多模态模型的核心方向。

 

第三项技术是推理加速领域的实用突破。

 

自回归模型相较于扩散模型,原本存在推理速度劣势。对此,智源通过自研的 DiDa 技术,无损预测下一个 Token 并将推理速度提升了 20 倍,最终使自回归架构的模型性能能够媲美 Diffusion 架构模型。

 

DiDA 是一种轻量级自适应方法,在不改变模型文本生成能力的前提下,来加速自回归图像生成。基于预训练自回归模型,DiDA 将离散扩散公式扩展至视觉 token,使模型将图像生成从序列解码转换为并行生成。具体而言,DiDA 在视觉 token 上实现离散扩散过程,整个图像 token 序列一次性初始化,通过一系列离散去噪步骤逐步优化,恢复目标图像。这种设计在不损失输出质量的前提下,实现推理速度的显著提升。

 

 

“原来的原生多模态的成本极高的,这一次 20 倍的加速,把原生多模态的成本砍下来了。”  王鑫龙说道。

 

值得关注的是,这是首次通过 Token 预测方法,实现了可媲美闭源系统最强图像生成的能力,而该能力仅为 Emu3.5 图形能力的一部分。这一突破背后,得益于上述多项核心技术的革新,使得 Emu3.5 在生成性能与速度上均能与顶尖闭源系统相媲美。

 

结束语

 

智源认为,世界模型不仅是视频生成,更多的是对整个世界因果关系、时空、物理建模的能力。

 

“我们更愿意把悟界·Emu3.5 称作为多模态世界大模型,因为它具备了多模态的理解能力和多模态的生成能力。它实际上能够理解时空、长时序、一致性,能够有因果推断,所以 Emu3.5 是一个非常独特的模型。可能很难直接单一的跟任何一个模型去比较。”王仲远说道。

 

王仲远认为,Emu3.5 的意义在于,可能开创了一个新的大模型的赛道。“虽然业内对世界模型有很多的讨论,但人们最初的讨论是,我们的人类大脑里面应该存在着一个这样的世界模型,它能够理解基本的世界运行规律,包括物理常识、时间空间知识等,能够帮助我们解决日常生活中看似非常简单、但现在对于机器人来讲非常困难的问题。”

 

2025-10-31 19:078094

评论

发布
暂无评论

邀请函|2025 Altair 教育赋能:诚邀各大高校共建产品创新设计核心课程《面向3D打印的结构优化与创新设计》

Altair RapidMiner

机器学习 AI 仿真 建模 CAE

基于某中心Bedrock的提示工程在合规检测中的应用

qife122

生成式AI 提示工程

YashanDB ALTER DATABASE LINK语句

YashanDB

数据库

天翼云与飞轮科技达成战略合作,共筑云数融合新生态

SelectDB

Doris SelectDB 天翼云 数据库 大数据 飞轮数据

工业管理 团队建设经验总结(1)

万里无云万里天

工业 工厂运维

AI Compass前沿速览:RynnVLA视觉-语言-动作模型、GLM-4.5V 、DreamVVT虚拟换衣、 WeKnora框架、GitMCP、NeuralAgent桌面AI助手

汀丶人工智能

AI公平性研究的三大挑战与解决方案

qife122

人工智能 机器学习

读书感悟 石油化工自动控制设计手册(9)

万里无云万里天

读书笔记 工厂运维

读书感悟 石油化工自动控制设计手册(10)

万里无云万里天

读书笔记 工厂运维

YashanDB ALTER AUDIT POLICY语句

YashanDB

数据库

分布式数据高效可靠检索新方法

qife122

分布式计算 信息检索

传帮带 人才梯队建设经验总结(1)

万里无云万里天

人才培养 工厂运维

传帮带 人才梯队建设经验总结(2)

万里无云万里天

人才培养 工厂运维

Text2SQL准确率暴涨22.6%!3大维度全拆

京东零售技术

观测云接收 OpenTelemetry Collector 数据最佳实践

观测云

OpenTelemetry

[LDAP: error code 34 - invalid DN]

刘大猫

人工智能 算法 智慧城市 智慧交通 invalid DN

机器学习数据收集优化技术解析

qife122

机器学习 算法优化

从数据血缘到AI Agent:天翼云 × DolphinScheduler 的云上调度新篇章

白鲸开源

大数据 开源 Apache DolphinScheduler 用户案例 天翼云

YashanDB WM_CONCAT函数

YashanDB

数据库

Dify入门篇(3)| 配置你的第一个LLM:OpenAI/Claude/Ollama

测吧(北京)科技有限公司

人工智能 自动化测试 测试开发 dify

工业数字化 信息化经验总结(1)

万里无云万里天

数字化转型 信息化 工厂运维

穿越回1995?利用Microsoft 365直送功能发起钓鱼攻击的技术分析

qife122

网络安全 Microsoft 365

荣耀应用市场直投下载功能开放丨开发加油站

荣耀开发者服务平台

下载 荣耀开发者服务平台 应用市场 荣耀HONOR 荣耀应用市场

2025年2月安全更新深度解析:微软与Adobe关键漏洞修复指南

qife122

安全更新 微软补丁

融云IM、网易云信IM等39款即时通讯SDK适配鸿蒙5,社交协作更高效

新消费日报

北京卫视《为你喝彩》今晚 21:04:“铁头乔”的创业修行

Apache IoTDB

基于RankSVM改进相似案例检索排序性能

qife122

机器学习 法律AI

技术文档 | Pulsar 中的消息保留、过期及积压机制解析(上)

AscentStream

消息队列 pulsar

4个月、2个人、1个霸榜的开源项目 !这位98年的校招生做到了!

京东零售技术

工业设计 自控设计经验总结(1)

万里无云万里天

设计师 工厂运维 工业设计

智源悟界·Emu3.5发布,开启“下一状态预测”!王仲远:或开启第三个Scaling范式_AI&大模型_褚杏娟_InfoQ精选文章