智源悟界·Emu3.5发布，开启“下一状态预测”！王仲远：或开启第三个Scaling范式_AI&大模型_褚杏娟



 写点什么



大小：1.77M时长：10:18

智源悟界·Emu3.5发布，开启“下一状态预测”！王仲远：或开启第三个Scaling范式

2024 年 10 月，智源研究院发布了全球首个原生多模态世界模型悟界·Emu3，该模型只基于下一个 token 预测，无需扩散模型或组合方法，实现图像、文本、视频的大一统。模型一经上线便在技术社区引发了热议。

一年后，智源发布悟界·Emu3.5，在“Next-Token Prediction”范式的基础上，模拟人类自然学习方式，以自回归架构实现了对多模态序列的“Next-State Prediction (NSP)”，获得了可泛化的世界建模能力。

智源研究院院长王仲远表示，世界模型的核心是预测下一个时空状态，这种预测对具身智能至关重要，且不局限于视频或图像形式。他解释道，人类面对真实世界场景时，会形成多模态理解（如看到靠边的咖啡会预判掉落风险），机器人执行相关操作（如抓取咖啡）时，需要精准把控力度、方向等细节。

论文介绍：https://arxiv.org/pdf/2510.26583

Emu3.5 在各方面能力上实现了全面提升。它具备三大特点：一是从意图到规划，模型能够理解高层级的人类意图（如“如何制作一艘宇宙飞船”“如何做咖啡拉花”），并自主生成详细、连贯的多步骤行动路径；二是动态世界模拟，模型在统一框架内无缝融合了对世界的理解、规划与模拟，能够预测物理动态、时空演化和长时程因果关系；三是可成为泛化交互基础：其涌现出的因果推理和规划能力，为 AI 与人类及物理环境进行泛化交互（如具身操控）提供了关键的认知基础。

“我们认为，Emu3.5 很可能开启了第三个 Scaling 范式。”王仲远说道。

随着大语言模型的成功，行业探索出语言预训练的 Scaling 范式，即通过提升模型参数量、数据量与算力，实现性能的显著优化。但随着文本数据逐渐耗尽，过去两年行业将重点转向后训练与推理阶段的 Scaling 范式，这一方向也成功进一步激发了模型潜力，取得了良好效果。但多模态领域长期以来始终缺乏成熟的 Scaling 范式。“从 Emu3 到 Emu3.5 的演进，我们首次证明了多模态领域同样存在这样的 Scaling 可能性，”王仲远表示，其核心依据有三点：

1. Emu3.5 架构采用自回归设计，实现了多模态数据的大一统，能够大规模复用现有计算基础设施；

2. Emu3.5 首次在多模态领域落地自回归架构下的大规模强化学习技术，行业已具备成熟解决方案，这为多模态大模型的 Scaling up 提供了关键支撑；

3. 从 Emu3 到 Emu3.5，模型性能实现显著跃升，目前 Emu3.5 已达到产品级水准，后续将向行业开放。

王仲远介绍，此次团队研发的核心思路是回归第一性原理。这源于对人类学习本质的认知：人类的学习并非从文本开始，每个人自出生起，对世界的认知（包括与他人的交流、物理世界的运行规律），都是以视觉为起点建立的。当前视频形态的存在，恰好为模型学习世界知识提供了优质载体：通过视频，模型能够有效掌握世界的内在运行规律、因果关系、逻辑推理逻辑，以及各类物理常识。

世界多模态模型探索

市面上多数模型仍将“多模态理解”与“多模态生成”拆分处理。其中，多模态理解类模型多采用组合式架构，例如以大语言模型为基础，先完成语言能力学习，再叠加多模态学习。但这种模式存在明显问题：模型易出现“遗忘现象”，其记忆能力不足的问题至今未得到妥善解决；同时，Agent 在处理相关任务时如何优化表现等，都是企业场景落地过程中必须突破的关键难点。

Emu 系列模型采用了自回归架构，使其可扩展性更强。它的 Next Token，可以是视觉和文字的 Token，且性能无损。王仲远特别提到，它的强推理、长时序一致性，能给具身智能带来根本性的改变。

相比之下，当前主流模型架构（如 DiT 架构）虽已在特定场景中取得亮眼成果，但其设计本质上限制了模型的泛化能力与任务迁移能力。换言之，这类架构更偏向针对具体问题的“精巧解决方案”，而非能够跨场景、跨模态实现自适应学习的通用智能系统。

在多模态发展方向上，智源认为，无论是聚焦 Emu3.5 本身，还是从更长时间尺度回望，它都代表了一条切实可行的多模态智能发展路径。

“悟界·Emu3.5 是 AI 大模型领域一项至关重要的原始创新。它并非单纯的算法创新，也不是单一的工程创新，而是融合了算法、工程架构、数据训练范式与模型思想的综合性创新。此类创新恰恰只有智源这样的机构能够实现——因为智源是一种介于高校与企业之间的中间态组织，这种独特的组织形态，为开展跨维度、多层面的综合性创新提供了必要条件。”王仲远表示。

三大技术创新

具体来看，Emu3.5 首先在约 13 万亿 tokens 上进行两阶段端到端预训练，第二阶段进一步提升视觉分辨率多样性、数据质量和标注丰富度，提供更精准的多模态监督。两阶段训练使模型能在统一生成框架下自然处理交错视觉-语言输入并生成交错输出。随后，模型在 1500 亿样本上进行有监督微调（SFT）以构建统一多模态生成接口，再通过大规模强化学习提升多模态推理与生成能力。最后，利用少量（数十亿 tokens）SFT 和自蒸馏数据，通过 DiDA 技术快速适配高效推理。

首先，在预训练环节，Emu3.5 消耗了超过 10T Token，这主要得益于其易拓展的架构以及海量长视频数据的支撑。这也是 Emu3.5 与之前版本的主要区别：大部分数据是长视频而不是文字主导。

视觉-语言交错数据来源于多样化视频（含开源数据集、公开网络视频及第三方合作获取视频），共包含约 6300 万条视频，平均时长 6.5 分钟，总时长约 790 年。数据覆盖教育、科技、教育、娱乐、体育、游戏、旅游、动画等多个领域，全面捕捉真实世界和想象场景。

值得关注的是，当前 Emu3.5 仅为 340 亿参数规模，所使用的视频数据累计时长达 790 年，却仅占全互联网公开视频数据的不到 1%。这意味着，无论是训练数据量、参数规模的拓展，还是未来向 MOE 架构的演化，所有在语言大模型上已验证的 Scaling up 路径与能力，都有望在多模态领域重新实现。

“训练过程稳定性极佳，即便在各类下游未见过场景的验证损失中，也能观察到随着计算量增加，模型效果持续稳定提升，这也印证了原生多模态的 Scaling 范式有效性。”智源研究员王鑫龙表示。

第二项核心技术是大规模原生多模态强化学习。

GPT-o1 和 DeepSeekR1 通过强化学习极大增强了语言能力，但该技术应用于更长的多模态场景时会面临诸多问题。而依托易拓展的自回归架构与整体范式，Emu3.5 可轻松实现统一多任务的多模态强化学习。

智源团队构建了包含不同奖励的综合奖励系统，为多样化下游任务提供全面统一的指导。该奖励系统具备通用性、任务特异性和统一性三项核心特性，这种多维度奖励系统确保 Emu3.5 可以平衡多种质量标准，更重要的是，避免单一奖励过拟合，实现多任务的一致提升，且不会损害单个任务的性能。

通过多模态强化学习，模型能够模仿多模态交互，将众多多模态任务统一在相同的交互形式下，既包括复杂文生图，也涵盖具备强推理能力的图像编辑（文字与图像均为生成内容）。

例如，精准呈现“一步步拿出手机”“倒水”等动作，体现对现实世界的理解；还能实现交互式探索（室内、室外、想象或真实场景）及问题操作，这些能力定义了下一代原生多模态模型的核心方向。

第三项技术是推理加速领域的实用突破。

自回归模型相较于扩散模型，原本存在推理速度劣势。对此，智源通过自研的 DiDa 技术，无损预测下一个 Token 并将推理速度提升了 20 倍，最终使自回归架构的模型性能能够媲美 Diffusion 架构模型。

DiDA 是一种轻量级自适应方法，在不改变模型文本生成能力的前提下，来加速自回归图像生成。基于预训练自回归模型，DiDA 将离散扩散公式扩展至视觉 token，使模型将图像生成从序列解码转换为并行生成。具体而言，DiDA 在视觉 token 上实现离散扩散过程，整个图像 token 序列一次性初始化，通过一系列离散去噪步骤逐步优化，恢复目标图像。这种设计在不损失输出质量的前提下，实现推理速度的显著提升。

“原来的原生多模态的成本极高的，这一次 20 倍的加速，把原生多模态的成本砍下来了。” 王鑫龙说道。

值得关注的是，这是首次通过 Token 预测方法，实现了可媲美闭源系统最强图像生成的能力，而该能力仅为 Emu3.5 图形能力的一部分。这一突破背后，得益于上述多项核心技术的革新，使得 Emu3.5 在生成性能与速度上均能与顶尖闭源系统相媲美。

结束语

智源认为，世界模型不仅是视频生成，更多的是对整个世界因果关系、时空、物理建模的能力。

“我们更愿意把悟界·Emu3.5 称作为多模态世界大模型，因为它具备了多模态的理解能力和多模态的生成能力。它实际上能够理解时空、长时序、一致性，能够有因果推断，所以 Emu3.5 是一个非常独特的模型。可能很难直接单一的跟任何一个模型去比较。”王仲远说道。

王仲远认为，Emu3.5 的意义在于，可能开创了一个新的大模型的赛道。“虽然业内对世界模型有很多的讨论，但人们最初的讨论是，我们的人类大脑里面应该存在着一个这样的世界模型，它能够理解基本的世界运行规律，包括物理常识、时间空间知识等，能够帮助我们解决日常生活中看似非常简单、但现在对于机器人来讲非常困难的问题。”

发布

暂无评论

创作场景

智源悟界·Emu3.5 发布，开启“下一状态预测”！王仲远：或开启第三个 Scaling 范式

世界多模态模型探索

三大技术创新

结束语

评论

物联网之智慧农业应用分析&大数据之数据挖掘技术的应用

风云再起之国产数据库风云榜-2021年12月

【架构师训练营】模块三作业

25年，初心未改。

艾瑞发布《2021 年全球互联网通信云行业研究报告》，融云持续领跑市场

Linux之find命令

Orillusion | 第一个WebGPU中文社区

带你熟悉鸿蒙轻内核Kconfig使用指南

多因子认证是什么意思？与双因子认证有什么区别？

大数据埋点如何实现、验证和管理

实现一个javaagent需要几步？

有没有好用的低代码平台，支持本地私有化部署的？

深入Java线程池：从设计思想到源码解读

泉州有几家正规等保测评公司？在哪里？叫什么名字？

融云荣获“2021 数字化服务创新成长企业”奖

百度APP视频播放中的解码优化

模型黑盒｜机器学习模型的“可解释性”研究

应用落地智创未来 | 2021新一代人工智能院士高峰论坛昇腾人工智能应用专场成功举办

前端开发SpringBoot之接口文档的生成

☕【权限设计系列】「认证授权专题」史上最全的权限认证服务的权限模型大全

基于DataX的数据同步（上）-DataX介绍以及安装

恒源云(GPUSHARE)_有关【图像平滑】的论文小记

从了解洞态 IAST 到加入开源社区

Linux中如何设置SSH密钥提升登陆安全性

遥遥无期

58 K8S之集群日志系统

直播连麦的人工智能回声消除技术探索

白帽近距离｜TimeLine Sec安全团队威猛先生

2022年之前，你不得不了解的一些 DevOps 趋势

在线JSON转Mongoose工具

Token机制相对于Cookie机制的优势

创作场景

智源悟界·Emu3.5 发布，开启“下一状态预测”！王仲远：或开启第三个 Scaling 范式

世界多模态模型探索

三大技术创新

结束语

评论

推荐阅读

电子书

大厂实战PPT下载