作者|华卫
“世界模型是下一代人工智能基座模型。”智源研究院院长王仲远在前不久对我们表示,这一基座模型意味着有望和大语言模型相提并论的下一代重大人工智能范式变革和重大突破的机会。
今年,智源大会发布的一系列创新成果主要涵盖三个部分:基座大模型、智能体和基础软硬件生态。其中一大亮点就是,一款正在研发中的新世界模型悟界·Physis。
王仲远透露,该模型在训练完成以后将会开源开放。并且,现在 22 岁的陈博远是智源研究院行为世界模型创新中心的负责人,该中心聚焦下一代通用世界基座模型的学术研究与前沿探索,旨在构建面向真实物理世界的通用基座模型。
据了解,陈博远在 2004 年出生,来自山东,是北京大学元培学院人工智能方向本科生,也是逆矩阵科技 Physis 的创始人之一。
同时,智源构建了面向具身领域、以世界模型理念为核心构建的具身大脑悟界·RoboBrain Orca,其相对通用基座模型集成更多面向具身领域的 Data,可以进行下一个物理状态的预测。
此外,大会开幕式上,图灵奖得主、美国国家工程院院士、IEEE 会士 Whitfield Diffie 和图灵奖得主、马萨诸塞大学阿默斯特分校荣誉退休教授 Andrew Barto 都分别做了主题报告。Diffie 强调,当前编程实践中,对智能体的限制(Confinement)即保证智能体只能访问授权资源,在现有编程中仍做得不足。
Barto 则提出,“强化学习与神经网络的计算研究从一开始便紧密交织”,二者“均发端于大脑如何运作与学习的假说”,而“深度强化学习的计算能力与大脑奖励系统的最新成果相结合,指明了下一轮进展的方向”。最后,他以“小心你许的愿,你可能真的会得到它”发出警示,提醒人们警惕奖励信号设计中的“反常实例化”风险。
悟界系列大模型:面向物理世界构建的 AI 基座模型
如今,随着多模态模型的研究深入,人工智能正经历一场重大的范式变革,正在从“预测下一个词元”演进到“预测下一个物理状态”,这是世界模型的核心本质。
智源研究院是国内最早提出并开展世界模型研究的科研机构。2023 年智源大会上,杨立昆(Yann LeCun)就阐述了新一代世界模型的概念;2024 年智源大会上,智源研究院提出的人工智能大模型技术路线预判,明确指出世界模型是下一代大模型技术;2024 年发布的悟界·Emu3 和 2025 年发布的悟界·Emu3.5,更是全球首个原生多模态世界模型。
基于在大模型领域持续的技术积累与前瞻布局,2026 年智源推出了悟界·Physis-v0.1。悟界·Physis 的诞生正是基于智源对人工智能发展路径的判断以及从“悟道”到“悟界”的技术传承与延续。随着大语言与多模态技术日趋成熟,未来人工智能的发展重心将进入世界模型时代。

据介绍,悟界·Physis-v0.1 是全球首款通用世界基座模型,构筑真实物理世界人工智能底层核心引擎,重塑 AI 物理感知与推演的底层技术体系。悟界·Physis-v0.1 彻底打破传统 AI 垂类场景专用的技术瓶颈,针对性解决行业共性难题,能有效弥补主流人工智能模型不懂真实物理规则、物理推演结果可信度低、长程时序记忆缺失的核心短板,以通用基座能力实现全场景物理交互、感知与决策的统一,从根源提升 AI 物理推理的真实性与可靠性。

依托独创技术架构,悟界·Physis-v0.1 以物理隐空间表征替代传统像素、帧级预测方案,实现跨场景通用物理规律强化学习。搭载专属物理状态编码器,可完成视频、深度 RGB、3D 点云、力触反馈等全模态信息压缩,统一转化为标准化隐空间物理状态 Latent State。模型支持 50+复杂物理场景长程推理,具备物理一致性、动作因果性、长程可推演性、通用泛化性四大核心能力,凭借高效的推理效率与极强的泛化能力,达到行业领先水平,可广泛应用于严肃工业、具身智能、物理仿真、科学研究等真实物理场景。
智源认为,现有世界模型相关的技术路线可分为四类:第一类是以语言为中心的世界模型,包括 VLM、VLA,模型在文本空间中预测下一个词,学到的是语言描述的世界,并不能理解背后的物理后果;第二类是以像素为中心的世界模型,像 Sora 和 Seedance 等视频生成类模型,在视觉空间中学习视频或图像,学到的是像素描述的世界;
第三类是以三维结构为中心的世界模型,包括 3D 重建以及李飞飞团队的 World Labs Marble 模型,不过模型重建 3D 空间不等于理解世界,几何结构也不代表物理状态;第四类是以视觉表征为中心的世界模型,比如杨立昆的 JEPA 系列模型,预测的是视觉表征的压缩,但视觉嵌入演化不等于物理规律演化。

在智源看来,世界模型作为面向真实物理世界的下一代基座模型,以“预测下一物理状态”为核心,代表着人工智能的下一个重要范式跃迁。世界模型不仅能感知、理解、推理真实物理世界的时间、空间、物理规律和物理常识,同时能涵盖文本、视频、深度、力觉、感知等全模态数据,还具备主动交互能力,能够支撑各种物理世界的下游应用。
以预测下一物理状态为核心,构建新具身大脑
针对具身智能面临的硬件不成熟、数据短缺、模型能力弱、落地应用难的四大挑战,智源构建了自底向上的全栈具身智能技术体系,并先后发布了悟界·RoboBrain 和悟界·RoboOS。
据介绍,智源正在研发中的悟界·RoboBrain Orca,以预测下一个物理状态为核心来构建具身大脑,融合了大量 Ego-centric 交互数据,强化世界模型的具身表征,提升下游少样本和跨场景泛化的能力。
据介绍,悟界·RoboBrain Orca 构建了 “统一表征 — 建模 — 预测 — 交互” 完整闭环,实现从 Next Token / Frame / Action Prediction 升级为 Next Physical State Prediction,彻底打破传统 AI 仅能理解文本的局限,推动 AI 从理解文本走向感知、预测与交互物理世界,并融合大量 Ego-centric 交互数据,强化了世界模型的具身表征,有效提升下游少样本与跨场景的泛化能力。

具体来说,悟界·RoboBrain Orca 具备统一表征、因果推演、模态解码三大核心能力,可同时生成语言思考、视觉预测与动作决策,实现“想、看、动”三位一体,赋予具身智能机器人打通“认知—预测—行动”完整链路的能力,支撑具身智能机器人在物流场景、酒店服务场景等真实环境中的长期自主作业。
多领域布局,发布四款自研智能体
这次,智源还推出了四款自主研发的智能体,它们分别面向心脏辅助诊断、科学发现、个人专属助理以及生物安全防护等领域。
其中,BAAI Cardiac Agent 是全球首个面向心脏磁共振的辅助诊断智能体,依托安贞医院两千余例心血管患者超 3 万条影像-文本配对多模态数据,构建一站式“结构分割-功能评估-疾病诊断-智能化报告”智能体,推动优质心血管医疗能力普惠可及。BAAI Cardiac Agent 不仅能显著提升 CMR 影像的解读效率,同时融合安贞医院心脏专科医师的临床诊疗经验,其 Agent-Expert 系统复刻专家团队协作式诊疗流程,最终实现心脏疾病诊断精确度达到安贞医院顶尖心血管医生的诊断水平,AUC 超 0.93。
AREX 是面向科学发现的自主研究智能体,致力于推动人工智能从模仿学习向自主学习跨越,让 AI 学会自我提升。它面向科研过程中创新思路稀缺、设计实现缓慢、实验论证繁琐等痛点,全面降低科研全流程对人类参与的依赖,辅助人类研究,实现自主科学发现。未来,AREX 可服务于文献调研、思路拓展、实验设计、结果论证与论文撰写等科研全流程,也可用于人工智能服务的全流程快速构建、自主优化与迭代,并进一步推动人工智能技术赋能基础学科前沿问题的自主探索与科学发现。
SoulAgent 是面向个人用户的专属智能体,采用全新自研架构,实现 Token 成本节省 30%,资源占用降低 80%。SoulAgent 基于用户画像和 skill 的自进化,可持续成长为用户的专属数字专家,满足用户个性化服务、长期记忆留存、高私密安全的智能助手核心需求,有效解决传统通用 AI 助手不懂用户习惯、响应适配慢、用户数据无保障、无法实现长期深度协作的行业痛点,打造专属化和个性化的智能服务体验。在智源大会上,SoulAgent 帮助参会者实时听会、捕捉大会重点、提炼前沿观点与专家洞察,在并行会议中打造随时“在场”的智能分身。
智源还推出面向有害蛋白获取的风险发现智能体,首次打通“计算机模拟推演”与“真实实验验证”的完整链条(干湿实验闭环),验证了先进 AI 智能体能够辅助绕过生物安全筛查机制,将目标有害蛋白序列拆分为多个 DNA 片段并组装,最终成功获取有害蛋白基因序列。针对传统 AI 生物安全评估多为事后被动响应,且攻击路径难以完整复现的问题,该系统通过主动模拟攻击者行为,提前识别智能体在生物知识获取、有害蛋白序列设计等环节的脆弱性,将风险防控从“事后补救”转为“事前演练”。
全面升级至 FlagOS 2.1,打造普适、高效、智能智算基座
众智 FlagOS 是智源研究院牵头打造的统一智算系统软件栈,致力于彻底破解“多模型×多芯片”的适配难题。作为当前全球支持芯片种类最多的智算系统软件栈,FlagOS 统一适配 18 家芯片品牌的 32 款芯片型号,覆盖 NVIDIA、NPU、GPGPU、DSA、RISC-V AI、ARM 等多种架构,支持“多种模态”“多种场景”大模型在多种 AI 芯片迁移部署。通过 FlagOS 的通用算子库、统一 AI 编译器、自动算子生成工具、vLLM 多芯片统一插件等关键组件,支持 90%以上主流开源大模型的多芯片部署,包括 DeepSeek、Qwen、面壁 MiniCPM、智谱 GLM、MiniMaX、混元、阶跃 Step 等。发布即多芯适配,DAY 0 即实现 DeepSeek V4、Qwen3.6、MiniMaX M2.7、MiniCPM-o4.5、 MiniCPM5-1B 混元 Hy-MT2 等大模型的多款芯片适配。
同时,FlagOS 作为全球覆盖芯片数量最多的智算系统软件栈,构建了从底层算子到上层框架接入的完整技术体系。在端到端性能极致优化方面,FlagOS 拓展 Triton-TLE 语言能力,已支持华为昇腾、海光、摩尔线程、清微智能、英伟达等多款芯片,极致优化大模型关键算子性能;八大算子库总数超 600 个,实现从“大模型专用”到“科学计算”的能力延伸,核心组件已进入 PyTorch 基金会生态项目;FlagCX 通信库,统一连通 10 款芯片,并实现全球 AI 芯片通信的 ITU 国际标准与国家标准“双立项”。
FlagRelease 发布 Express“高速”镜像版本,可一键安装使用,实现端到端的高速推理。FlagCICD,首个 AI 多芯片开源集成测试发版平台。在前沿探索层面,FlagQuantum,高性能量子电路模拟框架,在多种 AI 芯片、及量子电路的机器学习,迈出“量智融合”的第一步。
目前,FlagOS 的生态成员已经超过 80 余家,全球下载量超过 37.5 万次,触及开发者 5.6 万人。





