写点什么

对话智源王仲远:机器人的大小脑可能会“合体”,但不是今天

  • 2025-06-11
    北京
  • 本文字数:3662 字

    阅读完需:约 12 分钟

大小:1.82M时长:10:37
对话智源王仲远:机器人的大小脑可能会“合体”,但不是今天

作者 | 华卫


今年的智源大会上,智源研究院推出全新的“悟界”系列大模型,其中包括原生多模态世界模型 Emu3、脑科学多模态通用基础模型见微 Brainμ、跨本体具身大小脑协作框架 RoboOS2.0 与具身大脑 RoboBrain2.0 以及全原子微观生命模型 OpenComplex2。


据介绍,Emu3 作为原生多模态统一架构让大模型具备理解和推理世界的能力,Brainμ基于则 Emu3 架构,引入脑信号这一新的模态数据,实现了单一模型完成多种神经科学任务的大一统。在初代版本的基础上,RoboOS2.0 与 RoboBrain2.0 的原有性能有大幅提升,并新增多机协作规划与物理常识驱动的空间推理能力。OpenComplex2 可在原子分辨率层面捕捉分子相互作用及平衡构象,探索微观构象波动与宏观生物功能的跨尺度关联。


“大模型技术还远没有到发展的尽头。”在大会前夕,智源研究院长王仲远向我们透露了这一系列新模型背后的技术思考与智源当下的战略布局。


王仲远指出,去年智源就对大模型的技术路线进行了预判,会从大语言模型往多模态、尤其是原生多模态世界模型的方向发展。当前,智源的工作布局都是围绕这一技术发展趋势进行。此次推出的“悟界”系列就是智源在物理 AGI 领域所做的大模型最新科研成果,其中“界”代表对于虚实世界边界的突破、对物理世界的赋能和物理 AGI 方向的迈进。


“人工智能正在加速从数字世界走向物理世界,这是对大模型技术发展趋势的判断,也是“悟界”系列大模型推出的底层原因。”


实现物理 AGI 的关键:世界模型


原生多模态世界模型本质上是为了让人工智能感知和理解物理世界,进而推进和物理世界的交互。进入物理世界之后,在宏观层面,大模型与硬件结合,通过具身智能的发展解决实际生产生活问题。在微观层面,生成式人工智能的应用能够进一步揭示微观世界的本质。


“所有这一切构成的世界模型是实现物理 AGI 的重要发展路径。”王仲远表示,智源的“原生多模态世界模型”代表的更多是人工智能对世界的探索。


Emu3 于 2024 年 10 月发布,基于下一个 token 预测范式统一多模态学习,无需扩散模型或组合式架构的复杂性,通过研发新型视觉 tokenizer 将图像 / 视频编码为与文本同构的离散符号序列,构建模态无关的统一表征空间,实现文本、图像、视频的任意组合理解与生成。


据称,Emu3 支持多模态输入、多模态输出的端到端映射,验证了自回归框架在多模态领域的普适性与先进性,为跨模态交互提供了强大的技术基座。


见微 Brainμ正是基于 Emu3 的底层架构,将 fMRI、EEG、双光子等神经科学与脑医学相关的脑信号统一 token 化,利用预训练模型多模态对齐的优势,可以实现多模态脑信号与文本、图像等模态的多向映射,并实现跨任务、跨模态、跨个体的统一通用建模,以单一模型完成多种神经科学的下游任务。


作为神经科学领域跨任务、跨模态、跨个体的基础通用模型,Brainμ可同步处理多类编解码任务,兼容多物种动物模型(包括小鼠狨猴猕猴)与人类数据,实现科学数据注释、交互式科学结论解读、大脑感觉信号重建及模拟刺激信号生成。在自动化睡眠分型、感官信号重建与多种脑疾病诊断等任务中,作为单一模型其性能显著超越现有的专有模型,刷新 SOTA 表现。


同时,作为整合大规模多模态数据的基础通用模型,Brainμ也可以支持拓展脑机接口应用,在与脑机接口企业强脑科技 BrainCO 的合作中,Brainμ实现了首次在便携式消费级脑电系统上重建感觉信号,展现了模型支持拓展脑机接口应用能力的潜力。


据介绍,Brainμ整合了神经科学领域多个大型公开数据集和多个合作实验室的高质量神经科学数据,完成了超过 100 万单位的神经信号预训练,模型可以支持神经科学领域从基础研究到临床研究和脑机接口应用的不同方向,有望成为神经科学的“AlphaFold”模型。


当下,智源正在与国内前沿的基础神经科学实验室、脑疾病研究团队和脑机接口团队深入合作,包括北京生命科学研究所、清华大学、北京大学、复旦大学与强脑科技 BrainCO,拓展 Brainμ的科学与工业应用。


“机器人大小脑可能会融合,但不是今天”


“2024 年,人形机器人刚刚会走。2025 年,刚刚会跑,能否走得稳、跑得稳,还在努力过程中。”据王仲远介绍,智源走的是大模型的路线,更多依靠的是互联网数据帮助机器人学习智能。


跨本体具身大小脑协作框架 RoboOS2.0 是全球首个基于具身智能 SaaS 平台、支持无服务器一站式轻量化机器人本体部署的开源框架。同时,RoboOS2.0 也是全球首个支持 MCP 的跨本体具身大小脑协作框架,旨在构建具身智能领域的“应用商店”生态。


在该框架下,可一键下载并部署来自全球开发者创建的相同型号机器人本体的小脑技能,完成大小脑的无缝整合。RoboOS2.0 实现了小脑技能的免适配注册机制,显著降低开发门槛,典型场景下,相关代码量仅为传统手动注册方式的 1/10。


相较于 1.0,RoboOS2.0 对端到端推理链路进行了系统级优化,整体性能提升达 30%,全链路平均响应时延低至 3ms 以下,端云通信效率提升 27 倍。在功能层面,新增了多本体时空记忆场景图(SceneGraph)共享机制,支持动态环境下的实时感知与建模;同时引入多粒度任务监控模块,实现任务闭环反馈,有效提升机器人任务执行的稳定性与成功率。


王仲远认为,智源不否认大小脑融合的可能趋势。未来 5-10 年,大小脑融合的模型可能会成熟,但不是今天。原因很简单,数据受限使得当下不具备大小脑融合的现实条件。


具身大脑 RoboBrain2.0 是目前全球最强的开源具身大脑大模型,在多项空间推理与任务规划指标上超越主流大模型。“智源研发的具身大脑 RoboBrain 不能解决所有问题,主要是和人类交互、能够感知、规划和任务拆解,再把任务交给小脑完成。现阶段很多融合模型还属于小脑的范畴,很重要的原因是思考和响应的速度不足以支撑硬件解决所有问题。具身智能跨本体大小脑协作框架 RoboOS 能将具身大脑和本体机器人训练的小脑有机融合。”王仲远称。


在任务规划方面,RoboBrain2.0 相比于 RoboBrain1.0 的基于 Prompt 的多机任务规划机制和初级空间理解能力,进一步扩展了基于多本体 - 环境动态建模的多机协同规划能力,可实时构建包含本体定位的场景图(SceneGraph),并自动完成跨本体的任务规划。实验数据显示,RoboBrain2.0 的任务规划准确率相较 RoboBrain1.0 实现了 74% 的效果提升。


在空间智能方面,RoboBrain2.0 在原有可操作区域(Affordance)感知与操作轨迹(Trajectory)生成能力的基础上,实现了 17% 的性能提升。同时,RoboBrain2.0 增加了空间推理能力(SpatialReferring),既包含机器人对相对空间位置(如前后、左右、远近)及绝对距离的基础感知与理解能力,也实现了对复杂空间的多步推理能力。


此外,RoboBrain2.0 还新增了闭环反馈以及具身智能的深度思考能力。闭环反馈使机器人能够根据当前环境感知和任务状态,实时调整任务规划与操作策略,以应对复杂环境中的突发变化和扰动;深度思考能力则支持机器人对复杂任务进行推理分解,进一步提升整体执行准确率与任务完成的可靠性。


目前,RoboOS2.0 与 RoboBrain2.0 已全面开源,包括框架代码、模型权重、数据集与评测基准,智源研究院已与全球 20 多家具身智能企业建立战略合作关系。


OpenComplex2 突破了蛋白质预测瓶颈


全原子微观生命模型 OpenComplex2 实现了生物分子研究从静态结构预测到动态构象分布建模的重大突破。该模型能够表征生物分子系统的连续演化能量景观(EnergyLandscape),并通过融合扩散生成式建模与生物实验数据,在原子分辨率层面捕捉分子相互作用及平衡构象分布,为探索微观构象波动与宏观生物功能的跨尺度关联提供了全新的研究视角。


基于 FloydNetwork 图扩散框架以及多尺度原子精度表示两大关键技术创新,OpenComplex2 有效突破了生物分子在功能活动中可及的动态构象分布预测的瓶颈,从而能够建模生物分子系统中各种原子组分之间复杂的依赖关系,且无需对构象空间施加先验约束,更加真实地还原生物分子的构象多样性和动态特性,此外,还能同时捕捉原子级、残基级和基序级(motiflevel)的相关性,从而在建模过程中兼顾关键的局部结构细节与全局构象变化,为揭示生物功能提供更加全面的结构基础。


据王仲远介绍,OpenComplex 2 的一个重要新进展是,其不仅能够做包括蛋白质、DNA、RNA 小分子结构等的静态结构预测,还能够做动态构象分布建模。


在生物分子动态特性预测、柔性系统及超大型复合物建模、生物分子相互作用精细化分析等关键任务中,OpenComplex2 模型性能卓越,突破了静态结构预测的瓶颈。2024 年,在第 16 届蛋白质结构预测关键评估竞赛 CASP16(CriticalAssessmentofproteinStructurePrediction)中,OpenComplex2 成功预测了蛋白质 T1200/T1300 的空间构象分布(定性上与实验数据一致),成为 23 支参赛队伍中唯一取得该突破的团队。


此外,OpenComplex2 为原子级结构生物学提供了一种全新的建模工具,通过统一框架解码生物分子系统的动态作用机制,将加速从基础分子机制研究到药物设计等下游应用的发展。基于人工智能精准预测与高通量实验验证平台的结合,OpenComplex2 将有望显著缩短生物医药研发周期,降低研发成本,提升科研成果转化率,助力生物医药产业的高质量创新发展。


2025-06-11 17:498

评论

发布
暂无评论

VuePress 博客优化之开启 Algolia 全文搜索

冴羽

Vue 搜索 vuepress 博客搭建 Algolia

Committer 蔡正昕专访:勇敢迈出第一步,做开源没有那么难

Apache Pulsar

架构 云原生 中间件 Apache Pulsar 开源社区

gRPC 简介实践

yuexin_tech

gRPC

工作以后流的泪,就是当初校招时脑子进的水

IC男奋斗史

职业规划 芯片行业思考

python方法——defaultdict详解

Wjq

Python 字典 3月程序媛福利 3月月更 defaultdict

Discuz! ML远程代码执行(CVE-2019-13956)

喀拉峻

网络安全

好书推荐 ——《噪声:人类判断的缺陷》

天择

好书推荐 认知偏差 噪声 3月月更

模块九

撿破爛ぃ

架构训练营

活动预告 | ArchSummit全球架构师峰会

第四范式开发者社区

人工智能 机器学习 数据库 架构师 热门活动

超级群、群组、聊天室,IM 产品的场景化「特异功能」

融云 RongCloud

即时通讯 IM

还在用递归,试试迭代吧

爱笑的小雨

模块 9 作业(毕业设计)

miliving

2021年第4季度规模达1381.8亿元!跨境电商结合酒店场景将成亮点

易观分析

跨境电商

同人于野,平常无边 | 对话 StarRocks 的三位女性工程师

StarRocks

数据工程师 38妇女节

Flutter 构建常见的App页面框架

岛上码农

flutter ios 安卓 移动端开发 3月月更

我要跳槽了!

IC男奋斗史

职业规划 芯片行业思考

商品库存管理和秒杀系统设计(19/100)

hackstoic

技术方案 互联网应用技术方案

图文详解:Kafka到底有哪些秘密让我对它情有独钟呢?

浅羽技术

Go语言实战之切片的内部实现和基础功能

山河已无恙

Go 语言 3月月更

Python 学习路线(2022)

AlwaysBeta

Python django 编程语言 学习路线 编程入门

猿桌派第 2 季回归,报名赢现场录制机会!

融云 RongCloud

程序员

数字孪生:如何撑起一个万亿市场的产业变革?

知心宝贝

行业资讯 数字孪生 冬奥 3月月更

2022官方文档部署MAVEN最新最全

北极的大企鹅

中间件 环境安装 部署与维护

英特尔Sierra Forest,市场最需要的能效核至强处理器

科技新消息

基于区块链技术的超级账本(Hyperledger) - 从理论到实战

汪子熙

区块链 智能合约 云平台 Go 语言 2月月更

安全实战:webshell的几种免杀方式

网络安全学海

黑客 网络安全 信息安全 渗透测试 安全漏洞

融云通信周边能力上新啦!一键 Get 美颜、CDN 服务

融云 RongCloud

CDN 人脸识别

把家电科技产出摆出来!三家实力一目了然

脑极体

网络安全kali web安全 Kali之msf简单的漏洞利用

学神来啦

网络安全 渗透测试 WEB安全 kali kali Linux

教你如何搭建一个骗子举报/信息查询的平台

H

搭建平台 网络安全信息安全、

乘数智之风,为世界造舟筏:女性在当下如何创造?

脑极体

对话智源王仲远:机器人的大小脑可能会“合体”,但不是今天_AI&大模型_华卫_InfoQ精选文章