10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

对话智源王仲远:机器人的大小脑可能会“合体”,但不是今天

  • 2025-06-11
    北京
  • 本文字数:3662 字

    阅读完需:约 12 分钟

大小:1.82M时长:10:37
对话智源王仲远:机器人的大小脑可能会“合体”,但不是今天

作者 | 华卫


今年的智源大会上,智源研究院推出全新的“悟界”系列大模型,其中包括原生多模态世界模型 Emu3、脑科学多模态通用基础模型见微 Brainμ、跨本体具身大小脑协作框架 RoboOS2.0 与具身大脑 RoboBrain2.0 以及全原子微观生命模型 OpenComplex2。


据介绍,Emu3 作为原生多模态统一架构让大模型具备理解和推理世界的能力,Brainμ基于则 Emu3 架构,引入脑信号这一新的模态数据,实现了单一模型完成多种神经科学任务的大一统。在初代版本的基础上,RoboOS2.0 与 RoboBrain2.0 的原有性能有大幅提升,并新增多机协作规划与物理常识驱动的空间推理能力。OpenComplex2 可在原子分辨率层面捕捉分子相互作用及平衡构象,探索微观构象波动与宏观生物功能的跨尺度关联。


“大模型技术还远没有到发展的尽头。”在大会前夕,智源研究院长王仲远向我们透露了这一系列新模型背后的技术思考与智源当下的战略布局。


王仲远指出,去年智源就对大模型的技术路线进行了预判,会从大语言模型往多模态、尤其是原生多模态世界模型的方向发展。当前,智源的工作布局都是围绕这一技术发展趋势进行。此次推出的“悟界”系列就是智源在物理 AGI 领域所做的大模型最新科研成果,其中“界”代表对于虚实世界边界的突破、对物理世界的赋能和物理 AGI 方向的迈进。


“人工智能正在加速从数字世界走向物理世界,这是对大模型技术发展趋势的判断,也是“悟界”系列大模型推出的底层原因。”


实现物理 AGI 的关键:世界模型


原生多模态世界模型本质上是为了让人工智能感知和理解物理世界,进而推进和物理世界的交互。进入物理世界之后,在宏观层面,大模型与硬件结合,通过具身智能的发展解决实际生产生活问题。在微观层面,生成式人工智能的应用能够进一步揭示微观世界的本质。


“所有这一切构成的世界模型是实现物理 AGI 的重要发展路径。”王仲远表示,智源的“原生多模态世界模型”代表的更多是人工智能对世界的探索。


Emu3 于 2024 年 10 月发布,基于下一个 token 预测范式统一多模态学习,无需扩散模型或组合式架构的复杂性,通过研发新型视觉 tokenizer 将图像 / 视频编码为与文本同构的离散符号序列,构建模态无关的统一表征空间,实现文本、图像、视频的任意组合理解与生成。


据称,Emu3 支持多模态输入、多模态输出的端到端映射,验证了自回归框架在多模态领域的普适性与先进性,为跨模态交互提供了强大的技术基座。


见微 Brainμ正是基于 Emu3 的底层架构,将 fMRI、EEG、双光子等神经科学与脑医学相关的脑信号统一 token 化,利用预训练模型多模态对齐的优势,可以实现多模态脑信号与文本、图像等模态的多向映射,并实现跨任务、跨模态、跨个体的统一通用建模,以单一模型完成多种神经科学的下游任务。


作为神经科学领域跨任务、跨模态、跨个体的基础通用模型,Brainμ可同步处理多类编解码任务,兼容多物种动物模型(包括小鼠狨猴猕猴)与人类数据,实现科学数据注释、交互式科学结论解读、大脑感觉信号重建及模拟刺激信号生成。在自动化睡眠分型、感官信号重建与多种脑疾病诊断等任务中,作为单一模型其性能显著超越现有的专有模型,刷新 SOTA 表现。


同时,作为整合大规模多模态数据的基础通用模型,Brainμ也可以支持拓展脑机接口应用,在与脑机接口企业强脑科技 BrainCO 的合作中,Brainμ实现了首次在便携式消费级脑电系统上重建感觉信号,展现了模型支持拓展脑机接口应用能力的潜力。


据介绍,Brainμ整合了神经科学领域多个大型公开数据集和多个合作实验室的高质量神经科学数据,完成了超过 100 万单位的神经信号预训练,模型可以支持神经科学领域从基础研究到临床研究和脑机接口应用的不同方向,有望成为神经科学的“AlphaFold”模型。


当下,智源正在与国内前沿的基础神经科学实验室、脑疾病研究团队和脑机接口团队深入合作,包括北京生命科学研究所、清华大学、北京大学、复旦大学与强脑科技 BrainCO,拓展 Brainμ的科学与工业应用。


“机器人大小脑可能会融合,但不是今天”


“2024 年,人形机器人刚刚会走。2025 年,刚刚会跑,能否走得稳、跑得稳,还在努力过程中。”据王仲远介绍,智源走的是大模型的路线,更多依靠的是互联网数据帮助机器人学习智能。


跨本体具身大小脑协作框架 RoboOS2.0 是全球首个基于具身智能 SaaS 平台、支持无服务器一站式轻量化机器人本体部署的开源框架。同时,RoboOS2.0 也是全球首个支持 MCP 的跨本体具身大小脑协作框架,旨在构建具身智能领域的“应用商店”生态。


在该框架下,可一键下载并部署来自全球开发者创建的相同型号机器人本体的小脑技能,完成大小脑的无缝整合。RoboOS2.0 实现了小脑技能的免适配注册机制,显著降低开发门槛,典型场景下,相关代码量仅为传统手动注册方式的 1/10。


相较于 1.0,RoboOS2.0 对端到端推理链路进行了系统级优化,整体性能提升达 30%,全链路平均响应时延低至 3ms 以下,端云通信效率提升 27 倍。在功能层面,新增了多本体时空记忆场景图(SceneGraph)共享机制,支持动态环境下的实时感知与建模;同时引入多粒度任务监控模块,实现任务闭环反馈,有效提升机器人任务执行的稳定性与成功率。


王仲远认为,智源不否认大小脑融合的可能趋势。未来 5-10 年,大小脑融合的模型可能会成熟,但不是今天。原因很简单,数据受限使得当下不具备大小脑融合的现实条件。


具身大脑 RoboBrain2.0 是目前全球最强的开源具身大脑大模型,在多项空间推理与任务规划指标上超越主流大模型。“智源研发的具身大脑 RoboBrain 不能解决所有问题,主要是和人类交互、能够感知、规划和任务拆解,再把任务交给小脑完成。现阶段很多融合模型还属于小脑的范畴,很重要的原因是思考和响应的速度不足以支撑硬件解决所有问题。具身智能跨本体大小脑协作框架 RoboOS 能将具身大脑和本体机器人训练的小脑有机融合。”王仲远称。


在任务规划方面,RoboBrain2.0 相比于 RoboBrain1.0 的基于 Prompt 的多机任务规划机制和初级空间理解能力,进一步扩展了基于多本体 - 环境动态建模的多机协同规划能力,可实时构建包含本体定位的场景图(SceneGraph),并自动完成跨本体的任务规划。实验数据显示,RoboBrain2.0 的任务规划准确率相较 RoboBrain1.0 实现了 74% 的效果提升。


在空间智能方面,RoboBrain2.0 在原有可操作区域(Affordance)感知与操作轨迹(Trajectory)生成能力的基础上,实现了 17% 的性能提升。同时,RoboBrain2.0 增加了空间推理能力(SpatialReferring),既包含机器人对相对空间位置(如前后、左右、远近)及绝对距离的基础感知与理解能力,也实现了对复杂空间的多步推理能力。


此外,RoboBrain2.0 还新增了闭环反馈以及具身智能的深度思考能力。闭环反馈使机器人能够根据当前环境感知和任务状态,实时调整任务规划与操作策略,以应对复杂环境中的突发变化和扰动;深度思考能力则支持机器人对复杂任务进行推理分解,进一步提升整体执行准确率与任务完成的可靠性。


目前,RoboOS2.0 与 RoboBrain2.0 已全面开源,包括框架代码、模型权重、数据集与评测基准,智源研究院已与全球 20 多家具身智能企业建立战略合作关系。


OpenComplex2 突破了蛋白质预测瓶颈


全原子微观生命模型 OpenComplex2 实现了生物分子研究从静态结构预测到动态构象分布建模的重大突破。该模型能够表征生物分子系统的连续演化能量景观(EnergyLandscape),并通过融合扩散生成式建模与生物实验数据,在原子分辨率层面捕捉分子相互作用及平衡构象分布,为探索微观构象波动与宏观生物功能的跨尺度关联提供了全新的研究视角。


基于 FloydNetwork 图扩散框架以及多尺度原子精度表示两大关键技术创新,OpenComplex2 有效突破了生物分子在功能活动中可及的动态构象分布预测的瓶颈,从而能够建模生物分子系统中各种原子组分之间复杂的依赖关系,且无需对构象空间施加先验约束,更加真实地还原生物分子的构象多样性和动态特性,此外,还能同时捕捉原子级、残基级和基序级(motiflevel)的相关性,从而在建模过程中兼顾关键的局部结构细节与全局构象变化,为揭示生物功能提供更加全面的结构基础。


据王仲远介绍,OpenComplex 2 的一个重要新进展是,其不仅能够做包括蛋白质、DNA、RNA 小分子结构等的静态结构预测,还能够做动态构象分布建模。


在生物分子动态特性预测、柔性系统及超大型复合物建模、生物分子相互作用精细化分析等关键任务中,OpenComplex2 模型性能卓越,突破了静态结构预测的瓶颈。2024 年,在第 16 届蛋白质结构预测关键评估竞赛 CASP16(CriticalAssessmentofproteinStructurePrediction)中,OpenComplex2 成功预测了蛋白质 T1200/T1300 的空间构象分布(定性上与实验数据一致),成为 23 支参赛队伍中唯一取得该突破的团队。


此外,OpenComplex2 为原子级结构生物学提供了一种全新的建模工具,通过统一框架解码生物分子系统的动态作用机制,将加速从基础分子机制研究到药物设计等下游应用的发展。基于人工智能精准预测与高通量实验验证平台的结合,OpenComplex2 将有望显著缩短生物医药研发周期,降低研发成本,提升科研成果转化率,助力生物医药产业的高质量创新发展。


2025-06-11 17:493836

评论

发布
暂无评论

一文搞定WeakHashMap

不在线第一只蜗牛

Java

基于LangChain手工测试用例转App自动化测试生成工具

霍格沃兹测试开发学社

自控经验 自控的分层 工厂车间设备级控制

万里无云万里天

自动化 工厂运维

个人GPU云服务器是什么

Ogcloud

gpu 云主机 云服务器 GPU云服务器 云服务器租用

inBuilder低代码平台新特性推荐-第二十四期

inBuilder低代码平台

低代码 表单设计

繁星·数智思享会:以流程为中心的数字化转型战役已打响

望繁信科技

数字化转型 流程管理 流程挖掘 流程资产 流程智能

Akamai 调研揭示:安全性成数字原生企业选择云服务首要考量,87%企业优先重视安全再议成本及可扩展性

财见

mcgs笔记 安全属性 使能控制与安全控制

万里无云万里天

自动化 HMI mcgs

mcgs笔记 报警 报警浏览构件

万里无云万里天

自动化 HMI mcgs

中国信通院可信人工智能基础平台(AI Infra)第八批评估工作正式启动

中国信通院AI Infra工作组

【IoTDB 线上小课 07】多类写入接口,快速易懂的“说明书”!

Apache IoTDB

mcgs笔记 报警 报警统一配置的导出与导入

万里无云万里天

自动化 HMI mcgs

mcgs笔记 报警 各变量的报警属性功能

万里无云万里天

自动化 HMI mcgs

解决 AI 算法开发和存储难题,华为云 DTSE 助力文华云技术架构升级

华为云开发者联盟

支持 128TB 超大存储,GaussDB (for MySQL) 如何轻松应对海量数据挑战

华为云开发者联盟

数据库

商家运营优化:基于京东API返回值的商品管理策略

技术冰糖葫芦

API Gateway API 接口 API 测试 pinduoduo API

天池Fashion AI 比赛失败经历分享

阿里云天池

如何免费调用GPT API进行自然语言处理

幂简集成

API ChatGPT

mcgs笔记 报警 报警统一配置

万里无云万里天

自动化 HMI mcgs

mcgs笔记 查看 辅助提示

万里无云万里天

自动化 HMI mcgs

mcgs笔记 权限 按钮的操作权限设置

万里无云万里天

自动化 HMI mcgs

科技创新推动教育普惠,华为云WeLink助力"青椒计划"举办种子教师研学活动

轶天下事

基于LangChain手工测试用例转App自动化测试生成工具

测吧(北京)科技有限公司

测试

低代码开发:助力制造业数字化高质量发展

不在线第一只蜗牛

低代码

数据中台的兴衰与数据飞轮的兴起

乌龟哥哥

数据中台 #数据飞轮

自控经验 传统流程工业的特点

万里无云万里天

自动化 工厂运维

mcgs笔记 用户 查看用户与用户组

万里无云万里天

自动化 HMI mcgs

自控经验 工厂在地理上的分区

万里无云万里天

自动化 工厂运维

mcgs笔记 报警 报警滚动条

万里无云万里天

自动化 HMI mcgs

mcgs笔记 动画按钮 根据值分段显示内容

万里无云万里天

自动化 HMI mcgs

对话智源王仲远:机器人的大小脑可能会“合体”,但不是今天_AI&大模型_华卫_InfoQ精选文章