AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

对话智源王仲远:机器人的大小脑可能会“合体”,但不是今天

  • 2025-06-11
    北京
  • 本文字数:3662 字

    阅读完需:约 12 分钟

大小:1.82M时长:10:37
对话智源王仲远:机器人的大小脑可能会“合体”,但不是今天

作者 | 华卫


今年的智源大会上,智源研究院推出全新的“悟界”系列大模型,其中包括原生多模态世界模型 Emu3、脑科学多模态通用基础模型见微 Brainμ、跨本体具身大小脑协作框架 RoboOS2.0 与具身大脑 RoboBrain2.0 以及全原子微观生命模型 OpenComplex2。


据介绍,Emu3 作为原生多模态统一架构让大模型具备理解和推理世界的能力,Brainμ基于则 Emu3 架构,引入脑信号这一新的模态数据,实现了单一模型完成多种神经科学任务的大一统。在初代版本的基础上,RoboOS2.0 与 RoboBrain2.0 的原有性能有大幅提升,并新增多机协作规划与物理常识驱动的空间推理能力。OpenComplex2 可在原子分辨率层面捕捉分子相互作用及平衡构象,探索微观构象波动与宏观生物功能的跨尺度关联。


“大模型技术还远没有到发展的尽头。”在大会前夕,智源研究院长王仲远向我们透露了这一系列新模型背后的技术思考与智源当下的战略布局。


王仲远指出,去年智源就对大模型的技术路线进行了预判,会从大语言模型往多模态、尤其是原生多模态世界模型的方向发展。当前,智源的工作布局都是围绕这一技术发展趋势进行。此次推出的“悟界”系列就是智源在物理 AGI 领域所做的大模型最新科研成果,其中“界”代表对于虚实世界边界的突破、对物理世界的赋能和物理 AGI 方向的迈进。


“人工智能正在加速从数字世界走向物理世界,这是对大模型技术发展趋势的判断,也是“悟界”系列大模型推出的底层原因。”


实现物理 AGI 的关键:世界模型


原生多模态世界模型本质上是为了让人工智能感知和理解物理世界,进而推进和物理世界的交互。进入物理世界之后,在宏观层面,大模型与硬件结合,通过具身智能的发展解决实际生产生活问题。在微观层面,生成式人工智能的应用能够进一步揭示微观世界的本质。


“所有这一切构成的世界模型是实现物理 AGI 的重要发展路径。”王仲远表示,智源的“原生多模态世界模型”代表的更多是人工智能对世界的探索。


Emu3 于 2024 年 10 月发布,基于下一个 token 预测范式统一多模态学习,无需扩散模型或组合式架构的复杂性,通过研发新型视觉 tokenizer 将图像 / 视频编码为与文本同构的离散符号序列,构建模态无关的统一表征空间,实现文本、图像、视频的任意组合理解与生成。


据称,Emu3 支持多模态输入、多模态输出的端到端映射,验证了自回归框架在多模态领域的普适性与先进性,为跨模态交互提供了强大的技术基座。


见微 Brainμ正是基于 Emu3 的底层架构,将 fMRI、EEG、双光子等神经科学与脑医学相关的脑信号统一 token 化,利用预训练模型多模态对齐的优势,可以实现多模态脑信号与文本、图像等模态的多向映射,并实现跨任务、跨模态、跨个体的统一通用建模,以单一模型完成多种神经科学的下游任务。


作为神经科学领域跨任务、跨模态、跨个体的基础通用模型,Brainμ可同步处理多类编解码任务,兼容多物种动物模型(包括小鼠狨猴猕猴)与人类数据,实现科学数据注释、交互式科学结论解读、大脑感觉信号重建及模拟刺激信号生成。在自动化睡眠分型、感官信号重建与多种脑疾病诊断等任务中,作为单一模型其性能显著超越现有的专有模型,刷新 SOTA 表现。


同时,作为整合大规模多模态数据的基础通用模型,Brainμ也可以支持拓展脑机接口应用,在与脑机接口企业强脑科技 BrainCO 的合作中,Brainμ实现了首次在便携式消费级脑电系统上重建感觉信号,展现了模型支持拓展脑机接口应用能力的潜力。


据介绍,Brainμ整合了神经科学领域多个大型公开数据集和多个合作实验室的高质量神经科学数据,完成了超过 100 万单位的神经信号预训练,模型可以支持神经科学领域从基础研究到临床研究和脑机接口应用的不同方向,有望成为神经科学的“AlphaFold”模型。


当下,智源正在与国内前沿的基础神经科学实验室、脑疾病研究团队和脑机接口团队深入合作,包括北京生命科学研究所、清华大学、北京大学、复旦大学与强脑科技 BrainCO,拓展 Brainμ的科学与工业应用。


“机器人大小脑可能会融合,但不是今天”


“2024 年,人形机器人刚刚会走。2025 年,刚刚会跑,能否走得稳、跑得稳,还在努力过程中。”据王仲远介绍,智源走的是大模型的路线,更多依靠的是互联网数据帮助机器人学习智能。


跨本体具身大小脑协作框架 RoboOS2.0 是全球首个基于具身智能 SaaS 平台、支持无服务器一站式轻量化机器人本体部署的开源框架。同时,RoboOS2.0 也是全球首个支持 MCP 的跨本体具身大小脑协作框架,旨在构建具身智能领域的“应用商店”生态。


在该框架下,可一键下载并部署来自全球开发者创建的相同型号机器人本体的小脑技能,完成大小脑的无缝整合。RoboOS2.0 实现了小脑技能的免适配注册机制,显著降低开发门槛,典型场景下,相关代码量仅为传统手动注册方式的 1/10。


相较于 1.0,RoboOS2.0 对端到端推理链路进行了系统级优化,整体性能提升达 30%,全链路平均响应时延低至 3ms 以下,端云通信效率提升 27 倍。在功能层面,新增了多本体时空记忆场景图(SceneGraph)共享机制,支持动态环境下的实时感知与建模;同时引入多粒度任务监控模块,实现任务闭环反馈,有效提升机器人任务执行的稳定性与成功率。


王仲远认为,智源不否认大小脑融合的可能趋势。未来 5-10 年,大小脑融合的模型可能会成熟,但不是今天。原因很简单,数据受限使得当下不具备大小脑融合的现实条件。


具身大脑 RoboBrain2.0 是目前全球最强的开源具身大脑大模型,在多项空间推理与任务规划指标上超越主流大模型。“智源研发的具身大脑 RoboBrain 不能解决所有问题,主要是和人类交互、能够感知、规划和任务拆解,再把任务交给小脑完成。现阶段很多融合模型还属于小脑的范畴,很重要的原因是思考和响应的速度不足以支撑硬件解决所有问题。具身智能跨本体大小脑协作框架 RoboOS 能将具身大脑和本体机器人训练的小脑有机融合。”王仲远称。


在任务规划方面,RoboBrain2.0 相比于 RoboBrain1.0 的基于 Prompt 的多机任务规划机制和初级空间理解能力,进一步扩展了基于多本体 - 环境动态建模的多机协同规划能力,可实时构建包含本体定位的场景图(SceneGraph),并自动完成跨本体的任务规划。实验数据显示,RoboBrain2.0 的任务规划准确率相较 RoboBrain1.0 实现了 74% 的效果提升。


在空间智能方面,RoboBrain2.0 在原有可操作区域(Affordance)感知与操作轨迹(Trajectory)生成能力的基础上,实现了 17% 的性能提升。同时,RoboBrain2.0 增加了空间推理能力(SpatialReferring),既包含机器人对相对空间位置(如前后、左右、远近)及绝对距离的基础感知与理解能力,也实现了对复杂空间的多步推理能力。


此外,RoboBrain2.0 还新增了闭环反馈以及具身智能的深度思考能力。闭环反馈使机器人能够根据当前环境感知和任务状态,实时调整任务规划与操作策略,以应对复杂环境中的突发变化和扰动;深度思考能力则支持机器人对复杂任务进行推理分解,进一步提升整体执行准确率与任务完成的可靠性。


目前,RoboOS2.0 与 RoboBrain2.0 已全面开源,包括框架代码、模型权重、数据集与评测基准,智源研究院已与全球 20 多家具身智能企业建立战略合作关系。


OpenComplex2 突破了蛋白质预测瓶颈


全原子微观生命模型 OpenComplex2 实现了生物分子研究从静态结构预测到动态构象分布建模的重大突破。该模型能够表征生物分子系统的连续演化能量景观(EnergyLandscape),并通过融合扩散生成式建模与生物实验数据,在原子分辨率层面捕捉分子相互作用及平衡构象分布,为探索微观构象波动与宏观生物功能的跨尺度关联提供了全新的研究视角。


基于 FloydNetwork 图扩散框架以及多尺度原子精度表示两大关键技术创新,OpenComplex2 有效突破了生物分子在功能活动中可及的动态构象分布预测的瓶颈,从而能够建模生物分子系统中各种原子组分之间复杂的依赖关系,且无需对构象空间施加先验约束,更加真实地还原生物分子的构象多样性和动态特性,此外,还能同时捕捉原子级、残基级和基序级(motiflevel)的相关性,从而在建模过程中兼顾关键的局部结构细节与全局构象变化,为揭示生物功能提供更加全面的结构基础。


据王仲远介绍,OpenComplex 2 的一个重要新进展是,其不仅能够做包括蛋白质、DNA、RNA 小分子结构等的静态结构预测,还能够做动态构象分布建模。


在生物分子动态特性预测、柔性系统及超大型复合物建模、生物分子相互作用精细化分析等关键任务中,OpenComplex2 模型性能卓越,突破了静态结构预测的瓶颈。2024 年,在第 16 届蛋白质结构预测关键评估竞赛 CASP16(CriticalAssessmentofproteinStructurePrediction)中,OpenComplex2 成功预测了蛋白质 T1200/T1300 的空间构象分布(定性上与实验数据一致),成为 23 支参赛队伍中唯一取得该突破的团队。


此外,OpenComplex2 为原子级结构生物学提供了一种全新的建模工具,通过统一框架解码生物分子系统的动态作用机制,将加速从基础分子机制研究到药物设计等下游应用的发展。基于人工智能精准预测与高通量实验验证平台的结合,OpenComplex2 将有望显著缩短生物医药研发周期,降低研发成本,提升科研成果转化率,助力生物医药产业的高质量创新发展。


2025-06-11 17:493593

评论

发布
暂无评论

前端vue面试题,附答案

buchila11

Vue

2021能源发展极速前进,可视化赋能行业高效运作

一只数据鲸鱼

数据可视化 3D可视化 智慧能源 能源管理 光伏发电

网络攻防学习笔记 Day67

穿过生命散发芬芳

网络攻防 7月日更

iOS工程师如何恍然大悟?

程序员 IT 编程之路 iOS 知识体系

367W字!京东商城Java架构师设计的亿级高并发秒杀手抄笔记

Java架构追梦

Java 架构 秒杀系统 亿级并发 京东商城

模块一作业

张文龙

#架构实战营

一千零一次飞升APP系统开发内容

Apache ShardingSphere 邀您相约 Open Source Day

SphereEx

接下来的40年,碳中和对我们来说意味着什么?

CECBC

数字货币这波热潮,各国都舍不得错过

CECBC

你用哪些软件和方式来提高工作效率?

万事ONES

项目管理 ONES 敏捷管理

一文带你读懂CNCF Landscape

焱融科技

分布式 云原生 高性能 云存储 cncf

扩展Elasticsearch客户端简化ES查询(.net core/framework)

Spook

怎么在linux系统下安装Nginx?一分钟学会!

小桃

Linux 网络安全 系统

论文解读丨图神经网络应用于半结构化文档的命名实体识别和关系提取

华为云开发者联盟

文档 识别 图神经网络 半结构化文档 关系提取

绿色篮子APP开发|绿色篮子软件系统开发

慧心购系统开发|慧心购软件APP开发

查看Linux端口占用,并关掉相关进程。

学神来啦

云计算 Linux 运维

Camtasia实用技巧之光标效果

淋雨

视频剪辑 专业录屏 Camtaisa

HarmonyOS开发者的喜讯——华为认证来啦!

科技汇

拼拼有礼APP开发|拼拼有礼软件系统开发

揭秘版权保护下的视频隐形水印算法(上篇)

拍乐云Pano

视频云峰会|“科技 X 艺术” 的颗粒度体验是什么?

阿里云CloudImagine

阿里云 AR 艺术 摄影 vr

视频云会议已成未来发展必然趋势

anyRTC开发者

音视频 WebRTC 视频会议 云视频

简单四步学会在数字孪生可视化场景中创建小地图!

ThingJS数字孪生引擎

大前端 地图 物联网 可视化 数字孪生

哈哈生活系统开发|哈哈生活软件APP开发

动手实操丨基于随机森林算法进行硬盘故障预测

华为云开发者联盟

机器学习 数据分析 modelarts 随机森林算法 硬盘故障

架构实战营作业模块一

五只羊

架构实战营

架构实战营作业 M01

Shawn Liu

#架构实战营

企业协作通过什么软件可以提高工作效率?

万事ONES

项目管理 敏捷开发 ONES 协同办公

华云大咖说 | 安超虚拟化平台全“芯”亮点揭秘

华云数据

对话智源王仲远:机器人的大小脑可能会“合体”,但不是今天_AI&大模型_华卫_InfoQ精选文章