写点什么

3000 块钱,这支中国团队把 ChatGPT 成功的“秘密”用在了机器人训练上

  • 2026-06-30
    北京
  • 本文字数:5652 字

    阅读完需:约 19 分钟

作者 | 华卫

策划 | 蔡芳芳

两年时间,大语言模型横扫全球。而机器人发展了几十年,依然难以走出实验室。问题可能出在,机器人还没有属于自己的“数据互联网”。

对 ChatGPT 来说,其核心架构 Transformer 是 Google 在 2017 年提出的;OpenAI 做对的,是另一件事:把数据规模推到前所未有的量级,核心要素就是海量、低成本、易获取的互联网文本数据。仅有规模还不够,OpenAI 在 ChatGPT 训练过程中设计了一套数据反馈链路策略 RLHF。当模型参数足够大、有效数据足够多,智能就“涌现”了。

机器人训练要实现类似的突破,或许也需要一场精妙的数据策略:不仅要有足够的数据,精度也得够。然而,在当前具身智能领域中,虽然已经出现大量训练场和数据采集中心,但真正可用于训练的数据规模仍十分有限。

与大模型能依赖互联网公开数据不同,机器人数据从一开始就很“贵”。传统机器人训练要么需要请专家写代码,要么需要专业的遥操作设备、光学动捕系统、力矩传感器来采集数据,这些设备加在一起,少则几十万,多则上百万。更麻烦的是,每家厂商的机械臂,电机、力矩、尺寸都不一样,在 A 机器人上采的数据,到 B 机器人上可能完全不能用。每一台机器人本体,都是一座“孤岛”。仿真数据成本低,但离现实的“鸿沟”不小:在仿真环境里练得很好机器人,放到现实世界可能就失灵了。

2024 年,斯坦福 UMI 抓夹开源,行业一度沸腾。一套 3D 打印的塑料架绑上一个 GoPro 相机,成本只需要 400 美元(约合 2800 元人民币),证明了“低成本采集”这条路走得通。然而,UMI 有自己的天花板。其精度只有厘米级,抓个积木、叠件衣服还行,但像拧螺丝、穿针引线、精密装配,但凡需要“手感”的任务,UMI 就训不出来了。并且,它只能单臂操作,而人类 80%以上的日常操作场景需要双手协同。

现在,国内一支团队拿出了一套千元级的手持采集系统 UMI ver.2 并将其开源。这套系统不仅是能实现毫米级精度、双臂协同的真正生产力工具,价格还只有传统方案的 1/100、甚至更低。在成本已经被 UMI 打下来的基础上,UMIver.2 把精度和维度也提上去了。

项目地址:

https://github.com/qiongming-intelligence/UMI

https://gitee.com/QiongMing-Intelligent/UMI

这支团队来自穹明智能,由“前华为天才少年”李元庆领衔,成立于 2025 年底。短短两年内,团队在具身智能数据定义与工具链开发取得显著突破,首次提出“伴随式数据采集”理念,自研外骨骼设备 CoMiner、口袋机 RoboPocket 等数采设备,并与优必选等头部人形机器人企业、地方大型数采中心及跨国数采基地达成战略合作。同时,穹明智能还推出了搭载自研大脑的软硬件一体解决方案,并在酒店服务、零售药房等真实场景中批量部署。

在与穹明智能团队的独家对话中,我们获悉了更多关于这套千元级系统背后的深层思考,包括技术策略、开源背后的决策与成本控制方面的取舍。

毫米级精度的数采,成本怎么压到千元级?

首先,UMI ver.2 的优势很直接地体现在参数上:精度达到毫米级定位,误差控制在 0.5mm 以内,较上一代 UMI 实现了十倍以上的跃升。该精度水平已能够覆盖大多数精细操作类具身任务的数据采集需求。

“我们其实是把机器人学习看成一个系统性问题。从底层数据一直到算法、再到评估和部署,是一个不断循环的过程,每一个环节都会影响最终效果。但如果回到本质,机器人学习仍然是深度学习问题,而深度学习本质上是‘数据的游戏’,好的数据才会带来好的模型。”

穹明智能技术探索负责人高圆寺表示,其目标场景是家庭,这类场景的特点是任务长、操作复杂,对数据质量要求非常高。传统的遥操作方式虽然精确,但成本高,而且人的动作并不总能被机器人真实复现。所以他选择从数据侧切入,用 UMI 这种“无本体采集”的方式,它和机器人本体是解耦的,更适合在家庭的真实环境中做数据采集,把数据规模先做上去。“算法当然也重要,但我们更倾向于先把数据理解清楚,再通过迭代去不断优化模型。”

UMI 有一个行业默认的痛点:数据有效率低。采集了 100 个小时,真正可用的可能只有 10 个小时。对此,穹明智能团队的做法是:将提升 UMI 数据的可用性提升当作一个系统工程,从多个方面展开来解决问题。

一是多传感器之间的同步和对齐,包括硬件层面的时间同步以及软件层面的标定。二是视觉数据本身的质量,比如视频需要有足够大的视场角,避免操作过程中出现盲区;同时,自动曝光必须收敛快,例如在光照复杂的家庭场景,如果曝光跟不上,数据很容易失效。另外,位姿估计方案也很关键,团队评估后认为 SLAM 的精度在家庭场景会下降,红外方案更为合适。

“我们把 SOP 定义得很细,从源头去保证数据质量。”高圆寺解释道,采集流程本身经常被忽略,如果操作不规范,比如动作过快,数据同样会失效。

而与此同时,UMI ver.2 的整机成本才不到 3000 元,相比传统动捕方案可以节省 90%以上成本,并且全套硬件透明可采购。更关键的是,部署效率极高,仅需 30 分钟就能跑通全流程,接近于一套可快速复制的数据生产基础设施。这意味着,原本集中在少数机构手中的高质量数据采集能力,具备了向更广泛开发者与中小团队扩散的可能。

“我们不是为了低成本而低成本,而是我们对 UMI 数据的定位让我们选择了当下的方案。”高圆寺强调。据透露,从训练通用具身模型的角度来看,真正需要的是多源异构数据,如遥操作数据、UMI 数据、仿真数据、互联网数据等,不同构型的数据对于模型有不同贡献。

在穹明智能团队看来,不追求 UMI 采的数据能够一次性训练出高精度泛化模型,只要让模型理解人类操作意图就可以了,不一定要达到亚毫米级别的精度。因此在硬件选型上,他们的原则是在保证数据对齐和视频质量的前提下,尽量选用实惠的组件。同时,团队在整个训练 pipeline 上做了优化,让 UMI 数据能和真实机器人数据对齐。

完全对外开放,“开源是勇敢者的游戏”

一套不到 3000 元的系统,精度做到毫米级,还能双臂协同。但真正决定它能走多远的,可能是生态:有没有足够多的人和公司使用这套系统,并在这个体系里持续贡献和迭代。

“达到最终通用模型的数据规模大到堪比一个‘登月工程’。”高圆寺很直接地指出,这些数据不可能靠几家初创公司或大厂在内部就能采集完成,需要大家一起参与进来,把大家的日常行为都记录下来。甚至从理想状态来看,可能需要把大家日常生活中的行为逐步记录下来,才能覆盖真正需要的数据多样性分布。

因此,穹明智能团队的选择是:彻底开源。“我们一开始也有点纠结,最终大家还是达成一致。所有源码、硬件清单、部署教程、训练推理流程完全开放,用户可自由使用、修改、分发,二次开发衍生作品需以同等协议开源,保障社区共享与技术普惠。”

穹明智能品牌与开发者生态负责人郁葱葱透露了这个决定背后的考量:“现在我们看到这个行业是由少数公司推动,或许未来会变成整个生态的持续迭代加速,那个时候不再只是比‘谁技术更强’,而是谁打造了更好的生态圈,站在了生态的中心。”

他也坦言,开源存在风险,比如协议违规与商用滥用、技术碎片化导致难以形成统一标准、未经验证的修改引发设备损坏或安全隐患、社区维护压力影响版本迭代与体验、高精度定位能力被用于非合规场景。

“开源是勇敢者的游戏。”在穹明智能团队看来,这些风险并不意味着开源本身不可行,关键在于如何通过更清晰的协议约束、分层的能力开放机制以及社区共建的治理体系,把不确定性收敛在可控范围内。

据介绍,UMI ver.2 将明确采用 GNU General Public License Version 3(GPLv3)开源协议。GPL-3.0 是目前最严格的开源协议之一,相比 GPL-2.0,它进一步增强了对开发者和开源社区的保护,特别是在专利和许可证兼容性方面。

该团队对理想开源生态的想象,是一个全栈开放的完整体系:硬件 BOM 清单公开、成本可控、配件通用,不到 3000 元即可完整复现;软件全开放,驱动、采集、校准、训练、推理全链路代码开源,兼容 LeRobot 等主流框架,降低二次开发门槛;示范数据、预训练模型、配置文件共享,支撑跨机型迁移;兼顾共享与商用边界,鼓励学术与商业协同创新,不设技术壁垒;生态平等,小团队、高校、企业同一起跑线,人人可搭建专业级具身智能平台。

围绕这一体系,穹明智能希望推动的,是一套可规模化复制的基础设施:低成本批量部署在高校与实验室,30 分钟内搭建毫米级数据采集能力;支持更多单 / 双臂机器人平台,形成统一数据采集与格式标准;开发者共同优化精度、稳定性与易用性,贡献案例、修复问题、共建工具链;在精密装配、小件组装、工业验证、教学实验等场景形成“采集—训练—部署—反馈”闭环;推动毫米级动捕采集、空间校准流程成为通用规范。

值得期待的是,拥有开放生态的 UMI ver.2,未来有望成为全球具身智能领域通用低成本数据采集基建,支撑海量高质量示范数据生产的同时,形成开箱即用的机器人通用技能库,不仅能一键复现抓取、开箱、拧螺丝、精密插接等任务,还将推动产学研用深度协同,中小企业低成本实现机器人智能升级。

新的模型范式,很快就会出现

穹明智能团队下一阶段最核心的目标,是完成整个机器人数据 infra 的搭建,并跑通一个完整的闭环。机器人数据本身是高度异构的,遥操作数据、UMI 数据、仿真数据、互联网数据等每一种都有不同的特性和适用场景,他们要做的就是把每一种类型的异构数据都跑通,搞清楚它应该应用在什么样的场景里,然后沉淀为一套 infra。

“我们相信,有了这样一个强大的 infra 之后,很多更有意思的能力,其实是会自然‘长’出来的。”高圆寺表示,等这套 infra 相对成熟之后,他们也会考虑把这部分能力一起开源出来,让更多人可以参与去共建,不管是提交数据还是一起去改进。

如果数据规模真的跨过了那道门槛,机器人领域会不会也长出一个“基础模型”?这个问题,我们抛给了穹明智能总经理、乐享科技联席 CTO 李元庆。“我个人是比较相信机器人基础模型会出现的。”但他随即补充了一个判断:即便有了“技能权重”,事情也不会像想象中那么简单。每个用户的使用环境和习惯差异非常大,物品摆放、空间布局、以及细微的个人偏好都会对最终执行效果产生影响。即便同一个技能,在不同用户那里也往往需要做一定程度的个性化调整。

“对于叠衣服、做菜这类通用任务,如果基础模型真的强到只需下载技能权重就能做到,那自然是理想的。但目前来看,短期内通用任务也仍然需要一定程度的微调。即便在各种强化学习、动作生成策略、世界模型不断进步的情况下,其成功率仍然有提升空间。”

谈及未来的机器人能力,李元庆表示,哪怕未来模型真的已经非常成熟,甚至机器人已经非常接近类似 AGI 的状态,整个能力体系大概还是会分成三个层次。第一层是基础模型,其价值在于提高基础任务的成功率,同时尽可能减少后续反复“再教一遍”的成本以及 post-training 或者二次微调的时间和次数。

第二层是 post-training,在每个人的用户习惯和具体场景之下,机器人没见过的东西,还是要再教一遍,目标是让机器人能够稳定地在真实环境中落地。第三层是用户本人的现场示范。对待一些特别复杂的操作,如按键方法和使用方式与常规物品不同的小众设备,也需要由用户本人或者在机器人旁边的伙伴,现场再教它一次具体操作。

对于机器人领域的“ChatGPT 时刻”,穹明智能团队内部的定义是:一个通用机器人模型或者整个机器人体系跨越了“玩具”、科研、demo 的阶段,进入了一个大众和产业都能够明显感知到“它比较实用”的阶段,形成了开发者生态、数据飞轮和商业的真实爆发。“在今年年底到 2027 年之间,有机会出现这样一个拐点。行业里现在的共识是,整个赛道可能处于从 GPT-2 的阶段慢慢走到 GPT-3 阶段前夜的状态。”李元庆说道。

此外,高圆寺提供了一个更底层视角的观察:ChatGPT 成功本质上是把“下一个词元预测”这件事规模化到了极致。那个时间点其实完成了两件事,一个是有了 Transformer 这样一个非常强大的序列到序列模型,二是把所有语言问题都统一形式化成“下一个词元预测”。他表示,从目前的进展来看,“无本体”数据采集方式的出现,会大大加速数据规模的获取,数量在飞速地 scale up 上去。

“对应到机器人领域,一个关键问题是:我们是不是已经有了类似 Transformer 这样的‘统一模型’?我个人的判断是,其实已经非常接近这个时刻了,也就是出现一个真正适用于机器人操作或者导航任务的通用模型。但数据这一层还需要大量更多探索,不只是规模问题,也包括我们到底该怎么理解数据,比如数据该如何评估、应该包含哪些模态。不过应该也很快了,今年或者明年应该就会有新的范式出现。”

李元庆也同意这个判断,他认为 2026 年底会出现一批“比较可用”的机器人基础模型;2027 到 2028 年之间,会出现更成熟、更稳定的模型形态。但他也强调,现在模型和数据集架构还在快速变化,没有完全地定型。好消息是,已经有任务跑出了明确的结果。“在一些单一任务、链条比较短的操作场景里,成功率已经可以接近 95%,而且在实际执行中已经能完成一些不错的工作了。”

几十万的设备只能服务少数精英实验室,几千元的设备却可以服务整个行业。UMI ver.2 的出现,令高精度数据采集的成本降到了千元级,机器人训练开始具备“复刻 ChatGPT 路径”的群众基础。

正如李元庆在采访中所说,“机器人赛道本身是非常典型的‘长坡厚雪’状态。”机器人的“ChatGPT 时刻”,或许还需要一个类似 Transformer 的架构突破。但“数据”这个最原始的问题,已经被撬开了一道口子。

受访者介绍:

李元庆 穹明智能总经理、乐享科技联席 CTO

专注具身智能领域,前华为“天才少年”,前华为云具身智能具身规划负责人、ROBO_AGENT 负责人,先后参与芯片、盘古大模型等项目, 36 氪 2026 年度 36 Under 36 榜单入选者,目前带领团队负责核心技术攻关,聚焦家庭具身智能产品研发,推动多机异构技术路线落地。

高圆寺 穹明智能技术探索负责人

郁葱葱 穹明智能品牌与开发者生态负责人

前字节数据平台开源社区运营负责人、前腾讯云开源社区运营专家,在字节期间主导数据平台第一个开源项目:BitSail(数据集成) ,带领团队获得 CSDN 年度开源影响力项目与 InfoQ 杰出开源运营团队。负责构建腾讯云发起的 OpenCloudOS 开源操作系统社区治理框架,联合上下游多家软硬件企业推动社区社区治理架构成搭建与运营。