写点什么

机器人技术永远不会出现“ChatGPT 时刻”

  • 2025-01-13
    北京
  • 本文字数:2217 字

    阅读完需:约 7 分钟

大小:1.09M时长:06:19
机器人技术永远不会出现“ChatGPT时刻”

今年可能是通用机器人技术有史以来最激动人心的一年。我在年初的一篇文章中,大致预测了该领域的发展,以及我认为成立哪类初创公司会有意义。2024 年有一些令人惊叹的进展,在这个背景下重读那篇文章,感觉非常有趣。在这篇文章中,我想再预测一下明年会发生什么。

硬件趋同


预测:到 2025 年底,人型机器人将实现商用。


我的意思是,大多数人型机器人将由大致相同的组件构成,而且任何组织都可以自由地生产这些组件。规模经济将促使现有的企业放弃自己的专有组件,转而生产商用组件。


以下是原因:


  • 基于 RL 的闭环控制(使用通过仿真训练出的策略)已成为实现实时控制的最佳方法 1。

  • 使用 RL 策略控制机器人,意味着你无需关心执行器的大量特性,而这是机器人公司历来关心或试图使自己与众不同的组件。

  • 一旦弄清了如何利用它,大多数仍在观望的公司也将转向开源的 MIT Cheetah 执行器。

  • 规模经济和制造成本意味着其他执行器设计不再具备竞争力。


说明:


  • 虽然硬件组件将趋于一致,但不同机器人的设计仍会存在一些差异。

  • 在机器人设计决策的合理性方面仍然存在一些未决的问题,比如如何安排臀部的自由度,是否在颈部或躯干中加入自由度,以及使用哪种夹持器。

  • 我认为,根据不同的应用场景,不同的机器人仍有充分的理由做出不同的设计决策。


这会有什么影响?


  • 优秀的通用机器人硬件将成为商品。特斯拉、Figure 或 1X 等现有机器人公司都不会获得任何实质性优势。

  • 到 2025 年底,一个好的全尺寸人型机器人的市场价将低于 8000 美元,一个好的家用机器人的市场价将低于 4000 美元。


不会有 ChatGPT 时刻


预测:机器人技术永远不会出现“ChatGPT 时刻”。


我将此定义为,某家公司在一段时间内一直在单独开发一种模型,然后将其发布到某个商用机器人平台上,非常神奇地,使该机器人能够完成通用任务,而且有很高的可靠性。


以下是原因:


  • 训练一个通用机器人模型所需的各种数据的规模远远超过人们目前的认知。

  • 仅仅让一个非常好的语言模型或多模态模型来控制机器人是不够的。要想实现 “ChatGPT 级别”的通用智能,唯一的办法就是收集大量(数百万小时的数量级)的特定智能体数据。

  • 这就需要反复改进。

  • 试图为一个特定的领域构建一个机器人,然后以这些数据为基础来达成通用性。这个策略也是行不通的,因为:π0 模型 证明了我们距离拥有一个优秀的通才智能体 AI 模型还有多远。


说明:


  • 即使没有“ChatGPT 时刻”,2025 年也会出现更好的机器人,而且我们很可能会迈过这样一个门槛,即机器人的成本低于它为大部分人提供的价值,这意味着它们将成为可行的产品。

  • 我们可以迅速接近 ChatGPT 的性能水平,但这会是个渐进的过程,而不是一次性的突破。


这会有什么影响?


  • 一些规模最大、资金最雄厚的企业需要转向,致力于将真正的产品推向市场,或与已经在这样做的企业合作。


消费市场增长


预测:到 2025 年底,美国销售的人型机器人中将有一半以上是面向消费者的。


我所说的“消费者 ”是指购买机器人主要用于个人用途的人,人们会自己尝试使用机器人,但也会有很多与商业用途重叠的情况。


以下是原因:


  • 与前几代机器人相比,通用机器人的效用将截然不同。

  • 起初,通用机器人的“杀手级应用”将是语音和视觉。

  • 早期用户将更关注“仿人”方面,而不是“机器人”方面。

  • 任何固守传统机器人企业客户 SLA(服务水平协议)的组织,最终都会落入过去曾让许多机器人公司深陷其中的陷阱。他们将被迫放弃构建良好的通用模型,转而在自由度超高的平台上重新实现经典控制。


说明:


  • 我认为,除了消费者会采用外,企业也会采用,但大多数真正的企业采用看起来更像是专业消费者,而不是企业,这与传统的机器人采用方式存在明显的不同。

  • 将一类新的消费电子产品推向市场很难。很多人都会为了找到一种办法而浪费大量的资金。


这会有什么影响?


  • 机器人公司需要开始关注品牌、对消费者的广泛吸引力、消费者市场细分以及其他传统上不需要关注的问题。

  • 服务水平协议(SLA)将变得不再重要。机器人公司将开始变得更像硅谷的科技公司,转而关心用户参与度和留存率等问题。


作者简介:

Ben 是 K-Scale Labs 这家公司的创始人兼首席执行官。该公司正在致力于开发通用机器人(GPR),旨在将具身智能引入现实世界。公司将这项技术开源,免费供任何人审核、构建和优化,以适应他们各自的用例。


Ben 曾在特斯拉、Meta、谷歌和亚马逊担任 AI 研究员和工程师。在特斯拉,Ben 负责训练并部署了首个用于输出汽车航点的自回归变压器,这一过程中还涉及重写特斯拉 HW3 ASIC 的神经网络编译器。此外,Ben 还编写了 CUDA 内核,用于生成训练体素占用网络所需的真实数据,该网络后来被改编并应用于 Optimus 机器人。在 Meta,Ben 训练并部署了首个用于内容审核的变压器模型,随后转向了 AI 研究领域。Ben 还共同开发了首批大规模语音基础模型之一(按照 2021 年的标准,拥有十亿个参数已算是相当大的规模),该模型后来被开源社区广泛应用于离线语音克隆和语音生成等众多场景。Ben 也曾短暂涉足机器人语义映射的研究工作。


Ben 在埃默里大学取得了数学和计算机科学的学位,在校期间还在 NIH 资助的培训补助金支持下,深入研究了计算神经科学。该补助金的大部分资金用于在佐治亚理工学院的 Hasler 实验室开展研究,主要探索利用模拟电路进行神经形态计算,也正是在那里,Ben 首次对深度学习产生了浓厚的兴趣。毕业后,Ben 在中国居住了三个月,期间努力练习语言技能,之后便开始了我的职业生涯。


原文链接:


https://ben.bolte.cc/posts/2024-12-23-predictions


声明:本文为 InfoQ 翻译,未经许可禁止转载。


2025-01-13 15:305868

评论 2 条评论

发布
用户头像
会跟缝纫机一样。
2025-01-14 13:52 · 江苏
回复
用户头像
翻译纠错:他

2025-01-13 16:45 · 北京
回复
没有更多了

阿里云严重故障,全线产品受影响(已恢复)

轶天下事

AWS云服务器EC2实例进行操作系统迁移

乌龟哥哥

AWS Amazon EC2

Linux提取RPM包文件

芯动大师

如何在 Python 中执行 MySQL 结果限制和分页查询

小万哥

Python 程序员 软件 后端 开发

阿里云全球大崩溃是意外?盘点那些自称安全的云厂商

轶天下事

CnosDB 狂欢!全面支持 Helm 部署,轻松搞定你的分布式时序数据库!

CnosDB

开源 时序数据库 CnosDB

2.4.0 Milky Way 强势登场!新功能大爆炸,让你High翻全场!

CnosDB

开源 时序数据库 CnosDB

从“浮云”到“冰山”:华为云安全的绝世“五功”

轶天下事

WorkPlus IM即时通讯软件:私有化部署、安全加密、信创适配

BeeWorks

WorkPlus Meet:局域网内部使用的高效视频会议系统

BeeWorks

文心一言 VS 讯飞星火 VS chatgpt (133)-- 算法导论11.2 5题

福大大架构师每日一题

福大大架构师每日一题

华大北斗荣获2023年度卫星导航定位科技进步奖特等奖

江湖老铁

阿里云全球宕机:从阿里云故障看企业IT挑战

轶天下事

阿里云的故障是一次意外还是一次危机?

轶天下事

AI应用新时代的起点,亚马逊云科技加速大模型应用

不叫猫先生

人工智能 大语言模型 Amazon CodeWhisperer

为什么说Kstry是业务架构首选框架

lykan

微服务 后端 并发 规则引擎 流程编排

KK 架构训练营 - Week3

jjn0703

架构

阿里云全球性故障引发技术圈热议,企业IT应急应该怎么办?

轶天下事

低代码观点分享文,邀您来讨论

inBuilder低代码平台

低代码平台

WorkPlus即时通讯app:10分钟快速搭建,支持局域网私有化部署!

BeeWorks

选购护眼台灯,全网都没有说清一个关键点!——照度均匀度

电子信息发烧客

Console LDAP 配置解密

极限实验室

console ldap

机器人技术永远不会出现“ChatGPT时刻”_AI&大模型_Ben_InfoQ精选文章