AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

机器人技术永远不会出现“ChatGPT 时刻”

  • 2025-01-13
    北京
  • 本文字数:2217 字

    阅读完需:约 7 分钟

大小:1.09M时长:06:19
机器人技术永远不会出现“ChatGPT时刻”

今年可能是通用机器人技术有史以来最激动人心的一年。我在年初的一篇文章中,大致预测了该领域的发展,以及我认为成立哪类初创公司会有意义。2024 年有一些令人惊叹的进展,在这个背景下重读那篇文章,感觉非常有趣。在这篇文章中,我想再预测一下明年会发生什么。

硬件趋同


预测:到 2025 年底,人型机器人将实现商用。


我的意思是,大多数人型机器人将由大致相同的组件构成,而且任何组织都可以自由地生产这些组件。规模经济将促使现有的企业放弃自己的专有组件,转而生产商用组件。


以下是原因:


  • 基于 RL 的闭环控制(使用通过仿真训练出的策略)已成为实现实时控制的最佳方法 1。

  • 使用 RL 策略控制机器人,意味着你无需关心执行器的大量特性,而这是机器人公司历来关心或试图使自己与众不同的组件。

  • 一旦弄清了如何利用它,大多数仍在观望的公司也将转向开源的 MIT Cheetah 执行器。

  • 规模经济和制造成本意味着其他执行器设计不再具备竞争力。


说明:


  • 虽然硬件组件将趋于一致,但不同机器人的设计仍会存在一些差异。

  • 在机器人设计决策的合理性方面仍然存在一些未决的问题,比如如何安排臀部的自由度,是否在颈部或躯干中加入自由度,以及使用哪种夹持器。

  • 我认为,根据不同的应用场景,不同的机器人仍有充分的理由做出不同的设计决策。


这会有什么影响?


  • 优秀的通用机器人硬件将成为商品。特斯拉、Figure 或 1X 等现有机器人公司都不会获得任何实质性优势。

  • 到 2025 年底,一个好的全尺寸人型机器人的市场价将低于 8000 美元,一个好的家用机器人的市场价将低于 4000 美元。


不会有 ChatGPT 时刻


预测:机器人技术永远不会出现“ChatGPT 时刻”。


我将此定义为,某家公司在一段时间内一直在单独开发一种模型,然后将其发布到某个商用机器人平台上,非常神奇地,使该机器人能够完成通用任务,而且有很高的可靠性。


以下是原因:


  • 训练一个通用机器人模型所需的各种数据的规模远远超过人们目前的认知。

  • 仅仅让一个非常好的语言模型或多模态模型来控制机器人是不够的。要想实现 “ChatGPT 级别”的通用智能,唯一的办法就是收集大量(数百万小时的数量级)的特定智能体数据。

  • 这就需要反复改进。

  • 试图为一个特定的领域构建一个机器人,然后以这些数据为基础来达成通用性。这个策略也是行不通的,因为:π0 模型 证明了我们距离拥有一个优秀的通才智能体 AI 模型还有多远。


说明:


  • 即使没有“ChatGPT 时刻”,2025 年也会出现更好的机器人,而且我们很可能会迈过这样一个门槛,即机器人的成本低于它为大部分人提供的价值,这意味着它们将成为可行的产品。

  • 我们可以迅速接近 ChatGPT 的性能水平,但这会是个渐进的过程,而不是一次性的突破。


这会有什么影响?


  • 一些规模最大、资金最雄厚的企业需要转向,致力于将真正的产品推向市场,或与已经在这样做的企业合作。


消费市场增长


预测:到 2025 年底,美国销售的人型机器人中将有一半以上是面向消费者的。


我所说的“消费者 ”是指购买机器人主要用于个人用途的人,人们会自己尝试使用机器人,但也会有很多与商业用途重叠的情况。


以下是原因:


  • 与前几代机器人相比,通用机器人的效用将截然不同。

  • 起初,通用机器人的“杀手级应用”将是语音和视觉。

  • 早期用户将更关注“仿人”方面,而不是“机器人”方面。

  • 任何固守传统机器人企业客户 SLA(服务水平协议)的组织,最终都会落入过去曾让许多机器人公司深陷其中的陷阱。他们将被迫放弃构建良好的通用模型,转而在自由度超高的平台上重新实现经典控制。


说明:


  • 我认为,除了消费者会采用外,企业也会采用,但大多数真正的企业采用看起来更像是专业消费者,而不是企业,这与传统的机器人采用方式存在明显的不同。

  • 将一类新的消费电子产品推向市场很难。很多人都会为了找到一种办法而浪费大量的资金。


这会有什么影响?


  • 机器人公司需要开始关注品牌、对消费者的广泛吸引力、消费者市场细分以及其他传统上不需要关注的问题。

  • 服务水平协议(SLA)将变得不再重要。机器人公司将开始变得更像硅谷的科技公司,转而关心用户参与度和留存率等问题。


作者简介:

Ben 是 K-Scale Labs 这家公司的创始人兼首席执行官。该公司正在致力于开发通用机器人(GPR),旨在将具身智能引入现实世界。公司将这项技术开源,免费供任何人审核、构建和优化,以适应他们各自的用例。


Ben 曾在特斯拉、Meta、谷歌和亚马逊担任 AI 研究员和工程师。在特斯拉,Ben 负责训练并部署了首个用于输出汽车航点的自回归变压器,这一过程中还涉及重写特斯拉 HW3 ASIC 的神经网络编译器。此外,Ben 还编写了 CUDA 内核,用于生成训练体素占用网络所需的真实数据,该网络后来被改编并应用于 Optimus 机器人。在 Meta,Ben 训练并部署了首个用于内容审核的变压器模型,随后转向了 AI 研究领域。Ben 还共同开发了首批大规模语音基础模型之一(按照 2021 年的标准,拥有十亿个参数已算是相当大的规模),该模型后来被开源社区广泛应用于离线语音克隆和语音生成等众多场景。Ben 也曾短暂涉足机器人语义映射的研究工作。


Ben 在埃默里大学取得了数学和计算机科学的学位,在校期间还在 NIH 资助的培训补助金支持下,深入研究了计算神经科学。该补助金的大部分资金用于在佐治亚理工学院的 Hasler 实验室开展研究,主要探索利用模拟电路进行神经形态计算,也正是在那里,Ben 首次对深度学习产生了浓厚的兴趣。毕业后,Ben 在中国居住了三个月,期间努力练习语言技能,之后便开始了我的职业生涯。


原文链接:


https://ben.bolte.cc/posts/2024-12-23-predictions


声明:本文为 InfoQ 翻译,未经许可禁止转载。


2025-01-13 15:305647

评论 2 条评论

发布
用户头像
会跟缝纫机一样。
2025-01-14 13:52 · 江苏
回复
用户头像
翻译纠错:他

2025-01-13 16:45 · 北京
回复
没有更多了

Android面试:一个进程有多少个-Context-对象?看似初级的问题

android 程序员 移动开发

Android面试:计算机网络面试知识点系统总结,拔剑金九银十

android 程序员 移动开发

Android:年过35岁的程序员还有出路吗?面试了一个-46-岁程序员后

android 程序员 移动开发

Android:手把手教你实现在XML中配置网易云歌手详情滑动效果

android 程序员 移动开发

关于数据导入,教你几招

Simon

MySQL

Android音视频--H,flutter小程序开发

android 程序员 移动开发

Android高阶:了解这些知识点,学习Binder就不成问题,androidapp开发教程推荐

android 程序员 移动开发

这个深秋,StarRocks喊你一起来撸码 | StarRocks Hacker Meetup 报名开启

StarRocks

数据库 Meetup StarRocks

AsyncTask相关知识,安卓工程师面试题及答案

android 程序员 移动开发

Android高阶:了解这些知识点,学习Binder就不成问题(1)

android 程序员 移动开发

Android:怎么看待大厂面试门槛越来越高,,让你明明白白的使用RecyclerView

android 程序员 移动开发

基线模型开源分享及深度讲解 | 2021 MAXP 直播第二讲:基于DGL的图机器学习任务

亚马逊云科技 (Amazon Web Services)

人工智能 图神经网络 创新大赛

App怎么做才能永不崩溃,一文详解

android 程序员 移动开发

App黑白化实现扩展,一键护眼模式,给App,安卓事件分发机制面试

android 程序员 移动开发

Android面试:计算机网络面试知识点系统总结,拔剑金九银十(1)

android 程序员 移动开发

Android高工面试(难度:四星,2021大厂Android知识点总结

android 程序员 移动开发

APP瘦身大法--AndResGuard的使用(1),为什么阿里的程序员成长如此之快

android 程序员 移动开发

Android面试|任何东西只要够深,都是一把刀!性能优化都没搞好就别想着去找对象了

android 程序员 移动开发

Android高工面试(难度:四星(1),2021Android高级面试题总结

android 程序员 移动开发

Android:让你明明白白的使用RecyclerView—,retrofit优点

android 程序员 移动开发

一个递归调用引发的 “血案”

神策技术社区

App 竟然是这样跑起来的 —— Android App_Activity 启动流程分析

android 程序员 移动开发

Android高级工程师BAT面试题及知识点整理大全(Java基础+Android

android 程序员 移动开发

Android高级面试题大全(持续更新中),字节跳动厂内部超高质量Flutter+Kotlin笔记

android 程序员 移动开发

Android:三四十岁的大龄程序员如何对后辈评价“太水技术低

android 程序员 移动开发

深入剖析Redis客户端Jedis的特性和原理

vivo互联网技术

数据库 redis Jedis 集群

Android题集四大组件之Content provider、BroadcastReceiver

android 程序员 移动开发

Android:金九银十怎么从中小企业挤进一线大厂?大厂面试题问的深度

android 程序员 移动开发

App基于手机壳颜色换肤?先尝试一下用 KMeans 来提取图像中的主色

android 程序员 移动开发

APP瘦身大法--AndResGuard的使用,android地图开发框架

android 程序员 移动开发

Base64 的原理、实现及应用,面试字节跳动Android工程师该怎么准备

android 程序员 移动开发

机器人技术永远不会出现“ChatGPT时刻”_AI&大模型_Ben_InfoQ精选文章