NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

谷歌“跑腿”机器人实现远距离导航,成功率提高 2-3 倍

  • 2019-03-01
  • 本文字数:3117 字

    阅读完需:约 10 分钟

谷歌“跑腿”机器人实现远距离导航,成功率提高2-3倍

仅在美国,就有 300 万人因行动障碍而无法走出家门。能够实现自动化远距离导航的服务机器人可以让行动不便的人更加独立,如为他们运送日常用品、药品和包裹等。研究表明,深度强化学习擅长将原始感官输入映射到动作,例如学习抓取物体和机器人运动,但强化学习代理通常缺乏在无人类帮助下对远距离导航所需的安全物理空间的理解,以及适应新空间的能力。


为解决这个问题,谷歌的研究人员发表三篇论文,探讨了将深度强化学习与远距离规划相结合,以实现适应性更强的机器人自治。实验证明,通过自动化强化学习、PRM-RL 等方法,机器人不但导航距离增大,且导航的成功率提高了 2-3 倍。


在最近的三篇论文《使用AutoRL学习端到端导航行为》《PRM-RL:通过结合强化学习和基于采样的规划实现远距离机器人导航任务》,以及《使用PRM-RL进行远距离室内导航”》中,我们通过将深度强化学习与远距离规划相结合来研究适应性更强的机器人自治。我们训练本地规划代理执行基本的导航行为,安全地通过较短距离而不会与移动的障碍物发生碰撞。本地规划代理采用噪声传感器观测,例如测量障碍物距离的一维激光雷达,以及输出机器人控制的线性和角速度。我们使用 AutoRL 训练本地规划代理进行模拟,AutoRL 是一种自动搜索强化学习奖励和神经网络架构的方法。尽管 10 到 15 米的距离范围有限,但是本地规划代理可以很好地迁移到真实机器人和新的环境中。这使我们能够将其用作大范围空间导航的构建块。然后,我们构建了路线图,其中节点是位置,且只有当本地规划代理能够可靠地通过噪声传感器和控制很好地模拟真实机器人时,边缘才能连接节点。

自动化强化学习(AutoRL)

在我们的第一篇论文中,我们在小型的静态环境中训练本地规划代理。然而,使用标准深度强化学习算法(例如深度确定性策略梯度(DDPG))进行训练会带来一些挑战。例如,本地规划代理的真正的目标是达成目标,这代表了稀疏的奖励。在实践中,这需要研究人员花费大量时间来迭代和手动调整奖励。研究人员还需要在不确定最佳实践的情况下对神经网络架构做出决策。最后一点,像 DDPG 这样的算法学习并不稳定,并且经常遭遇灾难性的遗忘。


为了克服这些挑战,我们让深度强化学习训练自动化。AutoRL 是一个深度强化学习演化的自动化层,它使用大规模超参数优化来搜索奖励和神经网络架构。AutoRL 分两个阶段,奖励搜索和神经网络架构搜索。在奖励搜索期间,AutoRL 会同时训练一群 DDPG 代理并迭代,每个代理的奖励函数稍有不同,为实现本地规划代理的真正目标——达到目的而进行优化。在奖励搜索阶段结束时,我们会选择可以最大几率引导代理达成目的的奖励。在神经网络架构搜索阶段,我们重复这个过程,这次我们使用选定的奖励并调整网络层,优化累积奖励。



使用奖励和神经网络架构搜索自动化强化学习。


但是,这个迭代过程意味着 AutoRL 不具有样本效率。训练一个代理需要 500 万个样本;训练 100 个代理迭代 10 次需要 50 亿个样本,这相当于训练 32 年!但这样做的好处是,在 AutoRL 之后,手动训练过程是自动化的,DDPG 不会遭遇灾难性的遗忘。最重要的是,由此产生的政策质量更高——AutoRL 政策对传感器、执行器和本地化噪声具有健壮性,并且可以很好地适用于新环境。在我们的测试环境中,最佳策略比其他导航方法的成功率高 26%。



AutoRL(红色)在之前未看见过的建筑物中进行短距离(最多 10 米)导航的成功率。与手动调节的 DDPG(深红色)、人工势场(浅蓝色)、动态窗口法(蓝色)和行为克隆(绿色)的对比。


虽然这些策略仅执行本地导航,但它们可以对移动的障碍物具有健壮性,且可以很好地迁移到真实机器人,即使在非结构化环境中也是如此。虽然他们只受到静态障碍物模拟训练,却可以有效地处理移动物体。下一步,我们将把 AutoRL 政策与基于抽样的计划相结合,以扩大其覆盖范围并实现远距离导航。

使用 PRM-RL 实现远距离导航

基于抽样的规划代理通过近似机器人运动来进行远距离导航。例如,概率路线图(PRM)样本机器人构成并将它们与可行的过渡连接起来,创建路线图,捕捉机器人在较大空间中的有效运动。在我们的第二篇获得了 ICRA 2018 服务机器人最佳论文的文章中,我们将 PRM 与手动调整的基于强化学习的本地规划代理(不使用 AutoRL)相结合,在本地训练机器人,然后将其迁移到不同的环境。


首先,对于每个机器人,我们在通用模拟训练环境中训练本地规划策略。接下来,我们在部署环境的平面图上构建一个与该策略相关的 PRM,称为 PRM-RL。对于其他我们想要在建筑物中部署的所有机器人,都可以使用相同的平面图。


为了构建 PRM-RL,只有当基于强化学习的本地规划器(它能很好地表示机器人噪声)能够可靠且一致地导航时,我们才连接采样节点。这是通过蒙特卡罗模拟完成的。生成的路线图经调整可适用于所有类型和几何形状的机器人。具有相同几何形状,但传感器和执行器不同的机器人的路线图将具有不同的连接性。由于代理可以在拐角处导航,因此可以包含模糊的节点。而由于传感器噪声,靠近墙壁和障碍物的节点不太可能连接到路线图中。在执行时,强化学习代理在路线图路径上导航。





使用每个随机选择的节点对进行 3 次蒙特卡罗模拟构建的路线图。



最大的地图是 288 米*163 米,包含近 700,000 条边缘,300 名工人用 4 天多时间收集,需要 1​​1 亿次碰撞检测。


第三篇论文对原始 PRM-RL 进行了一些改进。首先,我们用经过 AutoRL 训练的本地规划代理取代手动调整的 DDPG,从而改善远距离导航。其次,增加了机器人在执行时使用的同步定位和映射(SLAM)地图,作为构建路线图的来源。由于 SLAM 地图噪音很大,这​​一变化弥补了“sim2real gap”,这是机器人技术中的一种现象,即模拟训练的代理迁移到真实机器人时性能下降。我们的模拟实验成功率可以达到真实机器人实验相同水平。最后,我们添加了分布式路线图构建,从而产生了包含多达 700,000 个节点的超大规模路线图。


我们使用 AutoRL 代理评估了该方法,使用比训练环境大 200 倍的办公室楼层地图构建路线图,在 20 次试验中成功率至少达到 90%。我们在远超本地规划的距离——100 米内将 PRM-RL 与各种不同方法进行了比较。PRM-RL 的成功率是 baseline 的 2 到 3 倍,因为节点已根据机器人的能力进行了适当的连接。



在几座建筑物中导航超过 100 米的成功率。第一篇论文--AutoRL 仅限本地规划代理(蓝色);原始 PRM(红色);路径引导的人工势场(黄色);第二篇论文(绿色);第三篇论文 - 使用 AutoRL(橙色)的 PRM。


我们在多个真实机器人和真实建筑工地上测试了 PRM-RL。一组测试结果如下所示,除了在非常复杂的区域附近和 SLAM 地图的边缘,机器人的表现都非常好。



机器人实验


## 结论自主机器人导航可以大幅提高行动不便人士的独立性。我们可以通过开发适应性强的机器人自动化来实现这一目标,包括能够使用已有信息在新环境中进行部署的方法。通过AutoRL自动学习基本的短程导航行为,并将学习的策略与SLAM地图结合起来构建路线图,我们实现了这个目标。这些路线图由通过边缘连接的节点组成,机器人可以遍历这些节点。结果显示,经过训练的策略可以适应不同的环境,并且可以生成针对特定机器人定制的路线图。


原文链接:


https://ai.googleblog.com/2019/02/long-range-robotic-navigation-via.html



公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-03-01 16:404576
用户头像

发布了 98 篇内容, 共 62.6 次阅读, 收获喜欢 285 次。

关注

评论

发布
暂无评论
发现更多内容

500行代码手写docker开篇-goland远程编译环境配置

蓝胖子的编程梦

Docker 容器 云原生 k8s 命名空间

【5.12-5.19】写作社区优秀技术博文一览

InfoQ写作社区官方

热门活动 优质创作周报

【实践篇】教你玩转JWT认证---从一个优惠券聊起 | 京东云技术团队

京东科技开发者

分布式 JWT 企业号 5 月 PK 榜

RocketMQ你不得不了解的 Rebalance机制源码分析

Java你猿哥

Java 源码 RocketMQ ssm client

全靠这份阿里大佬的“Java进阶面试手册”收获蚂蚁offer

Java你猿哥

Java kafka Spring Boot Netty java面试

为什么 GPU 更适用于时域算法,而 CPU 更适用于频域算法?

思茂信息

gpu cpu 计算机 电脑 电脑硬件

深入浅出 OkHttp 源码解析及应用实践

vivo互联网技术

okhttp 拦截器 源代码

Photoshop 2023 如何切换语言?

Rose

Photoshop 2023下载 如何切换PS语言 PS 2023破解

【GPT-4理论篇-1】GPT-4核心技术探秘 | 京东云技术团队

京东科技开发者

人工智能 openai GPT-4 企业号 5 月 PK 榜

LED显示屏技术升级方向介绍

Dylan

技术 升级 LED显示屏

Java面试题1000+附答案大全(合适各级Java开发人员)

采菊东篱下

Java

用好kafka,你不得不知的那些工具

JAVA旭阳

Java kafka

龙蜥开发者说:构建软件包?不,是构建开源每一个角落!| 第 20 期

OpenAnolis小助手

开源 操作系统 龙蜥社区 开发者说 优秀贡献奖

VM虚拟机 v13.0.2激活版 for Mac许可秘钥

Rose

VMware Fusion Pro 13 VM虚拟机破解版 Mac虚拟机 VMware Fusion激活秘钥

苹果系统更新:MacOS 11-13.x(PKG系统安装包及IPSW固件)

Rose

mac系统 macOS 13 Ventura 苹果最新系统 苹果系统下载

什么是研发 Lead Time?我悟了!

LigaAI

DevOps 敏捷开发 研发速率 研发效能管理 企业号 5 月 PK 榜

阿里云AnalyticDB(ADB) + LLM:构建AIGC时代下企业专属ChatBot

科技热闻

原型设计Axure RP 9中文授权码【Mac/win】

Rose

Axure RP 9汉化 Axure RP 9授权码 产品原型设计工具 axure rp9下载 axure rp9安装教程

MobTech 秒验|助力预热618

MobTech袤博科技

2023年互联网大厂高频Java面试题(附答案)整理总结

架构师之道

Java 面试

「聊天机器人构建、智能文档问答」大模型应用开发实操课程来了

飞桨PaddlePaddle

AIGC Prompt

完整版来了!阿里Dubbo技术负责人准备的源码教程,很有大厂风格

Java你猿哥

Java 架构 dubbo ssm

DevEco Studio 3.1 Release | 动态共享包开发,编译更快,包更小

HarmonyOS开发者

HarmonyOS

为世界第一大癌症高效研发首创新药,AI大模型助力药物研发叩开未来之门

飞桨PaddlePaddle

百度飞桨

上海丨阿里云 Serverless 技术实战营邀你来玩!

Serverless Devs

阿里云 Serverless 中间件

如何进行测试分析与设计-HTSM启发式测试策略模型 | 京东云技术团队

京东科技开发者

测试 测试策略 企业号 5 月 PK 榜 HTSM

常用的表格检测识别方法 - 表格区域检测方法(下)

合合技术团队

人工智能 文字识别 表格识别 表格检测

IDO&IEO盘点,包括PoseiSwap等即将面向市场的潜力打新活动

西柚子

上线半天下载量破100W!美团大佬的Java性能调优实战手册,超详细

Java你猿哥

Java JVM 多线程 ssm 性能调优

速下载!交通业数据安全政策汇编发布

极盾科技

数据安全

Java性能分析工具JProfiler注册码下载

Rose

JProfiler激活码 JProfiler Mac永久激活版 Java 分析器 JProfiler中文版 JProfiler下载

谷歌“跑腿”机器人实现远距离导航,成功率提高2-3倍_AI&大模型_Google AI_InfoQ精选文章