写点什么

谷歌“跑腿”机器人实现远距离导航,成功率提高 2-3 倍

  • 2019-03-01
  • 本文字数:3117 字

    阅读完需:约 10 分钟

谷歌“跑腿”机器人实现远距离导航,成功率提高2-3倍

仅在美国,就有 300 万人因行动障碍而无法走出家门。能够实现自动化远距离导航的服务机器人可以让行动不便的人更加独立,如为他们运送日常用品、药品和包裹等。研究表明,深度强化学习擅长将原始感官输入映射到动作,例如学习抓取物体和机器人运动,但强化学习代理通常缺乏在无人类帮助下对远距离导航所需的安全物理空间的理解,以及适应新空间的能力。


为解决这个问题,谷歌的研究人员发表三篇论文,探讨了将深度强化学习与远距离规划相结合,以实现适应性更强的机器人自治。实验证明,通过自动化强化学习、PRM-RL 等方法,机器人不但导航距离增大,且导航的成功率提高了 2-3 倍。


在最近的三篇论文《使用AutoRL学习端到端导航行为》《PRM-RL:通过结合强化学习和基于采样的规划实现远距离机器人导航任务》,以及《使用PRM-RL进行远距离室内导航”》中,我们通过将深度强化学习与远距离规划相结合来研究适应性更强的机器人自治。我们训练本地规划代理执行基本的导航行为,安全地通过较短距离而不会与移动的障碍物发生碰撞。本地规划代理采用噪声传感器观测,例如测量障碍物距离的一维激光雷达,以及输出机器人控制的线性和角速度。我们使用 AutoRL 训练本地规划代理进行模拟,AutoRL 是一种自动搜索强化学习奖励和神经网络架构的方法。尽管 10 到 15 米的距离范围有限,但是本地规划代理可以很好地迁移到真实机器人和新的环境中。这使我们能够将其用作大范围空间导航的构建块。然后,我们构建了路线图,其中节点是位置,且只有当本地规划代理能够可靠地通过噪声传感器和控制很好地模拟真实机器人时,边缘才能连接节点。

自动化强化学习(AutoRL)

在我们的第一篇论文中,我们在小型的静态环境中训练本地规划代理。然而,使用标准深度强化学习算法(例如深度确定性策略梯度(DDPG))进行训练会带来一些挑战。例如,本地规划代理的真正的目标是达成目标,这代表了稀疏的奖励。在实践中,这需要研究人员花费大量时间来迭代和手动调整奖励。研究人员还需要在不确定最佳实践的情况下对神经网络架构做出决策。最后一点,像 DDPG 这样的算法学习并不稳定,并且经常遭遇灾难性的遗忘。


为了克服这些挑战,我们让深度强化学习训练自动化。AutoRL 是一个深度强化学习演化的自动化层,它使用大规模超参数优化来搜索奖励和神经网络架构。AutoRL 分两个阶段,奖励搜索和神经网络架构搜索。在奖励搜索期间,AutoRL 会同时训练一群 DDPG 代理并迭代,每个代理的奖励函数稍有不同,为实现本地规划代理的真正目标——达到目的而进行优化。在奖励搜索阶段结束时,我们会选择可以最大几率引导代理达成目的的奖励。在神经网络架构搜索阶段,我们重复这个过程,这次我们使用选定的奖励并调整网络层,优化累积奖励。



使用奖励和神经网络架构搜索自动化强化学习。


但是,这个迭代过程意味着 AutoRL 不具有样本效率。训练一个代理需要 500 万个样本;训练 100 个代理迭代 10 次需要 50 亿个样本,这相当于训练 32 年!但这样做的好处是,在 AutoRL 之后,手动训练过程是自动化的,DDPG 不会遭遇灾难性的遗忘。最重要的是,由此产生的政策质量更高——AutoRL 政策对传感器、执行器和本地化噪声具有健壮性,并且可以很好地适用于新环境。在我们的测试环境中,最佳策略比其他导航方法的成功率高 26%。



AutoRL(红色)在之前未看见过的建筑物中进行短距离(最多 10 米)导航的成功率。与手动调节的 DDPG(深红色)、人工势场(浅蓝色)、动态窗口法(蓝色)和行为克隆(绿色)的对比。


虽然这些策略仅执行本地导航,但它们可以对移动的障碍物具有健壮性,且可以很好地迁移到真实机器人,即使在非结构化环境中也是如此。虽然他们只受到静态障碍物模拟训练,却可以有效地处理移动物体。下一步,我们将把 AutoRL 政策与基于抽样的计划相结合,以扩大其覆盖范围并实现远距离导航。

使用 PRM-RL 实现远距离导航

基于抽样的规划代理通过近似机器人运动来进行远距离导航。例如,概率路线图(PRM)样本机器人构成并将它们与可行的过渡连接起来,创建路线图,捕捉机器人在较大空间中的有效运动。在我们的第二篇获得了 ICRA 2018 服务机器人最佳论文的文章中,我们将 PRM 与手动调整的基于强化学习的本地规划代理(不使用 AutoRL)相结合,在本地训练机器人,然后将其迁移到不同的环境。


首先,对于每个机器人,我们在通用模拟训练环境中训练本地规划策略。接下来,我们在部署环境的平面图上构建一个与该策略相关的 PRM,称为 PRM-RL。对于其他我们想要在建筑物中部署的所有机器人,都可以使用相同的平面图。


为了构建 PRM-RL,只有当基于强化学习的本地规划器(它能很好地表示机器人噪声)能够可靠且一致地导航时,我们才连接采样节点。这是通过蒙特卡罗模拟完成的。生成的路线图经调整可适用于所有类型和几何形状的机器人。具有相同几何形状,但传感器和执行器不同的机器人的路线图将具有不同的连接性。由于代理可以在拐角处导航,因此可以包含模糊的节点。而由于传感器噪声,靠近墙壁和障碍物的节点不太可能连接到路线图中。在执行时,强化学习代理在路线图路径上导航。





使用每个随机选择的节点对进行 3 次蒙特卡罗模拟构建的路线图。



最大的地图是 288 米*163 米,包含近 700,000 条边缘,300 名工人用 4 天多时间收集,需要 1​​1 亿次碰撞检测。


第三篇论文对原始 PRM-RL 进行了一些改进。首先,我们用经过 AutoRL 训练的本地规划代理取代手动调整的 DDPG,从而改善远距离导航。其次,增加了机器人在执行时使用的同步定位和映射(SLAM)地图,作为构建路线图的来源。由于 SLAM 地图噪音很大,这​​一变化弥补了“sim2real gap”,这是机器人技术中的一种现象,即模拟训练的代理迁移到真实机器人时性能下降。我们的模拟实验成功率可以达到真实机器人实验相同水平。最后,我们添加了分布式路线图构建,从而产生了包含多达 700,000 个节点的超大规模路线图。


我们使用 AutoRL 代理评估了该方法,使用比训练环境大 200 倍的办公室楼层地图构建路线图,在 20 次试验中成功率至少达到 90%。我们在远超本地规划的距离——100 米内将 PRM-RL 与各种不同方法进行了比较。PRM-RL 的成功率是 baseline 的 2 到 3 倍,因为节点已根据机器人的能力进行了适当的连接。



在几座建筑物中导航超过 100 米的成功率。第一篇论文--AutoRL 仅限本地规划代理(蓝色);原始 PRM(红色);路径引导的人工势场(黄色);第二篇论文(绿色);第三篇论文 - 使用 AutoRL(橙色)的 PRM。


我们在多个真实机器人和真实建筑工地上测试了 PRM-RL。一组测试结果如下所示,除了在非常复杂的区域附近和 SLAM 地图的边缘,机器人的表现都非常好。



机器人实验


## 结论自主机器人导航可以大幅提高行动不便人士的独立性。我们可以通过开发适应性强的机器人自动化来实现这一目标,包括能够使用已有信息在新环境中进行部署的方法。通过AutoRL自动学习基本的短程导航行为,并将学习的策略与SLAM地图结合起来构建路线图,我们实现了这个目标。这些路线图由通过边缘连接的节点组成,机器人可以遍历这些节点。结果显示,经过训练的策略可以适应不同的环境,并且可以生成针对特定机器人定制的路线图。


原文链接:


https://ai.googleblog.com/2019/02/long-range-robotic-navigation-via.html



2019-03-01 16:404923
用户头像

发布了 98 篇内容, 共 67.0 次阅读, 收获喜欢 285 次。

关注

评论

发布
暂无评论
发现更多内容

DAO社区的胜利,Tiger DAO VC胜在治理与共识

小哈区块

关于缓存更新的一些可借鉴套路

架构精进之路

缓存 4月日更 4月月更

linux之fping命令

入门小站

Linux

现在企业开发哪种APP有前景?

源字节1号

微信小程序 软件开发 前端开发 后端开发

SOFARegistry 源码|数据分片之核心-路由表 SlotTable 剖析

SOFAStack

GitHub 开源 程序员 开发者 源码解析

浅析分布式系统之体系结构 技术基本目标----一致性(单对象、单操作)

snlfsnef

分布式 系统设计 基本原则 一致性 设计思想

在线YAML转HTML工具

入门小站

工具

面对裁员潮,程序员如何安身立命

融云 RongCloud

融云首席科学家任杰:互联网兵无常势,但总有人正年轻

融云 RongCloud

基于DDD思想的技术架构战略调整

Qunar技术沙龙

DDD 构架

未来几年如何把握住音视频开发的大浪潮,音视频高级开发工程师培养计划

赖猫

音视频 编程开发 音视频开发

在线CSV转XML/JSON工具

入门小站

工具

模块三-学生系统详细架构设计

ASCE

DAO社区的胜利,Tiger DAO VC胜在治理与共识

西柚子

外包学生管理系统--架构详细设计方案

凯博无线

怒肝 JavaScript 数据结构 — 队列篇

杨成功

数据结构 4月月更

架构实战营作业三

热猫

极致体验,揭秘抖音背后的音视频技术

火山引擎边缘云

音视频 边缘计算 音视频技术

学生管理系统架构文档

小虾米

架构实战营

云原生新时代弄潮儿k8s凭什么在容器化方面独树一帜?

囧么肥事

Kubernetes 容器 k8s 容器服务 Kubernetes 集群

残酷春天里的中国科技(四):跨越地方保护主义

脑极体

利用 Dio 完成数据更新的 Patch 请求

岛上码农

flutter 安卓开发 4月月更 跨平台开发 ios 开发

不要把公司对你的要求作为目标

张泽豪

职场 观点

趁着同事玩游戏偷偷认识k8s一家子补补课

囧么肥事

Kubernetes 容器 云原生 k8s Kubernetes 集群

怒肝 JavaScript 数据结构 — 双端队列篇

杨成功

数据结构 4月月更

[Day20]-[动态规划]零钱兑换 II

方勇(gopher)

LeetCode 动态规划 数据结构算法

zip格式的文件怎么打开?

InfoQ IT百科

【漏洞分析】jdk9+Spring及其衍生框架

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 漏洞挖掘

怒肝 JavaScript 数据结构 — 队列实战篇

杨成功

数据结构 4月月更

融云互联网通信安全系列之端到端加密技术

融云 RongCloud

appdata是什么文件夹?

InfoQ IT百科

谷歌“跑腿”机器人实现远距离导航,成功率提高2-3倍_AI&大模型_Google AI_InfoQ精选文章