写点什么

谷歌“跑腿”机器人实现远距离导航,成功率提高 2-3 倍

  • 2019-03-01
  • 本文字数:3117 字

    阅读完需:约 10 分钟

谷歌“跑腿”机器人实现远距离导航,成功率提高2-3倍

仅在美国,就有 300 万人因行动障碍而无法走出家门。能够实现自动化远距离导航的服务机器人可以让行动不便的人更加独立,如为他们运送日常用品、药品和包裹等。研究表明,深度强化学习擅长将原始感官输入映射到动作,例如学习抓取物体和机器人运动,但强化学习代理通常缺乏在无人类帮助下对远距离导航所需的安全物理空间的理解,以及适应新空间的能力。


为解决这个问题,谷歌的研究人员发表三篇论文,探讨了将深度强化学习与远距离规划相结合,以实现适应性更强的机器人自治。实验证明,通过自动化强化学习、PRM-RL 等方法,机器人不但导航距离增大,且导航的成功率提高了 2-3 倍。


在最近的三篇论文《使用AutoRL学习端到端导航行为》《PRM-RL:通过结合强化学习和基于采样的规划实现远距离机器人导航任务》,以及《使用PRM-RL进行远距离室内导航”》中,我们通过将深度强化学习与远距离规划相结合来研究适应性更强的机器人自治。我们训练本地规划代理执行基本的导航行为,安全地通过较短距离而不会与移动的障碍物发生碰撞。本地规划代理采用噪声传感器观测,例如测量障碍物距离的一维激光雷达,以及输出机器人控制的线性和角速度。我们使用 AutoRL 训练本地规划代理进行模拟,AutoRL 是一种自动搜索强化学习奖励和神经网络架构的方法。尽管 10 到 15 米的距离范围有限,但是本地规划代理可以很好地迁移到真实机器人和新的环境中。这使我们能够将其用作大范围空间导航的构建块。然后,我们构建了路线图,其中节点是位置,且只有当本地规划代理能够可靠地通过噪声传感器和控制很好地模拟真实机器人时,边缘才能连接节点。

自动化强化学习(AutoRL)

在我们的第一篇论文中,我们在小型的静态环境中训练本地规划代理。然而,使用标准深度强化学习算法(例如深度确定性策略梯度(DDPG))进行训练会带来一些挑战。例如,本地规划代理的真正的目标是达成目标,这代表了稀疏的奖励。在实践中,这需要研究人员花费大量时间来迭代和手动调整奖励。研究人员还需要在不确定最佳实践的情况下对神经网络架构做出决策。最后一点,像 DDPG 这样的算法学习并不稳定,并且经常遭遇灾难性的遗忘。


为了克服这些挑战,我们让深度强化学习训练自动化。AutoRL 是一个深度强化学习演化的自动化层,它使用大规模超参数优化来搜索奖励和神经网络架构。AutoRL 分两个阶段,奖励搜索和神经网络架构搜索。在奖励搜索期间,AutoRL 会同时训练一群 DDPG 代理并迭代,每个代理的奖励函数稍有不同,为实现本地规划代理的真正目标——达到目的而进行优化。在奖励搜索阶段结束时,我们会选择可以最大几率引导代理达成目的的奖励。在神经网络架构搜索阶段,我们重复这个过程,这次我们使用选定的奖励并调整网络层,优化累积奖励。



使用奖励和神经网络架构搜索自动化强化学习。


但是,这个迭代过程意味着 AutoRL 不具有样本效率。训练一个代理需要 500 万个样本;训练 100 个代理迭代 10 次需要 50 亿个样本,这相当于训练 32 年!但这样做的好处是,在 AutoRL 之后,手动训练过程是自动化的,DDPG 不会遭遇灾难性的遗忘。最重要的是,由此产生的政策质量更高——AutoRL 政策对传感器、执行器和本地化噪声具有健壮性,并且可以很好地适用于新环境。在我们的测试环境中,最佳策略比其他导航方法的成功率高 26%。



AutoRL(红色)在之前未看见过的建筑物中进行短距离(最多 10 米)导航的成功率。与手动调节的 DDPG(深红色)、人工势场(浅蓝色)、动态窗口法(蓝色)和行为克隆(绿色)的对比。


虽然这些策略仅执行本地导航,但它们可以对移动的障碍物具有健壮性,且可以很好地迁移到真实机器人,即使在非结构化环境中也是如此。虽然他们只受到静态障碍物模拟训练,却可以有效地处理移动物体。下一步,我们将把 AutoRL 政策与基于抽样的计划相结合,以扩大其覆盖范围并实现远距离导航。

使用 PRM-RL 实现远距离导航

基于抽样的规划代理通过近似机器人运动来进行远距离导航。例如,概率路线图(PRM)样本机器人构成并将它们与可行的过渡连接起来,创建路线图,捕捉机器人在较大空间中的有效运动。在我们的第二篇获得了 ICRA 2018 服务机器人最佳论文的文章中,我们将 PRM 与手动调整的基于强化学习的本地规划代理(不使用 AutoRL)相结合,在本地训练机器人,然后将其迁移到不同的环境。


首先,对于每个机器人,我们在通用模拟训练环境中训练本地规划策略。接下来,我们在部署环境的平面图上构建一个与该策略相关的 PRM,称为 PRM-RL。对于其他我们想要在建筑物中部署的所有机器人,都可以使用相同的平面图。


为了构建 PRM-RL,只有当基于强化学习的本地规划器(它能很好地表示机器人噪声)能够可靠且一致地导航时,我们才连接采样节点。这是通过蒙特卡罗模拟完成的。生成的路线图经调整可适用于所有类型和几何形状的机器人。具有相同几何形状,但传感器和执行器不同的机器人的路线图将具有不同的连接性。由于代理可以在拐角处导航,因此可以包含模糊的节点。而由于传感器噪声,靠近墙壁和障碍物的节点不太可能连接到路线图中。在执行时,强化学习代理在路线图路径上导航。





使用每个随机选择的节点对进行 3 次蒙特卡罗模拟构建的路线图。



最大的地图是 288 米*163 米,包含近 700,000 条边缘,300 名工人用 4 天多时间收集,需要 1​​1 亿次碰撞检测。


第三篇论文对原始 PRM-RL 进行了一些改进。首先,我们用经过 AutoRL 训练的本地规划代理取代手动调整的 DDPG,从而改善远距离导航。其次,增加了机器人在执行时使用的同步定位和映射(SLAM)地图,作为构建路线图的来源。由于 SLAM 地图噪音很大,这​​一变化弥补了“sim2real gap”,这是机器人技术中的一种现象,即模拟训练的代理迁移到真实机器人时性能下降。我们的模拟实验成功率可以达到真实机器人实验相同水平。最后,我们添加了分布式路线图构建,从而产生了包含多达 700,000 个节点的超大规模路线图。


我们使用 AutoRL 代理评估了该方法,使用比训练环境大 200 倍的办公室楼层地图构建路线图,在 20 次试验中成功率至少达到 90%。我们在远超本地规划的距离——100 米内将 PRM-RL 与各种不同方法进行了比较。PRM-RL 的成功率是 baseline 的 2 到 3 倍,因为节点已根据机器人的能力进行了适当的连接。



在几座建筑物中导航超过 100 米的成功率。第一篇论文--AutoRL 仅限本地规划代理(蓝色);原始 PRM(红色);路径引导的人工势场(黄色);第二篇论文(绿色);第三篇论文 - 使用 AutoRL(橙色)的 PRM。


我们在多个真实机器人和真实建筑工地上测试了 PRM-RL。一组测试结果如下所示,除了在非常复杂的区域附近和 SLAM 地图的边缘,机器人的表现都非常好。



机器人实验


## 结论自主机器人导航可以大幅提高行动不便人士的独立性。我们可以通过开发适应性强的机器人自动化来实现这一目标,包括能够使用已有信息在新环境中进行部署的方法。通过AutoRL自动学习基本的短程导航行为,并将学习的策略与SLAM地图结合起来构建路线图,我们实现了这个目标。这些路线图由通过边缘连接的节点组成,机器人可以遍历这些节点。结果显示,经过训练的策略可以适应不同的环境,并且可以生成针对特定机器人定制的路线图。


原文链接:


https://ai.googleblog.com/2019/02/long-range-robotic-navigation-via.html



2019-03-01 16:404828
用户头像

发布了 98 篇内容, 共 66.0 次阅读, 收获喜欢 285 次。

关注

评论

发布
暂无评论
发现更多内容

绝了!学编程的还有不知道的吗?这个Java开发工具免费了

飞算JavaAI开发助手

开发者工具 开发工具 java\ 智能开发

《MySQL——从删库到跑路》阿里架构师分享删库跑路救命策略

java易二三

Java 程序员 计算机

深入浅出java Semaphore

java易二三

程序员 jdk 计算机 科技

第二届广州·琶洲算法大赛报名截止 3300多支队伍将展开激烈角逐

新消费日报

网上正规实体现场同步平台

新百盛娱乐yscy898

Redis Sentinel 初步设计方案

艾瑾行

架构训练营

成为大主播的必懂知识:直播源码推流

山东布谷网络科技

直播推流 直播源码

数智双擎,算融未来”,2023东湖算力与大数据创新大会圆满召开

彭飞

统一门户|WorkPlus整合内部应用,构筑企业统一的智能工作入口

BeeWorks

使用 Spring 实现控制反转和依赖注入

小万哥

Java spring 云原生 后端 SpringCloud

Similarities:精准相似度计算与语义匹配搜索工具包,多维度实现多种算法,覆盖文本、图像等领域,支持文搜、图搜文、图搜图匹配搜索

汀丶人工智能

人工智能 自然语言处理 语义搜索 语义搜索系统 文本匹配

精细解析中文公司名称:智能分词工具助力地名、品牌名、行业词和后缀提取

汀丶人工智能

人工智能 自然语言处理 信息抽取

山东布谷科技直播软件开发WebRTC技术:建立实时通信优质平台

山东布谷科技

软件开发 WebRTC 实时通信 源码搭建 直播软件开发

网上正规实体平台现场同步yscy898

新百盛娱乐yscy898

上线规则 微咨询 Fil币现在进场合适吗? 简单查询

SpringBoot3数据库集成

Java 架构 springboot SpringBoot3

大型模型的重要基石与洞察力之源之文本数据

数据堂

《企业家》杂志封面人物丨王文京:数智化助企业“基因迭代”

用友BIP

网络安全作业

大肚皮狒狒

C++实现一键关闭桌面

芯动大师

局域网与Kubernetes内部网络如何互通

程序员半支烟

k8s

柏睿向量数据库Rapids VectorDB赋能企业级大模型构建及智能应用

新消费日报

Presto 内存参数设置建议

冰心的小屋

presto memory query.max-memory presto 内存

全新 – Amazon EC2 M1 Mac 实例

亚马逊云科技 (Amazon Web Services)

Amazon EC2

java8 通过反射执行接口的default方法

java易二三

Java 程序员 计算机

谷歌“跑腿”机器人实现远距离导航,成功率提高2-3倍_AI&大模型_Google AI_InfoQ精选文章