AICon 深圳站聚焦 Agent 技术、应用与生态,大咖分享实战干货 了解详情
写点什么

谷歌“跑腿”机器人实现远距离导航,成功率提高 2-3 倍

  • 2019-03-01
  • 本文字数:3117 字

    阅读完需:约 10 分钟

谷歌“跑腿”机器人实现远距离导航,成功率提高2-3倍

仅在美国,就有 300 万人因行动障碍而无法走出家门。能够实现自动化远距离导航的服务机器人可以让行动不便的人更加独立,如为他们运送日常用品、药品和包裹等。研究表明,深度强化学习擅长将原始感官输入映射到动作,例如学习抓取物体和机器人运动,但强化学习代理通常缺乏在无人类帮助下对远距离导航所需的安全物理空间的理解,以及适应新空间的能力。


为解决这个问题,谷歌的研究人员发表三篇论文,探讨了将深度强化学习与远距离规划相结合,以实现适应性更强的机器人自治。实验证明,通过自动化强化学习、PRM-RL 等方法,机器人不但导航距离增大,且导航的成功率提高了 2-3 倍。


在最近的三篇论文《使用AutoRL学习端到端导航行为》《PRM-RL:通过结合强化学习和基于采样的规划实现远距离机器人导航任务》,以及《使用PRM-RL进行远距离室内导航”》中,我们通过将深度强化学习与远距离规划相结合来研究适应性更强的机器人自治。我们训练本地规划代理执行基本的导航行为,安全地通过较短距离而不会与移动的障碍物发生碰撞。本地规划代理采用噪声传感器观测,例如测量障碍物距离的一维激光雷达,以及输出机器人控制的线性和角速度。我们使用 AutoRL 训练本地规划代理进行模拟,AutoRL 是一种自动搜索强化学习奖励和神经网络架构的方法。尽管 10 到 15 米的距离范围有限,但是本地规划代理可以很好地迁移到真实机器人和新的环境中。这使我们能够将其用作大范围空间导航的构建块。然后,我们构建了路线图,其中节点是位置,且只有当本地规划代理能够可靠地通过噪声传感器和控制很好地模拟真实机器人时,边缘才能连接节点。

自动化强化学习(AutoRL)

在我们的第一篇论文中,我们在小型的静态环境中训练本地规划代理。然而,使用标准深度强化学习算法(例如深度确定性策略梯度(DDPG))进行训练会带来一些挑战。例如,本地规划代理的真正的目标是达成目标,这代表了稀疏的奖励。在实践中,这需要研究人员花费大量时间来迭代和手动调整奖励。研究人员还需要在不确定最佳实践的情况下对神经网络架构做出决策。最后一点,像 DDPG 这样的算法学习并不稳定,并且经常遭遇灾难性的遗忘。


为了克服这些挑战,我们让深度强化学习训练自动化。AutoRL 是一个深度强化学习演化的自动化层,它使用大规模超参数优化来搜索奖励和神经网络架构。AutoRL 分两个阶段,奖励搜索和神经网络架构搜索。在奖励搜索期间,AutoRL 会同时训练一群 DDPG 代理并迭代,每个代理的奖励函数稍有不同,为实现本地规划代理的真正目标——达到目的而进行优化。在奖励搜索阶段结束时,我们会选择可以最大几率引导代理达成目的的奖励。在神经网络架构搜索阶段,我们重复这个过程,这次我们使用选定的奖励并调整网络层,优化累积奖励。



使用奖励和神经网络架构搜索自动化强化学习。


但是,这个迭代过程意味着 AutoRL 不具有样本效率。训练一个代理需要 500 万个样本;训练 100 个代理迭代 10 次需要 50 亿个样本,这相当于训练 32 年!但这样做的好处是,在 AutoRL 之后,手动训练过程是自动化的,DDPG 不会遭遇灾难性的遗忘。最重要的是,由此产生的政策质量更高——AutoRL 政策对传感器、执行器和本地化噪声具有健壮性,并且可以很好地适用于新环境。在我们的测试环境中,最佳策略比其他导航方法的成功率高 26%。



AutoRL(红色)在之前未看见过的建筑物中进行短距离(最多 10 米)导航的成功率。与手动调节的 DDPG(深红色)、人工势场(浅蓝色)、动态窗口法(蓝色)和行为克隆(绿色)的对比。


虽然这些策略仅执行本地导航,但它们可以对移动的障碍物具有健壮性,且可以很好地迁移到真实机器人,即使在非结构化环境中也是如此。虽然他们只受到静态障碍物模拟训练,却可以有效地处理移动物体。下一步,我们将把 AutoRL 政策与基于抽样的计划相结合,以扩大其覆盖范围并实现远距离导航。

使用 PRM-RL 实现远距离导航

基于抽样的规划代理通过近似机器人运动来进行远距离导航。例如,概率路线图(PRM)样本机器人构成并将它们与可行的过渡连接起来,创建路线图,捕捉机器人在较大空间中的有效运动。在我们的第二篇获得了 ICRA 2018 服务机器人最佳论文的文章中,我们将 PRM 与手动调整的基于强化学习的本地规划代理(不使用 AutoRL)相结合,在本地训练机器人,然后将其迁移到不同的环境。


首先,对于每个机器人,我们在通用模拟训练环境中训练本地规划策略。接下来,我们在部署环境的平面图上构建一个与该策略相关的 PRM,称为 PRM-RL。对于其他我们想要在建筑物中部署的所有机器人,都可以使用相同的平面图。


为了构建 PRM-RL,只有当基于强化学习的本地规划器(它能很好地表示机器人噪声)能够可靠且一致地导航时,我们才连接采样节点。这是通过蒙特卡罗模拟完成的。生成的路线图经调整可适用于所有类型和几何形状的机器人。具有相同几何形状,但传感器和执行器不同的机器人的路线图将具有不同的连接性。由于代理可以在拐角处导航,因此可以包含模糊的节点。而由于传感器噪声,靠近墙壁和障碍物的节点不太可能连接到路线图中。在执行时,强化学习代理在路线图路径上导航。





使用每个随机选择的节点对进行 3 次蒙特卡罗模拟构建的路线图。



最大的地图是 288 米*163 米,包含近 700,000 条边缘,300 名工人用 4 天多时间收集,需要 1​​1 亿次碰撞检测。


第三篇论文对原始 PRM-RL 进行了一些改进。首先,我们用经过 AutoRL 训练的本地规划代理取代手动调整的 DDPG,从而改善远距离导航。其次,增加了机器人在执行时使用的同步定位和映射(SLAM)地图,作为构建路线图的来源。由于 SLAM 地图噪音很大,这​​一变化弥补了“sim2real gap”,这是机器人技术中的一种现象,即模拟训练的代理迁移到真实机器人时性能下降。我们的模拟实验成功率可以达到真实机器人实验相同水平。最后,我们添加了分布式路线图构建,从而产生了包含多达 700,000 个节点的超大规模路线图。


我们使用 AutoRL 代理评估了该方法,使用比训练环境大 200 倍的办公室楼层地图构建路线图,在 20 次试验中成功率至少达到 90%。我们在远超本地规划的距离——100 米内将 PRM-RL 与各种不同方法进行了比较。PRM-RL 的成功率是 baseline 的 2 到 3 倍,因为节点已根据机器人的能力进行了适当的连接。



在几座建筑物中导航超过 100 米的成功率。第一篇论文--AutoRL 仅限本地规划代理(蓝色);原始 PRM(红色);路径引导的人工势场(黄色);第二篇论文(绿色);第三篇论文 - 使用 AutoRL(橙色)的 PRM。


我们在多个真实机器人和真实建筑工地上测试了 PRM-RL。一组测试结果如下所示,除了在非常复杂的区域附近和 SLAM 地图的边缘,机器人的表现都非常好。



机器人实验


## 结论自主机器人导航可以大幅提高行动不便人士的独立性。我们可以通过开发适应性强的机器人自动化来实现这一目标,包括能够使用已有信息在新环境中进行部署的方法。通过AutoRL自动学习基本的短程导航行为,并将学习的策略与SLAM地图结合起来构建路线图,我们实现了这个目标。这些路线图由通过边缘连接的节点组成,机器人可以遍历这些节点。结果显示,经过训练的策略可以适应不同的环境,并且可以生成针对特定机器人定制的路线图。


原文链接:


https://ai.googleblog.com/2019/02/long-range-robotic-navigation-via.html



2019-03-01 16:404866
用户头像

发布了 98 篇内容, 共 66.5 次阅读, 收获喜欢 285 次。

关注

评论

发布
暂无评论
发现更多内容

私有化部署chatGPT,告别网络困扰

南城FE

人工智能 前端 ChatGPT

澜舟科技周明:进入AI 2.0不代表一定要抛弃1.0的技术

澜舟孟子开源社区

AIGC 澜舟科技 ChatGPT

AF_XDP技术简介

天翼云开发者社区

“易+”开源 | 基于 ijkplayer 的 LLS-Player 移动端应用实践

网易云信

开源 实时音视频 低延时直播

最新版本 Stable Diffusion 开源 AI 绘画工具之汉化篇

江户川码农

本地化 汉化教程 AI绘画 Stable Diffusion Chinese

共铸国云繁荣生态!天翼云华东中心生态合作大会圆满举行

天翼云开发者社区

设计原则 — I 接口隔离原则

Lemoon Can

接口隔离原则 设计原则

AI的道德风险验证

陈磊@Criss

“易+”开源 | 基于 ijkplayer 的 LLS-Player 移动端应用实践

网易智企

开源 实时音视频 低延时直播

共铸国云智领未来| “云游”华夏?山西美景正当时!

天翼云开发者社区

小白线下学习前端培训怎么样

小谷哥

直播回顾 | 点击率提升400%,Ta是怎么做到的?

HarmonyOS SDK

HMS Core

RocketMQ x OpenTelemetry 分布式全链路追踪最佳实践

阿里巴巴云原生

阿里云 RocketMQ 云原生

【4月1日 上海站】融云社交泛娱乐出海赋能会,干货、礼品在等你!

融云 RongCloud

互联网 融云 泛娱乐 出海 通讯

智慧公厕系统:提高管理效率与用户体验的创新解决方案

光明源智慧厕所

智慧城市 智慧物业 智慧屏 智慧机场

智慧公厕:现代科技与城市卫生的完美结合

光明源智慧厕所

智慧城市 智慧物业 智慧机场

从制作九转大肠来谈起 | GreptimeDB 如何提高多步操作的容错能力

Greptime 格睿科技

数据库 云原生 时序数据库 procedure

「行业化」会是ToB巨头们的新战场吗?

ToB行业头条

如何轻松应对偶发异常

阿里巴巴云原生

阿里云 微服务 云原生

五分钟!获得轻量级的云原生应用控制平面

阿里巴巴云原生

阿里云 开源 云原生 KubeVela

Excel 进阶|只会 Excel 也能轻松搭建指标应用啦

Kyligence

数据分析 Excel数据分析 指标平台

云行| 三大重磅发布,助力重庆数字经济新发展!

天翼云开发者社区

HPC调度基础:slurm集群的部署

天翼云开发者社区

超越 ChatGPT,GPT-4 将成为下一个“顶流”?

Zilliz

ChatGPT

风云变幻,尽收眼底!天翼云为气象信息化发展注智赋能

天翼云开发者社区

欢迎大家来到不可思议又有趣的SQL世界

图灵教育

sql 数据库、 SQL sever

分享:从数据库开发者的视角,预测5个开发趋势

OceanBase 数据库

数据库 oceanbase

前端培训怎么学习好?

小谷哥

腾讯云数据库性能打破世界纪录 每分钟可处理8.14亿笔交易

数据库小组

数据库 腾讯云 tdsql

如何使用 MegEngine 生态落地一个算法

MegEngineBot

开源 性能优化 MegEngine 算法落地

谷歌“跑腿”机器人实现远距离导航,成功率提高2-3倍_AI&大模型_Google AI_InfoQ精选文章