写点什么

谷歌发布强化学习算法 SimPLe,学习效率提升两倍

  • 2019-03-26
  • 本文字数:1322 字

    阅读完需:约 4 分钟

谷歌发布强化学习算法SimPLe,学习效率提升两倍

深度强化学习(Deep reinforcement learning)利用奖励来推动软件政策朝着目标发展。该技术已被用于模拟社会规范的影响,创造出特别擅长玩游戏的人工智能,并为机器人编写程序,使其能够从恶劣的溢出中恢复过来。尽管强化学习功能多样,它也有一个明显的缺点:效率低下。训练策略需要在模拟的或真实的环境中进行大量的交互——远远超过普通人学习任务的需要。


为了在视频游戏领域有所弥补,谷歌的研究人员最近提出了一种新的算法——模拟策略学习,简称 SimPLe,该算法通过游戏模型学习用于选择动作的质量策略。谷歌在一篇新发表的预印本论文(“Atari 基于模型的强化学习”)和随开源代码一起发布的文档中对此进行了描述。


论文链接:https://arxiv.org/abs/1903.00374


开源代码:https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/rl/README.md


根据谷歌官方的介绍:


在高层次上,SimPLe 背后的想法是在学习游戏行为的 world 模型和在模拟游戏环境中使用该模型优化策略(使用无模型强化学习)之间进行交替。该算法的基本原理已经很好地建立起来,并应用于许多最近的基于模型的强化学习方法中。



SimPLe 的主循环。1)代理开始与真实环境交互;2)收集的观测结果用于更新当前的 world 模型;3)代理通过在 world 模型内学习来更新策略。


如果成功地训练这样一个模型(如视频预测),一个本质上学会了模拟器的游戏环境,可以用来生成轨迹训练游戏代理的好策略,即选择一个操作序列,这样可以使代理的长期回报最大化。


在每次迭代中,在 world 模型被训练之后,就可以使用这个学习的模拟器来生成滚动(即动作、观察和结果的样本序列),这些滚动被用来使用近似策略优化(PPO)算法来改进游戏策略。滚动的采样从实际的数据集帧开始。由于预测错误通常会随着时间的推移而增加,使长期预测变得非常困难,SimPLe 只使用中等长度的滚动。幸运的是,PPO 算法也可以从其内部价值函数中学习动作和奖励之间的长期效果,因此有限长度的滚动对于像《highway》这样奖励稀疏的游戏来说也是足够的。


从效率方面来说,衡量成功的一个标准是证明该模型是高效的。为此,谷歌的研发人员在与环境进行了 10 万次交互之后评估了策略的输出,将 SimPLe 与两种最先进的无模型 RL 方法 Rainbow 和 PPO 进行了比较。在大多数情况下,SimPLe 的样本效率比其他方法高出两倍以上。



相应的无模型算法(左 - Rainbow;右 - PPO)所需的交互次数与 SimPLe 训练方法获得的得分相匹配。红线表示 SimPLe 使用的交互次数。


然而,SimPLe 并不总是完美的。最常见的故障是:world 模型不能准确地捕获或预测体积很小但相关度很高的对象。比如某些训练中,由于游戏中子弹的体积太小以至于几乎很难被模型捕捉到。


谷歌的研究人员认为:“基于模型的强化学习方法的主要前景是在交互成本高、速度慢或需要人工标记的环境中,例如许多机器人任务中。在这样的环境下,学习的模拟器可以更好地理解代理的环境,并可以为更多的任务强化学习提供新的,更好的和更快的方法。虽然 SimPLe 还没有达到标准无模型 RL 方法的性能,但它的效率要高得多,我们期望未来的工作能够进一步提高基于模型的性能。”


原文链接:


https://ai.googleblog.com/2019/03/simulated-policy-learning-in-video.html


2019-03-26 15:164213
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 306.4 次阅读, 收获喜欢 1306 次。

关注

评论

发布
暂无评论
发现更多内容

AI 代码生成陷阱解析,如何识别与规避错误代码

飞算JavaAI开发助手

AI 代码质量

After Effects 2022(AE 2022)中文直装版-Mac/win

Rose

Web前端入门:JavaScript 3 种书写位置及 script 标签的正确存放位置

不在线第一只蜗牛

Java 前端 Web

朱雀二号改进型火箭成功发射!国产时序数据库 IoTDB 全程护航火箭试验、发射及北邮双星数据管理

Apache IoTDB

AI 指令编写全攻略:从基础到高级的实用技巧

飞算JavaAI开发助手

AI 技巧分享

Last Call丨精彩嘉宾阵容,完整日程揭秘!2025 Altair 区域技术交流会华北站

Altair RapidMiner

人工智能 AI 汽车 数字孪生 CAE

学啥才能接单?分享一下我目前使用的技术栈

程序员郭顺发

犀牛Rhinoceros 7与其他建模软件相比有什么优势?

Rose

圆明园十二生肖兽首铜像终于“回国”?百度百科推出数字文物守护计划,让流失文物回家

科技大数据

MEV 的必然性:揭秘加密货币世界的暗池经济

TechubNews

整合安全能力:观测云进一步强化数据价值

观测云

安全

告别无效对话:优化 AI 交互的必备策略

飞算JavaAI开发助手

Java AI 交互 技巧分享

同样的数据,更强的效果:如何让模型学会‘互补思维’?

量贩潮汐·WholesaleTide

人工智能 机器学习

产品迭代为什么越来越慢?

Feedalyze

效率工具 产品经理 产品运营 产品迭代 用户需求

打印高质量日志的10条军规

电子尖叫食人鱼

git

Mac 剪辑利器 Final Cut Pro,智能升级,重塑视频创作新格局

Rose

Cornerstone for Mac:代码管理神器,让协作开发更稳更快!

Rose

Java 中堆内存和栈内存上的数据分布和特点

量贩潮汐·WholesaleTide

Java JVM

如何快速上手使用AutoCAD 2024?附cad2024安装包

Rose

Mac桌面宠物鹅Desktop Goose 如何使用?

Rose

成功案例丨GEZE与Altair合作推动智能建筑系统开发

Altair RapidMiner

制造业 数字孪生 仿真 CAE 工业仿真

1688图片搜索API接口攻略

tbapi

1688图片搜索接口 1688拍立淘接口 1688图片api

Lightroom Classic中文基础教程分享--LR图片管理和分类

Rose

依赖错误终结者:AI 项目管理中的故障排查指南

飞算JavaAI开发助手

项目管理 AI 依赖

小度AI助手携手博西家电达,共筑智能家居新场景

科技大数据

数据分析与AI丨Graph+LLM 如何重塑传统 BI 的未来

Altair RapidMiner

人工智能 AI 数据分析 知识图谱 GraphStudio

SpringBoot3 使用 SolonMCP 开发 MCP

不在线第一只蜗牛

Spring Boot

IDEA+AI 深度融合:重构高效开发的未来模式

飞算JavaAI开发助手

IDEA #java 技巧分享

需求频繁变更?AI 驱动的自动化解决方案实践

飞算JavaAI开发助手

Studio One 6 Pro永久许可证-Mac/win

Rose

2025深圳高交会·第二十七届中国国际高新技术成果交易会

AIOTE智博会

高交会 人工智能展 深圳高交会

谷歌发布强化学习算法SimPLe,学习效率提升两倍_AI&大模型_Łukasz Kaiser_InfoQ精选文章