【AICon】探索八个行业创新案例,教你在教育、金融、医疗、法律等领域实践大模型技术! >>> 了解详情
写点什么

谷歌发布强化学习算法 SimPLe,学习效率提升两倍

  • 2019-03-26
  • 本文字数:1322 字

    阅读完需:约 4 分钟

谷歌发布强化学习算法SimPLe,学习效率提升两倍

深度强化学习(Deep reinforcement learning)利用奖励来推动软件政策朝着目标发展。该技术已被用于模拟社会规范的影响,创造出特别擅长玩游戏的人工智能,并为机器人编写程序,使其能够从恶劣的溢出中恢复过来。尽管强化学习功能多样,它也有一个明显的缺点:效率低下。训练策略需要在模拟的或真实的环境中进行大量的交互——远远超过普通人学习任务的需要。


为了在视频游戏领域有所弥补,谷歌的研究人员最近提出了一种新的算法——模拟策略学习,简称 SimPLe,该算法通过游戏模型学习用于选择动作的质量策略。谷歌在一篇新发表的预印本论文(“Atari 基于模型的强化学习”)和随开源代码一起发布的文档中对此进行了描述。


论文链接:https://arxiv.org/abs/1903.00374


开源代码:https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/rl/README.md


根据谷歌官方的介绍:


在高层次上,SimPLe 背后的想法是在学习游戏行为的 world 模型和在模拟游戏环境中使用该模型优化策略(使用无模型强化学习)之间进行交替。该算法的基本原理已经很好地建立起来,并应用于许多最近的基于模型的强化学习方法中。



SimPLe 的主循环。1)代理开始与真实环境交互;2)收集的观测结果用于更新当前的 world 模型;3)代理通过在 world 模型内学习来更新策略。


如果成功地训练这样一个模型(如视频预测),一个本质上学会了模拟器的游戏环境,可以用来生成轨迹训练游戏代理的好策略,即选择一个操作序列,这样可以使代理的长期回报最大化。


在每次迭代中,在 world 模型被训练之后,就可以使用这个学习的模拟器来生成滚动(即动作、观察和结果的样本序列),这些滚动被用来使用近似策略优化(PPO)算法来改进游戏策略。滚动的采样从实际的数据集帧开始。由于预测错误通常会随着时间的推移而增加,使长期预测变得非常困难,SimPLe 只使用中等长度的滚动。幸运的是,PPO 算法也可以从其内部价值函数中学习动作和奖励之间的长期效果,因此有限长度的滚动对于像《highway》这样奖励稀疏的游戏来说也是足够的。


从效率方面来说,衡量成功的一个标准是证明该模型是高效的。为此,谷歌的研发人员在与环境进行了 10 万次交互之后评估了策略的输出,将 SimPLe 与两种最先进的无模型 RL 方法 Rainbow 和 PPO 进行了比较。在大多数情况下,SimPLe 的样本效率比其他方法高出两倍以上。



相应的无模型算法(左 - Rainbow;右 - PPO)所需的交互次数与 SimPLe 训练方法获得的得分相匹配。红线表示 SimPLe 使用的交互次数。


然而,SimPLe 并不总是完美的。最常见的故障是:world 模型不能准确地捕获或预测体积很小但相关度很高的对象。比如某些训练中,由于游戏中子弹的体积太小以至于几乎很难被模型捕捉到。


谷歌的研究人员认为:“基于模型的强化学习方法的主要前景是在交互成本高、速度慢或需要人工标记的环境中,例如许多机器人任务中。在这样的环境下,学习的模拟器可以更好地理解代理的环境,并可以为更多的任务强化学习提供新的,更好的和更快的方法。虽然 SimPLe 还没有达到标准无模型 RL 方法的性能,但它的效率要高得多,我们期望未来的工作能够进一步提高基于模型的性能。”


原文链接:


https://ai.googleblog.com/2019/03/simulated-policy-learning-in-video.html


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-03-26 15:163630
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 262.7 次阅读, 收获喜欢 1293 次。

关注

评论

发布
暂无评论
发现更多内容

印度股票交易软件GangGuHk

GangguHK

深入理解 Java 多线程、Lambda 表达式及线程安全最佳实践

小万哥

Java 程序人生 编程语言 软件工程 后端开发

鸿蒙生态全场景新增长,鲸鸿动能为伙伴带来新机遇

最新动态

GraphPad Prism 10激活授权秘钥:高效且易于使用的科学研究绘图分析软件

Rose

关于招聘这件事,技术面试官需要了解的几个点

芃篙君

招聘

解决Linux报错:Swap file “xxxxxx.swp“ already exists

百度搜索:蓝易云

vim Linux 运维 云服务器 swap

WebStorm 2023.3.5 for Mac中文版 (WebStorm 2023永久激活秘钥最新)

Rose

助力高效工作!Finder增强工具 TotalFinder for Mac中文版 含注册码

Rose

企业需要企业IM(即时通讯)具备系统集成功能吗?

WorkPlus

StarRocks 易用性全面提升:数据导入可以如此简单

StarRocks

macbook防睡眠工具:Caffeinated for mac一键激活版

Rose

Caffeinated下载 Caffeinated破解版 防睡眠工具

iNet Network Scanner:全面而深入的网络分析工具

Rose

CentOS7用二进制安装MySQL5.7

百度搜索:蓝易云

MySQL Linux centos 运维 云服务器

Topaz Photo AI 人工智能降噪 v2.4.1完美激活版 mac/win

Rose

Topaz Gigapixel AI 7.0.4完美激活版 及Topaz Gigapixel AI 7全新功能介绍

Rose

1688API接口推荐:1688按图搜索拍立淘数据接口

tbapi

1688 1688API接口 1688商品数据接口 阿里巴巴商品列表数据

为什么说 $CHAPZ 是被严重低估的 AI 概念资产?

股市老人

腾讯天穹 StarRocks 一站式湖仓融合平台架构揭秘

StarRocks

数据库 大数据 湖仓一体 湖仓融合

《保卫萝卜4》仅用一个月完成鸿蒙原生应用开发

最新动态

电源常用通讯电路

智趣匠

芯片 通讯 电源

AI Transcription for Mac(AI语音转录软件) 支持M1/M2

Rose

Blu-ray Player Pro mac v3.3.22中文版 蓝光播放器 兼容m

Rose

朋友,代码库的“健身方案”要不要了解一下?

极狐GitLab

从API到Agent:万字长文洞悉LangChain工程化设计

TuGraphAnalytics

graph agent #LangChain

企业即时通讯工具,企业内部即时通讯系统推荐

WorkPlus

Vue.js 应用实现监控可观测性最佳实践

观测云

Vue

Kafka 痛点专题|AutoMQ 如何解决 Kafka 冷读副作用

AutoMQ

云计算 大数据 kafka 云原生 AutoMQ

PHP中header()的七种用法

百度搜索:蓝易云

php Linux 运维 HTTP header

PD19虚拟机破解版安装教程及pd19永久密钥

Rose

安全的企业办公即时通讯软件怎么选择?

WorkPlus

我对一些技术架构设计的经验记录

软件工程师-罗小东

谷歌发布强化学习算法SimPLe,学习效率提升两倍_AI&大模型_Łukasz Kaiser_InfoQ精选文章