谷歌发布强化学习算法SimPLe，学习效率提升两倍_AI&大模型_Łukasz Kaiser

【AICon】探索八个行业创新案例，教你在教育、金融、医疗、法律等领域实践大模型技术！ >>> 了解详情 



 写点什么

深度强化学习(Deep reinforcement learning)利用奖励来推动软件政策朝着目标发展。该技术已被用于模拟社会规范的影响，创造出特别擅长玩游戏的人工智能，并为机器人编写程序，使其能够从恶劣的溢出中恢复过来。尽管强化学习功能多样，它也有一个明显的缺点：效率低下。训练策略需要在模拟的或真实的环境中进行大量的交互——远远超过普通人学习任务的需要。

为了在视频游戏领域有所弥补，谷歌的研究人员最近提出了一种新的算法——模拟策略学习，简称 SimPLe，该算法通过游戏模型学习用于选择动作的质量策略。谷歌在一篇新发表的预印本论文(“Atari 基于模型的强化学习”)和随开源代码一起发布的文档中对此进行了描述。

论文链接：https://arxiv.org/abs/1903.00374

开源代码：https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/rl/README.md

根据谷歌官方的介绍：

在高层次上，SimPLe 背后的想法是在学习游戏行为的 world 模型和在模拟游戏环境中使用该模型优化策略(使用无模型强化学习)之间进行交替。该算法的基本原理已经很好地建立起来，并应用于许多最近的基于模型的强化学习方法中。

SimPLe 的主循环。1）代理开始与真实环境交互；2）收集的观测结果用于更新当前的 world 模型；3）代理通过在 world 模型内学习来更新策略。

如果成功地训练这样一个模型(如视频预测)，一个本质上学会了模拟器的游戏环境，可以用来生成轨迹训练游戏代理的好策略，即选择一个操作序列，这样可以使代理的长期回报最大化。

在每次迭代中，在 world 模型被训练之后，就可以使用这个学习的模拟器来生成滚动(即动作、观察和结果的样本序列)，这些滚动被用来使用近似策略优化(PPO)算法来改进游戏策略。滚动的采样从实际的数据集帧开始。由于预测错误通常会随着时间的推移而增加，使长期预测变得非常困难，SimPLe 只使用中等长度的滚动。幸运的是，PPO 算法也可以从其内部价值函数中学习动作和奖励之间的长期效果，因此有限长度的滚动对于像《highway》这样奖励稀疏的游戏来说也是足够的。

从效率方面来说，衡量成功的一个标准是证明该模型是高效的。为此，谷歌的研发人员在与环境进行了 10 万次交互之后评估了策略的输出，将 SimPLe 与两种最先进的无模型 RL 方法 Rainbow 和 PPO 进行了比较。在大多数情况下，SimPLe 的样本效率比其他方法高出两倍以上。

相应的无模型算法（左 - Rainbow；右 - PPO）所需的交互次数与 SimPLe 训练方法获得的得分相匹配。红线表示 SimPLe 使用的交互次数。

然而，SimPLe 并不总是完美的。最常见的故障是：world 模型不能准确地捕获或预测体积很小但相关度很高的对象。比如某些训练中，由于游戏中子弹的体积太小以至于几乎很难被模型捕捉到。

谷歌的研究人员认为：“基于模型的强化学习方法的主要前景是在交互成本高、速度慢或需要人工标记的环境中，例如许多机器人任务中。在这样的环境下，学习的模拟器可以更好地理解代理的环境，并可以为更多的任务强化学习提供新的，更好的和更快的方法。虽然 SimPLe 还没有达到标准无模型 RL 方法的性能，但它的效率要高得多，我们期望未来的工作能够进一步提高基于模型的性能。”

原文链接：

https://ai.googleblog.com/2019/03/simulated-policy-learning-in-video.html

公众号推荐：

跳进 AI 的奇妙世界，一起探索未来工作的新风貌！想要深入了解 AI 如何成为产业创新的新引擎？好奇哪些城市正成为 AI 人才的新磁场？《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造，为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者，还是对生成式 AI 充满好奇的新手，这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号，回复「开发者洞察」领取。

发布

暂无评论

创作场景

谷歌发布强化学习算法 SimPLe，学习效率提升两倍

公众号推荐：

评论

印度股票交易软件GangGuHk

深入理解 Java 多线程、Lambda 表达式及线程安全最佳实践

鸿蒙生态全场景新增长，鲸鸿动能为伙伴带来新机遇

GraphPad Prism 10激活授权秘钥：高效且易于使用的科学研究绘图分析软件

关于招聘这件事，技术面试官需要了解的几个点

解决Linux报错：Swap file “xxxxxx.swp“ already exists

WebStorm 2023.3.5 for Mac中文版 (WebStorm 2023永久激活秘钥最新)

助力高效工作！Finder增强工具 TotalFinder for Mac中文版含注册码

企业需要企业IM（即时通讯）具备系统集成功能吗？

StarRocks 易用性全面提升：数据导入可以如此简单

macbook防睡眠工具：Caffeinated for mac一键激活版

iNet Network Scanner：全面而深入的网络分析工具

CentOS7用二进制安装MySQL5.7

Topaz Photo AI 人工智能降噪 v2.4.1完美激活版 mac/win

Topaz Gigapixel AI 7.0.4完美激活版及Topaz Gigapixel AI 7全新功能介绍

1688API接口推荐：1688按图搜索拍立淘数据接口

为什么说 $CHAPZ 是被严重低估的 AI 概念资产？

腾讯天穹 StarRocks 一站式湖仓融合平台架构揭秘

《保卫萝卜4》仅用一个月完成鸿蒙原生应用开发

电源常用通讯电路

AI Transcription for Mac(AI语音转录软件) 支持M1/M2

Blu-ray Player Pro mac v3.3.22中文版蓝光播放器兼容m

朋友，代码库的“健身方案”要不要了解一下？

从API到Agent：万字长文洞悉LangChain工程化设计

企业即时通讯工具，企业内部即时通讯系统推荐

Vue.js 应用实现监控可观测性最佳实践

Kafka 痛点专题｜AutoMQ 如何解决 Kafka 冷读副作用

PHP中header()的七种用法

PD19虚拟机破解版安装教程及pd19永久密钥

安全的企业办公即时通讯软件怎么选择？

我对一些技术架构设计的经验记录

创作场景

谷歌发布强化学习算法 SimPLe，学习效率提升两倍

公众号推荐：

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载