写点什么

谷歌发布开源 Dopamine 2.0,让强化学习变得更灵活

  • 2019-02-09
  • 本文字数:715 字

    阅读完需:约 2 分钟

谷歌发布开源Dopamine 2.0,让强化学习变得更灵活

强化学习(RL)已成为最受欢迎的机器学习领域之一,并且在过去几年中取得了许多重大进展。因此,研究人员和教育工作者越来越需要获得一个清晰可靠的 RL 研究和教育框架。去年 8 月,谷歌发布了一款全新的开源强化学习框架 Dopamine,该框架基于 TensorFlow,主打灵活性、稳定性、复现性,能够提供快速的基准测试。


今天,谷歌发布 Dopamine 2.0,为强化学习提供了更高的灵活性以及更多的测试环境。


去年八月,谷歌发布了 Dopamine,这是一款灵活的强化学习框架。初始版本专注于特定类型的 RL 研究:基于 Arcade 学习环境(一个成熟的、易于理解的基准)和四个基于值的代理 DQN、C51、Rainbow 代理的简化版本以及隐式分位数网络代理实现的。


开源地址:https://github.com/google/dopamine


据官方博客介绍:


开发小组收到的最常见的请求之一是对更多环境的支持。这证实了他们在内部看到的情况,在测试新算法时,OpenAI 的 Gym 支持的简单环境非常有用。于是,谷歌正式发布 Dopamine 2.0,这一版本包括了对离散域 Gym 环境(如离散状态和动作)的支持。框架的核心保持不变,只是简单地概括了与环境的接口。为了向后兼容,用户仍然可以下载 1.0 版本。


此外,新版本还包括两个经典控制环境的默认配置:CartPole 和 Acrobot;在这些环境中,用户可以在几分钟内训练 Dopamine 代理。与标准 Atari 2600 游戏的训练时间(标准 GPU 上大约 5 天)相比,这些环境允许研究人员在更大规模的 Atari 游戏上测试比之前更快地迭代研究思路。新版本还包括一个合作实验室,演示如何在 Cartpole 和 Acrobot 上训练代理。最后,GymPreprocessing 类为如何将 Dopamine 与其他自定义环境一起使用提供了示例。


拓展阅读


吊打OpenAI!谷歌重磅开源强化学习框架Dopamine


2019-02-09 09:004483
用户头像
陈思 InfoQ编辑

发布了 584 篇内容, 共 307.7 次阅读, 收获喜欢 1306 次。

关注

评论

发布
暂无评论
发现更多内容

Linux下Docker安装部署以及云原生的理解

Geek_acae888666

云原生 Docker 镜像

MySQL权限管理

武师叔

8月月更

开源一夏 | jQuery对于链和捕获的实战研究

恒山其若陋兮

开源 8月月更

Netty入门 -- 什么是Netty?

Bug终结者

Netty 8月月更

开源一夏 | 基于 Serverless一键体验FastAPI

六月的雨在InfoQ

阿里云 开源 Serverless FC 8月月更

Spring Cloud Stream 消息发送

急需上岸的小谢

8月月更

什么是Shell?从小白到入门你只差一个它

Albert Edison

Linux centos 运维 shell脚本编程 8月月更

openEuler 资源利用率提升之道02:典型应用下的效果

openEuler

开源 数据 cpu 操作系统 openEuler

培训预告 | 企业应用现代化实用教程——DevOps方法论及最佳实践篇 8月11日上线

York

DevOps 云原生 团队建设 降本增效 应用现代化

企业“数字化转型”成功的2个必备条件!

优秀

数字化转型

深度解读 | 关于SBOM最基础元素,你需要知道的(Part I)

安势信息

开源 漏洞 SCA SBOM 最基础元素

Go-Excelize API源码阅读(四)——Save()

Regan Yue

Go 开源 源码刨析 8月日更 8月月更

Unity Metaverse(四)、接入环信IM SDK 实现用户登录注册

CoderZ

Unity 登录验证 环信im 8月月更

文档管理系统对于企业来说有哪些作用?

Baklib

分门别类输入输出,Go lang1.18入门精炼教程,由白丁入鸿儒,go lang基本数据类型和输入输出EP03

刘悦的技术博客

golang 编程 教程 教程分享 golang 面试

借问变量何处存,牧童笑称用指针,Go lang1.18入门精炼教程,由白丁入鸿儒,go lang类型指针(Pointer)的使用EP05

刘悦的技术博客

入门 教程 Go web 教程分享 入门介绍

【高并发】别闹了,要实现亿级流量下的分布式限流,这些算法你必须掌握!!

冰河

并发编程 多线程 高并发 协程 异步编程

头脑风暴:打家劫舍2

HelloWorld杰少

算法 LeetCode 动态规划 8月月更

如何用精益敏捷组合管理,提升研发效能?|ONES 研发管理大师课

万事ONES

开源一夏 | RuntimeException 子类

六月的雨在InfoQ

开源 8月月更

如何让您的wiki内容更高级?

Geek_da0866

经验分享|低成本快节奏搭建企业知识管理系统的方法

Baklib

兼容并蓄广纳百川,Go lang1.18入门精炼教程,由白丁入鸿儒,go lang复合容器类型的声明和使用EP04

刘悦的技术博客

golang go doc 教程 教程分享 golang 面试

舔狗至高境界,学会这个技巧让你从舔狗升华到海王【Python趣味爬虫】

Geek_ac6fb9

后端

SRv6故障管理

穿过生命散发芬芳

8月月更 SRv6

LeaRun模型驱动开发框架 重塑企业生产力

力软低代码开发平台

阿里云数据库PolarDB开源人才培养计划发布!万元好礼等你来拿!

阿里云数据库开源

数据库 阿里云 开源 认证 polarDB

企业进行知识共享的好处有哪些?

Geek_da0866

运筹帷幄决胜千里,Python3.10原生协程asyncio工业级真实协程异步消费任务调度实践

刘悦的技术博客

Python 协程 Async Python3 协程原理

超人飞来!Flutter 实现满屏的力量感动画!

岛上码农

flutter ios 移动端开发 安卓开发 8月月更

低代码实现探索(四十七)低的不止前端,还有后端

零道云-混合式低代码平台

谷歌发布开源Dopamine 2.0,让强化学习变得更灵活_AI&大模型_谷歌博客_InfoQ精选文章