写点什么

谷歌发布开源 Dopamine 2.0,让强化学习变得更灵活

  • 2019-02-09
  • 本文字数:715 字

    阅读完需:约 2 分钟

谷歌发布开源Dopamine 2.0,让强化学习变得更灵活

强化学习(RL)已成为最受欢迎的机器学习领域之一,并且在过去几年中取得了许多重大进展。因此,研究人员和教育工作者越来越需要获得一个清晰可靠的 RL 研究和教育框架。去年 8 月,谷歌发布了一款全新的开源强化学习框架 Dopamine,该框架基于 TensorFlow,主打灵活性、稳定性、复现性,能够提供快速的基准测试。


今天,谷歌发布 Dopamine 2.0,为强化学习提供了更高的灵活性以及更多的测试环境。


去年八月,谷歌发布了 Dopamine,这是一款灵活的强化学习框架。初始版本专注于特定类型的 RL 研究:基于 Arcade 学习环境(一个成熟的、易于理解的基准)和四个基于值的代理 DQN、C51、Rainbow 代理的简化版本以及隐式分位数网络代理实现的。


开源地址:https://github.com/google/dopamine


据官方博客介绍:


开发小组收到的最常见的请求之一是对更多环境的支持。这证实了他们在内部看到的情况,在测试新算法时,OpenAI 的 Gym 支持的简单环境非常有用。于是,谷歌正式发布 Dopamine 2.0,这一版本包括了对离散域 Gym 环境(如离散状态和动作)的支持。框架的核心保持不变,只是简单地概括了与环境的接口。为了向后兼容,用户仍然可以下载 1.0 版本。


此外,新版本还包括两个经典控制环境的默认配置:CartPole 和 Acrobot;在这些环境中,用户可以在几分钟内训练 Dopamine 代理。与标准 Atari 2600 游戏的训练时间(标准 GPU 上大约 5 天)相比,这些环境允许研究人员在更大规模的 Atari 游戏上测试比之前更快地迭代研究思路。新版本还包括一个合作实验室,演示如何在 Cartpole 和 Acrobot 上训练代理。最后,GymPreprocessing 类为如何将 Dopamine 与其他自定义环境一起使用提供了示例。


拓展阅读


吊打OpenAI!谷歌重磅开源强化学习框架Dopamine


2019-02-09 09:004419
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 300.0 次阅读, 收获喜欢 1306 次。

关注

评论

发布
暂无评论
发现更多内容

1分钟内的Linux性能分析法

Gopher指北

Linux 后端

5G点亮工业革命前,2021需要持续点亮5G

脑极体

正确面对倦怠感,提升职场战斗力

boshi

职场成长 七日更

第四章作业

Rui

第四周作业-核销优惠券用例

隋泽

产品经理训练营

第四周作业

Geek_72d5ab

日记 2021年2月10日(周三)

Changing Lin

2月春节不断更

UC01 用户 购买课程

克比

深入了解gradle和maven的区别

程序那些事

maven Gradle 程序那些事 构建工具

【得物技术】走进Web3D的世界(1) 画个立方体吧

得物技术

html html5 js WebGL 得物技术

你真的了解 sync.Mutex吗

Leo叔叔

mutex Go Concurrency Patterns Go 语言

第四周学习心得

Trigger

极客时间 产品经理训练营

区分重载和重写,轻松掌握 Java 多态

飞天小牛肉

Java 程序员 面试 后端 2月春节不断更

马斯克说狗币牛逼,我说idea插件助你盯盘摸鱼

滑板上的老砒霜

比特币 idea插件 Android开发

你看那个程序员,每年升职加薪,日赚3千

谙忆

产品训练营 - 第四周 - 作业

邹小胖

产品训练营

产品经理训练营笔记 - 业务流程与产品文档(二)

.nil?

产品经理训练营

流媒体传输协议之 RTP(下篇)

阿里云CloudImagine

音视频 流媒体 rtp

话题讨论 | 你是不是一个特别容易被说服的人?

石云升

话题讨论 2月春节不断更

Java容器--2021面试题系列教程(附答案解析)--大白话解读--JavaPub版本

JavaPub

Java 面试 hashmap javapub

极客大学·产品训练营·第三章作业(第四周)

二大爷

极客大学 极客大学产品经理训练营 产品训练营

产品经理 - 第三周作业

LLL777

认识 Java 中的队列:Vector、ArrayList、CopyOnWriteArrayList、SynchronizedList

看山

Java 线程安全

从“乌鸡”到5G,不仅仅是谐音梗

脑极体

ZEGO全新语音聊天室方案,2小时复刻 Clubhouse

ZEGO即构

「产品经理训练营」作业 04:知识星球加入星球用例

狷介

产品经理训练营

话题讨论 | 如何获得令人心动的前端offer

我是哪吒

程序员 面试 大前端 话题讨论 二月春节不断更

5. Python 循环的本质就是一段代码懒得重复写

梦想橡皮擦

Python Python Monad 2月春节不断更 python入门

抽奖小程序-活动发布用例分析及流程图

思亭

0期产品训练营第四周作业-学情周报用例

skylar

【STM32】0.96寸OLED显示屏(7针SPI协议)软件模拟SPI

AXYZdong

硬件 stm32 2月春节不断更

谷歌发布开源Dopamine 2.0,让强化学习变得更灵活_AI&大模型_谷歌博客_InfoQ精选文章