阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

谷歌发布开源 Dopamine 2.0,让强化学习变得更灵活

  • 2019-02-09
  • 本文字数:715 字

    阅读完需:约 2 分钟

谷歌发布开源Dopamine 2.0,让强化学习变得更灵活

强化学习(RL)已成为最受欢迎的机器学习领域之一,并且在过去几年中取得了许多重大进展。因此,研究人员和教育工作者越来越需要获得一个清晰可靠的 RL 研究和教育框架。去年 8 月,谷歌发布了一款全新的开源强化学习框架 Dopamine,该框架基于 TensorFlow,主打灵活性、稳定性、复现性,能够提供快速的基准测试。


今天,谷歌发布 Dopamine 2.0,为强化学习提供了更高的灵活性以及更多的测试环境。


去年八月,谷歌发布了 Dopamine,这是一款灵活的强化学习框架。初始版本专注于特定类型的 RL 研究:基于 Arcade 学习环境(一个成熟的、易于理解的基准)和四个基于值的代理 DQN、C51、Rainbow 代理的简化版本以及隐式分位数网络代理实现的。


开源地址:https://github.com/google/dopamine


据官方博客介绍:


开发小组收到的最常见的请求之一是对更多环境的支持。这证实了他们在内部看到的情况,在测试新算法时,OpenAI 的 Gym 支持的简单环境非常有用。于是,谷歌正式发布 Dopamine 2.0,这一版本包括了对离散域 Gym 环境(如离散状态和动作)的支持。框架的核心保持不变,只是简单地概括了与环境的接口。为了向后兼容,用户仍然可以下载 1.0 版本。


此外,新版本还包括两个经典控制环境的默认配置:CartPole 和 Acrobot;在这些环境中,用户可以在几分钟内训练 Dopamine 代理。与标准 Atari 2600 游戏的训练时间(标准 GPU 上大约 5 天)相比,这些环境允许研究人员在更大规模的 Atari 游戏上测试比之前更快地迭代研究思路。新版本还包括一个合作实验室,演示如何在 Cartpole 和 Acrobot 上训练代理。最后,GymPreprocessing 类为如何将 Dopamine 与其他自定义环境一起使用提供了示例。


拓展阅读


吊打OpenAI!谷歌重磅开源强化学习框架Dopamine


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-02-09 09:003995
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 262.4 次阅读, 收获喜欢 1293 次。

关注

评论

发布
暂无评论
发现更多内容

细说Js中的this

hellocoder2029

JavaScript

彻底搞懂JS原型与原型链

hellocoder2029

JavaScript

一文读懂NodeJs知识体系和原理浅析

coder2028

node.js

远程办公提高效率的工具:在线协作文档

Baklib

效率 效率工具 协作文档

APICloud AVM 框架 纵向滚动通知栏组件

YonBuilder低代码开发平台

java的可变参数

TimeFriends

企业团队知识如何管理?来试试这个办法!

Baklib

效率 效率工具 知识管理 团队

【GOF】三种工厂模式~

游坦之

设计模式 java 编程 10月月更

研发流程管理中,如何实现项目管理与代码信息的协同?

LigaAI

研发管理 解决方案 #GitLab LigaAI 企业号十月PK榜

Nodejs相关ORM框架分析

coder2028

node.js

细说js变量、作用域和垃圾回收

hellocoder2029

JavaScript

推荐有礼 | 京东云推荐返利活动说明

京东科技开发者

京东云 云推客 代理商 分销 渠道

从0到1实现一套CICD流程之CD

okokabcd

后端

代码静态测试 | MISRA是什么?如何使用它来改进嵌入式编码?

龙智—DevSecOps解决方案

c 嵌入式设计 嵌入式开发

AIGC时代到来?聊聊其中最出圈的语言模型GPT-3

Baihai IDP

AI NLP 大模型 AIGC GPT-3

千锋小狮视觉“未来设计师就业实战训练营”圆满收官,2周年庆即将开启!

千锋IT教育

前端页面之“回流重绘”

CoderBin

CSS html 面试 前端 10月月更

浅谈理想中的业务开发模式

久歌

架构 开发 技术架构 服务编排

BizWorks助力企业应用的高效开发与复用

阿里云E2企业云服务

阿里云 开发者 云原生 低代码

GameFi链游系统开发(NFT链游)

薇電13242772558

NFT

odejs+Redis实现简易消息队列

coder2028

node.js

模块二作业

知足🐏

Java 19中新推出的虚拟线程到底是怎么回事儿?

Hollis

Java

SAP | abap基本语法规则

暮春零贰

SAP abap 10月月更

满足客户需求,提高客户体验:在线产品手册

Baklib

产品 推广 客户 客户体验 在线产品手册

【从0到1学算法】7.直接插入排序

Geek_65222d

10月月更

ITSM | Forrester发布报告,7大重要见解总结IT运营状况

龙智—DevSecOps解决方案

IT运维

华为王泽锋:协作创新、开源的魅力所在

科技热闻

设计模式之桥接模式

游坦之

设计模式 java 编程 10月月更

设计模式之建造者模式

游坦之

设计模式 java 编程 10月月更

制造业转型加速密钥——低代码开发平台

力软低代码开发平台

谷歌发布开源Dopamine 2.0,让强化学习变得更灵活_AI&大模型_谷歌博客_InfoQ精选文章