谷歌发布开源Dopamine 2.0，让强化学习变得更灵活_AI&大模型_谷歌博客_InfoQ精选文章



 写点什么

登录/注册

谷歌发布开源Dopamine 2.0，让强化学习变得更灵活

强化学习（RL）已成为最受欢迎的机器学习领域之一，并且在过去几年中取得了许多重大进展。因此，研究人员和教育工作者越来越需要获得一个清晰可靠的 RL 研究和教育框架。去年 8 月，谷歌发布了一款全新的开源强化学习框架 Dopamine，该框架基于 TensorFlow，主打灵活性、稳定性、复现性，能够提供快速的基准测试。

今天，谷歌发布 Dopamine 2.0，为强化学习提供了更高的灵活性以及更多的测试环境。

去年八月，谷歌发布了 Dopamine，这是一款灵活的强化学习框架。初始版本专注于特定类型的 RL 研究：基于 Arcade 学习环境（一个成熟的、易于理解的基准）和四个基于值的代理 DQN、C51、Rainbow 代理的简化版本以及隐式分位数网络代理实现的。

开源地址：https://github.com/google/dopamine

据官方博客介绍：

开发小组收到的最常见的请求之一是对更多环境的支持。这证实了他们在内部看到的情况，在测试新算法时，OpenAI 的 Gym 支持的简单环境非常有用。于是，谷歌正式发布 Dopamine 2.0，这一版本包括了对离散域 Gym 环境(如离散状态和动作)的支持。框架的核心保持不变，只是简单地概括了与环境的接口。为了向后兼容，用户仍然可以下载 1.0 版本。

此外，新版本还包括两个经典控制环境的默认配置：CartPole 和 Acrobot；在这些环境中，用户可以在几分钟内训练 Dopamine 代理。与标准 Atari 2600 游戏的训练时间（标准 GPU 上大约 5 天）相比，这些环境允许研究人员在更大规模的 Atari 游戏上测试比之前更快地迭代研究思路。新版本还包括一个合作实验室，演示如何在 Cartpole 和 Acrobot 上训练代理。最后，GymPreprocessing 类为如何将 Dopamine 与其他自定义环境一起使用提供了示例。

拓展阅读

吊打OpenAI！谷歌重磅开源强化学习框架Dopamine

评论

发布

暂无评论

智能公厕应用人工智能技术，实现智慧化管理与服务

光明源智慧厕所

Dubbo 就近路由

昵称不能为null

Groovy关键字def

B站容量管理：游戏赛事等大型活动资源如何快速提升10+倍？

TakinTalks稳定性社区

DeepL：慢公司的快速扩张之路

DeepL 时序数据库开源社区 CnosDB

使用 Alluxio 优化 EMR 上 Flink Join

亚马逊云科技 (Amazon Web Services）

2023最新最全Java面试速成指南，面试骚操作都在里面了

程序员小毕

程序员后端高并发架构师 java面试

国网信通产业集团*IoTDB | 三平台管理百亿级累计数据，构建端边云全周期电力数据高效解决方案

IoTDB 国产时序数据库

OpenKruise 成为 CNCF 孵化项目：为大规模采用 Kubernetes 打开大门

阿里巴巴云原生

阿里云开源云原生 OpenKruise cncf

vika维格表 x 阿里云计算巢：SaaS 云端私有化部署，助力企业数字化转型

Activity初学乍练

android 活动 Activity

从质量思维到用户思维

质量保障用户思维

Tapdata 赋能敏捷转型：头部知识付费应用如何搭载实时数据快速提升人效，创造业务增长点

Gogs/Gitea 环境搭建

运维训练营第20周作业

尚硅谷数据湖Iceberg视频教程发布

Go如何自动解压缩包？如何读取docx/doc文件内容？

Go 高效工作学习方法文件处理压缩

Koordinator 助力 ACK 容器调度升级，提升应用性能，节约资源成本

阿里巴巴云原生

阿里云容器云原生 Koordinator

MobTech|什么是SDK

MobTech袤博科技

OpenHarmony关系型数据库查询结果呈现

关系型数据库数据库查询 OpenHarmony

如何在容器服务 ACK 玩转 MSE Ingress

阿里巴巴云原生

阿里云容器微服务云原生

低代码起势，开发者可以早日脱离996了？

程序员前端低代码 996

借助 mperf 进行矩阵乘法极致优化

开源性能优化 MegEngine

干货|10个C4D必备插件，让工作事半功倍

用AI回忆起曾被忘却的语言

跟GPT学k8s-Kubernetes-native load balancer options

快来看HarmonyOS 3新动作！华为畅享10S等24款设备启动花粉Beta招募

JVM 的 noverify 启动参数

flutter系列之:在flutter中使用媒体播放器

程序那些事

flutter 架构大前端程序那些事

分享：数据库存储与索引技术（三）LSM树实现案例

OceanBase 数据库

数据库 oceanbase

天津市人工智能计算中心揭牌天下津梁融汇AI之力