AI 年度盘点与2025发展趋势展望,50+案例解析亮相AICon 了解详情
写点什么

谷歌发布开源 Dopamine 2.0,让强化学习变得更灵活

  • 2019-02-09
  • 本文字数:715 字

    阅读完需:约 2 分钟

谷歌发布开源Dopamine 2.0,让强化学习变得更灵活

强化学习(RL)已成为最受欢迎的机器学习领域之一,并且在过去几年中取得了许多重大进展。因此,研究人员和教育工作者越来越需要获得一个清晰可靠的 RL 研究和教育框架。去年 8 月,谷歌发布了一款全新的开源强化学习框架 Dopamine,该框架基于 TensorFlow,主打灵活性、稳定性、复现性,能够提供快速的基准测试。


今天,谷歌发布 Dopamine 2.0,为强化学习提供了更高的灵活性以及更多的测试环境。


去年八月,谷歌发布了 Dopamine,这是一款灵活的强化学习框架。初始版本专注于特定类型的 RL 研究:基于 Arcade 学习环境(一个成熟的、易于理解的基准)和四个基于值的代理 DQN、C51、Rainbow 代理的简化版本以及隐式分位数网络代理实现的。


开源地址:https://github.com/google/dopamine


据官方博客介绍:


开发小组收到的最常见的请求之一是对更多环境的支持。这证实了他们在内部看到的情况,在测试新算法时,OpenAI 的 Gym 支持的简单环境非常有用。于是,谷歌正式发布 Dopamine 2.0,这一版本包括了对离散域 Gym 环境(如离散状态和动作)的支持。框架的核心保持不变,只是简单地概括了与环境的接口。为了向后兼容,用户仍然可以下载 1.0 版本。


此外,新版本还包括两个经典控制环境的默认配置:CartPole 和 Acrobot;在这些环境中,用户可以在几分钟内训练 Dopamine 代理。与标准 Atari 2600 游戏的训练时间(标准 GPU 上大约 5 天)相比,这些环境允许研究人员在更大规模的 Atari 游戏上测试比之前更快地迭代研究思路。新版本还包括一个合作实验室,演示如何在 Cartpole 和 Acrobot 上训练代理。最后,GymPreprocessing 类为如何将 Dopamine 与其他自定义环境一起使用提供了示例。


拓展阅读


吊打OpenAI!谷歌重磅开源强化学习框架Dopamine


2019-02-09 09:004163
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 278.7 次阅读, 收获喜欢 1301 次。

关注

评论

发布
暂无评论
发现更多内容

这款 IDEA 插件太好用了,堪称日志管理神器!

是月月啊2023

ieda

从概念到实践,带你掌握层次递归查询

华为云开发者联盟

数据库 后端 华为云 华为云GaussDB 华为云开发者联盟

3DCAT+上汽奥迪:打造新零售汽车配置器实时云渲染解决方案

3DCAT实时渲染

实时云渲染 实时渲染云 汽车虚拟仿真 汽车3D可视化

快速认识什么是:Docker

不在线第一只蜗牛

Docker 运维 容器化

开发体育直播系统如何通过结合赛事数据提升平台价值

软件开发-梦幻运营部

从0到1,手把手带你开发截图工具ScreenCap------001实现基本的截图功能

快乐非自愿限量之名

c++ 项目 qt 截图

PPT下载 | DataOps +大模型促进数据工程创新

数造万象

软件测试/人工智能|一文告诉你Python字典知识

霍格沃兹测试开发学社

当前最高4+级!大模型能力获信通院标准符合性验证

中关村科金

大模型 大模型评估

智能双录解决方案助力保险代销机构探索市场新机遇

中关村科金

保险 智能双录

从内容生产到企业经营,大模型将如何改变数字营销?

中关村科金

大数据 大模型 智能营销

【EMNLP 2023】基于知识迁移的跨语言机器阅读理解算法

阿里云大数据AI技术

类似MS Project的开源项目工具有哪些?15款开源项目管理工具对比

爱吃小舅的鱼

开源 项目管理 项目管理系统

软件测试/测试开发/人工智能丨ChatGPT为软件测试带来的变化

测试人

人工智能 软件测试

什么是item_get,它在电商中有什么作用?

技术冰糖葫芦

API 接口

软件测试/测试开发丨软件测试中的人工智能

测试人

人工智能 软件测试

机器学习与低代码开发:创新驱动的双剑合璧

EquatorCoco

机器学习 软件开发 低代码

大模型营销助手“打辅助”,加速保险展业

中关村科金

手把手系列!用 Milvus 和 Python 搭建电影推荐系统

Zilliz

Python 推荐系统 Milvus 电影推荐系统

IPQ4019 IPQ4029 Platform DR40x9 Provide 23-30KM Long Range Transfer AP Controller Support Openwrt Openwifi|802.11AC Solution

wallyslilly

IPQ4019 ipq4029

春晚回应吉祥物“龙辰辰”被质疑 AI 合成;周星驰 Web3 团队下月上线独立 App 丨 RTE 开发者日报 Vol.102

声网

SwitchResX for Mac(屏幕分辨率修改工具) v4.13.2完美激活版

mac

苹果mac Windows软件 switchresx

特权账号管理的误区

尚思卓越

运维 数据安全 网安

跨境代买淘宝系统,跨境代采系统,淘宝代购系统,淘宝代购集运系统

tbapi

淘宝代购系统 淘宝代购 淘宝代购集运系统 淘宝代采系统

软件测试/人工智能|一文告诉你Python集合相关知识

霍格沃兹测试开发学社

.NET使用分布式网络爬虫框架DotnetSpider快速开发爬虫功能

不在线第一只蜗牛

.net 分布式 爬虫

新动力、新引擎,企业知识大模型释放数字生产力

中关村科金

用html+css+js做canvas烟花模拟网页动画代码

小齐写代码

谷歌发布开源Dopamine 2.0,让强化学习变得更灵活_AI&大模型_谷歌博客_InfoQ精选文章