2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

谷歌发布开源 Dopamine 2.0,让强化学习变得更灵活

  • 2019-02-09
  • 本文字数:715 字

    阅读完需:约 2 分钟

谷歌发布开源Dopamine 2.0,让强化学习变得更灵活

强化学习(RL)已成为最受欢迎的机器学习领域之一,并且在过去几年中取得了许多重大进展。因此,研究人员和教育工作者越来越需要获得一个清晰可靠的 RL 研究和教育框架。去年 8 月,谷歌发布了一款全新的开源强化学习框架 Dopamine,该框架基于 TensorFlow,主打灵活性、稳定性、复现性,能够提供快速的基准测试。


今天,谷歌发布 Dopamine 2.0,为强化学习提供了更高的灵活性以及更多的测试环境。


去年八月,谷歌发布了 Dopamine,这是一款灵活的强化学习框架。初始版本专注于特定类型的 RL 研究:基于 Arcade 学习环境(一个成熟的、易于理解的基准)和四个基于值的代理 DQN、C51、Rainbow 代理的简化版本以及隐式分位数网络代理实现的。


开源地址:https://github.com/google/dopamine


据官方博客介绍:


开发小组收到的最常见的请求之一是对更多环境的支持。这证实了他们在内部看到的情况,在测试新算法时,OpenAI 的 Gym 支持的简单环境非常有用。于是,谷歌正式发布 Dopamine 2.0,这一版本包括了对离散域 Gym 环境(如离散状态和动作)的支持。框架的核心保持不变,只是简单地概括了与环境的接口。为了向后兼容,用户仍然可以下载 1.0 版本。


此外,新版本还包括两个经典控制环境的默认配置:CartPole 和 Acrobot;在这些环境中,用户可以在几分钟内训练 Dopamine 代理。与标准 Atari 2600 游戏的训练时间(标准 GPU 上大约 5 天)相比,这些环境允许研究人员在更大规模的 Atari 游戏上测试比之前更快地迭代研究思路。新版本还包括一个合作实验室,演示如何在 Cartpole 和 Acrobot 上训练代理。最后,GymPreprocessing 类为如何将 Dopamine 与其他自定义环境一起使用提供了示例。


拓展阅读


吊打OpenAI!谷歌重磅开源强化学习框架Dopamine


2019-02-09 09:004464
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 305.7 次阅读, 收获喜欢 1306 次。

关注

评论

发布
暂无评论
发现更多内容

苏宁商品数据采集丨苏宁商品详情数据接口(suning.item_get)

tbapi

苏宁 苏宁API接口 苏宁商品数据采集 苏宁商品详情数据接口

TDengine 助力中电启明星处理高复杂性和大数据量时序数据

TDengine

数据库 tdengine 时序数据库

hexo 实战:(三)独立博客运营总结

北桥苏

Hexo 独立博客搭建

Claude3对比GPT4有哪些优点?

蓉蓉

GPT-4 Claude

Linux 软件安装与卸载

左诗右码

Linux

curl 使用:命令行中的 HTTP 客户端

左诗右码

Linux

大型国民老牌药品医疗企业如何借助实时数仓冲破数据孤岛桎梏,拥抱数据驱动的经营管理模式

tapdata

数据孤岛解决方案 多源异构数据融合 doris实时数仓

速卖通平台数据采集丨速卖通商品详情数据接口(aliexpress.item_get)

tbapi

速卖通商品详情数据接口 速卖通API接口 速卖通

如何解决Oracle数据表入库中文乱码问题

伤感汤姆布利柏

唯品会商品数据采集丨唯品会商品详情数据接口(VIP.item_get)

tbapi

唯品会商品详情数据接口 唯品会 唯品会商品数据采集

每秒50万行——MySQL写入压测并发实践

FunTester

软件测试学习笔记丨Junit5参数化用例

测试人

软件测试 JUnit

精准掌握唯品会商品详情API:电商数据分析的秘钥

Noah

人工智能 | 大模型之提示词工程:少样本提示

测吧(北京)科技有限公司

测试

5M1E,软件质量管理最佳解决方案

敏捷开发

项目管理 敏捷 精益 产品质量管理 5M1E

闲鱼商品详情数据接口(goodfish.item_get)

tbapi

闲鱼 闲鱼API 闲鱼商品详情数据接口

极限编程 | 合格的系统隐喻实践是什么样的?

敏捷开发

编程 敏捷开发 软件开发 Bob大叔 极限编程

谷歌发布开源Dopamine 2.0,让强化学习变得更灵活_AI&大模型_谷歌博客_InfoQ精选文章