GMTC 全球大前端技术大会 8 折涨价倒计时 2 天,现在购票立减 ¥960 ! 了解详情
写点什么

DeepMind 发布 Acme 框架,可简化强化学习算法开发

2020 年 6 月 24 日

DeepMind 发布Acme框架,可简化强化学习算法开发

本文最初发表在 WIRED 网站,由 InfoQ 中文站翻译并分享。


近日,DeepMind 发布了 Acme,该框架旨在通过使人工智能驱动的智能体能够在不同的执行规模下运行,从而简化强化学习(Reinforcement learning,RL)算法的开发。Acme 背后的工程师和研究人员共同撰写了一篇关于该项工作的技术论文,根据这篇论文的说法,Acme 可以用来创建比以前的方法更具并行性的智能体。


强化学习涉及到智能体与环境交互以生成自己的训练数据,它已经在电子游戏、机器人技术、自动驾驶机器人出租车等领域取得了突破。最近取得的进展,在一定程度上要归因于所使用的训练数据量的增加,这激发了智能体与环境实例交互以快速积累经验的系统的设计。DeepMind 曾断言,这种从算法的单进程原型到分布式系统的扩展通常需要重新实现相关的智能体,这正是 Acme 框架的用武之地。


Acme 是一个用于训练强化学习智能体的开发套件,它试图解决复杂性和规模化的问题,其组件用于构建从算法和策略到学习者的不同抽象层次的智能体。我们的思路是,这样可以对想法进行迅速迭代,并在生产中对这些想法进行评估,主要是通过训练循环、强制日志记录和检查点。


在 Acme 中,行为者(actor)与环境密切互动,对环境进行观察,并采取行动,而这些行动又反过来反馈到环境中。在观察到随之而来的过渡后,行为者有机会更新它们的状态;这通常与它们的行动选择政策有关,这些政策决定了它们为应对环境采取哪些行动。一种特殊类型的 Acme actor 包括行为和学习组件,它们被称为“智能体”,它们的状态更新是由学习者(learner)组件中的一些步骤触发的。也就是说,智能体在大多数情况下都会将它们的行动选择权交给它们自己的行为组件。


Acme 提供了一个位于行为者和学习者组件之间的数据集模块,该模块由一个名为 Reverb 的低级存储系统提供支持,DeepMind 日前也发布了这个系统。此外,该框架还建立了一个用于插入 Reverb 的通用接口,从而实现了不同风格的预处理和观测数据的持续聚合。


行为组件、学习组件和存储组件被划分到 Acme 内部的不同线程或进程中,这带了两个好处:环境交互和学习过程异步发生,以及数据生成得到加速。在其他地方,Acme 的速率限制允许执行从学习到执行的理想速率,只要进程保持在某个定义的容忍度内,进程就可以畅通运行。例如,如果其中一个进程由于网络问题或资源不足而开始落后于另一个进程,速率限制器将阻止落后的进程,而另一个进程则迎头赶上。


除了这些工具和资源之外,Acme 还附带了一套示例智能体,作为各自强化学习算法的参考实现,以及强大的研究基线。DeepMind 表示,未来可能会有更多的产品问世。“通过提供这些……我们希望 Acme 将有助于改善强化学习中的可重复性问题,并赋予学术研究界用简单的构建模块来创建新智能体的能力,”研究人员写道,“此外,我们的基线应该提供额外的标准,以衡量该领域的进展。”


作者介绍:

Kyle Wiggers,技术记者,现居美国纽约市,为 VentureBeat 撰写有关人工智能的文章。


原文链接:


https://venturebeat.com/2020/06/03/deepmind-releases-acme-a-distributed-framework-for-reinforcement-learning-algorithm-development/


2020 年 6 月 24 日 14:241147
用户头像
刘燕 InfoQ记者

发布了 568 篇内容, 共 179.1 次阅读, 收获喜欢 1084 次。

关注

评论

发布
暂无评论
发现更多内容

第四周 作业一:系统架构【未陌】

a d e

系统架构

JAVA中的内部类详解

倔强的攻城狮

Java

Netty源码解析 -- 服务端启动过程

binecy

Netty nio

浅析:线程安全

朱华

Java 多线程与高并发

《谛听说智能》迎来圆满落幕,企业降本增效新指南

Geek_e670ab

反向保理系统设计

森林

mybatis plus 自动更新数据库时间的小坑

废材姑娘

Java mybatis

违规内容屡屡曝光下,企业如何自救

Geek_e670ab

读——沟通的艺术,看入人里,看出人外(第三章)

废材姑娘

甲方日常 29

句子

工作 随笔杂谈 日常

Week 2 学习总结

balsamspear

极客大学架构师训练营

打破区块链游戏经济的隔阂,或许该从跨游戏资产入手

CECBC区块链专委会

区块链 游戏

MySQL-技术专题-解决死锁问题

李浩宇/Alex

中国首个“芯片大学”即将落地;生成对抗网络(GAN)的数学原理全解

京东科技开发者

技术 网络 GAN 芯片

学习笔记:架构师训练营-第四周

四夕晖

高并发 系统架构演化

数字经济2.0—趋势、逻辑、选择

CECBC区块链专委会

区块链 数字经济

Kubeless 架构设计 | 玩转 Kubeless

donghui

Serverless kubeless

有状态的服务其实可以做更多的事情

架构师修行之路

分布式 微服务

Week 2命题作业

balsamspear

极客大学架构师训练营

第四周 作业二:系统架构学习总结【未陌】

a d e

系统架构 互联网架构

kubernetes是微服务发展的必然产物

架构师修行之路

Kubernetes 分布式 微服务

图解超难理解的 Paxos 算法(含伪代码)

多颗糖

分布式 算法 分布式系统 架构师 一致性算法

后疫情时期,看区块链如何赋能文创产业加快经济复苏?

CECBC区块链专委会

区块链技术 文创产业

都别拦着我,我要删库了

MySQL从删库到跑路

Linux oracle重装 MySQL 运维 root

深拷贝链表,python处理音频信号和数字信号、vim教程、swift单元测试和UI测试 John 易筋 ARTS 打卡 Week 21

John(易筋)

单元测试 ARTS 打卡计划 python 数字信号 vim教程 深拷贝链表

当我在听播客时,我在听什么?

Nydia

IDEA常用设置、快捷键及代码模板

jiangling500

IDEA

不走寻常路

滴滴技术

招聘 滴滴技术 地图与公交事业群分享月

MySQL-技术专题-mysql的联合索引

李浩宇/Alex

头条终面:写个消息中间件

yes的练级攻略

消息队列 面试技巧

MySQL-技术专题-事务和并发一致性问题

李浩宇/Alex

DeepMind 发布Acme框架,可简化强化学习算法开发-InfoQ