阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

DeepMind 发布 Acme 框架,可简化强化学习算法开发

  • 2020-06-24
  • 本文字数:1276 字

    阅读完需:约 4 分钟

DeepMind 发布Acme框架,可简化强化学习算法开发

本文最初发表在 WIRED 网站,由 InfoQ 中文站翻译并分享。


近日,DeepMind 发布了 Acme,该框架旨在通过使人工智能驱动的智能体能够在不同的执行规模下运行,从而简化强化学习(Reinforcement learning,RL)算法的开发。Acme 背后的工程师和研究人员共同撰写了一篇关于该项工作的技术论文,根据这篇论文的说法,Acme 可以用来创建比以前的方法更具并行性的智能体。


强化学习涉及到智能体与环境交互以生成自己的训练数据,它已经在电子游戏、机器人技术、自动驾驶机器人出租车等领域取得了突破。最近取得的进展,在一定程度上要归因于所使用的训练数据量的增加,这激发了智能体与环境实例交互以快速积累经验的系统的设计。DeepMind 曾断言,这种从算法的单进程原型到分布式系统的扩展通常需要重新实现相关的智能体,这正是 Acme 框架的用武之地。


Acme 是一个用于训练强化学习智能体的开发套件,它试图解决复杂性和规模化的问题,其组件用于构建从算法和策略到学习者的不同抽象层次的智能体。我们的思路是,这样可以对想法进行迅速迭代,并在生产中对这些想法进行评估,主要是通过训练循环、强制日志记录和检查点。


在 Acme 中,行为者(actor)与环境密切互动,对环境进行观察,并采取行动,而这些行动又反过来反馈到环境中。在观察到随之而来的过渡后,行为者有机会更新它们的状态;这通常与它们的行动选择政策有关,这些政策决定了它们为应对环境采取哪些行动。一种特殊类型的 Acme actor 包括行为和学习组件,它们被称为“智能体”,它们的状态更新是由学习者(learner)组件中的一些步骤触发的。也就是说,智能体在大多数情况下都会将它们的行动选择权交给它们自己的行为组件。


Acme 提供了一个位于行为者和学习者组件之间的数据集模块,该模块由一个名为 Reverb 的低级存储系统提供支持,DeepMind 日前也发布了这个系统。此外,该框架还建立了一个用于插入 Reverb 的通用接口,从而实现了不同风格的预处理和观测数据的持续聚合。


行为组件、学习组件和存储组件被划分到 Acme 内部的不同线程或进程中,这带了两个好处:环境交互和学习过程异步发生,以及数据生成得到加速。在其他地方,Acme 的速率限制允许执行从学习到执行的理想速率,只要进程保持在某个定义的容忍度内,进程就可以畅通运行。例如,如果其中一个进程由于网络问题或资源不足而开始落后于另一个进程,速率限制器将阻止落后的进程,而另一个进程则迎头赶上。


除了这些工具和资源之外,Acme 还附带了一套示例智能体,作为各自强化学习算法的参考实现,以及强大的研究基线。DeepMind 表示,未来可能会有更多的产品问世。“通过提供这些……我们希望 Acme 将有助于改善强化学习中的可重复性问题,并赋予学术研究界用简单的构建模块来创建新智能体的能力,”研究人员写道,“此外,我们的基线应该提供额外的标准,以衡量该领域的进展。”

作者介绍:

Kyle Wiggers,技术记者,现居美国纽约市,为 VentureBeat 撰写有关人工智能的文章。


原文链接:


https://venturebeat.com/2020/06/03/deepmind-releases-acme-a-distributed-framework-for-reinforcement-learning-algorithm-development/


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-06-24 14:241744
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 493.4 次阅读, 收获喜欢 1966 次。

关注

评论

发布
暂无评论
发现更多内容

带你全面的了解二叉树

华为云开发者联盟

数据 二叉树 存储 数据检索 结点

金九银十,Java程序员面试历程(附字节,阿里,百度,网易,美团等面经)

Java 程序员 架构 面试 后端

自建开源Cassandra与GaussDB(for Cassandra)性能对比测试报告

华为云数据库小助手

性能分析 GaussDB 华为云数据库 GaussDB(for Cassandra) 开源Cassandra

Alibaba官网最新版:SpringBoot+SpringCloud微服务全栈开发小册

Java 程序员 架构 面试 计算机

一朵云、一张网、一体化 ——GRTN 打造最佳流媒体场景实践

阿里云视频云

云计算 阿里云 边缘计算 视频云 流媒体传输

被 Docker 日志坑惨了

AlwaysBeta

Docker 容器 运维

应用层软件开发的一些总结

SOA开发者

K6 在 Nebula Graph 上的压测实践

NebulaGraph

Dubbo 和 HSF 在阿里巴巴的实践:携手走向下一代云原生微服务

阿里巴巴中间件

阿里云 云原生 中间件

残疾人大学生就业难?「低代码」应用,让就业更简单!

优秀

低代码

什么是嵌入式系统及其应用?

cdhqyj

嵌入式

Redis分布式锁,你用对了吗?

Java 架构 面试 分布式 后端

与顶级互联网公司技术大佬面对面聊聊RocketMQ吧!

阿里巴巴中间件

阿里云 开源 RocketMQ 云原生 中间件

T-BOX专业分享

SOA开发者

秀出新天际的 SpringBoot 笔记,让开发像搭积木一样简单

Java 架构 面试 Spring Boot

如何加速云原生数据应用?这个开源项目备受关注

阿里巴巴中间件

阿里云 开源 云原生 中间件

首个RISC-V计算机芯片现身欧洲处理器计划

WorkPlus

丧心病狂!阿里内部Spring Cloud高薪笔记流失,GitHub夜获星百万

Java 程序员 面试 计算机 阿里巴巴‘

带你了解 HBase 数据模型和 HBase 架构

华为云开发者联盟

数据库 HBase 数据模型 HBase 架构 NoSQL 数据库

F5 Networks收购云安全初创公司Threat Stack

WorkPlus

漫画 | 一口气搞懂 Serverless !

阿里巴巴中间件

阿里云 云原生 中间件

12 堂干货直播课,8 位 Serverless 大咖带你零基础晋级 Serverless 高手

阿里巴巴中间件

阿里云 Serverless 云原生 中间件

Vite + Vue3 + OpenLayers 同步两个地图基础操作

德育处主任

大前端 Web 地图 vite openlayers

「技术人生」第6篇:技术同学应该如何理解业务?

阿里巴巴中间件

阿里云 云原生 技术人生

Go 语言网络库 getty 的那些事

阿里巴巴中间件

开源 云原生 Go 语言

这本Alibaba“绝密”SpringBoot精髓到底厉害在哪里

Java 程序员 面试 springboot 计算机

谁说GitHub才能出经典?来自牛客网的Java程序员逆袭手册才是YYDS

Java 程序员 面试 计算机 牛客网

Serverless Devs 2.0 开箱测评:Serverless 开发最佳实践

阿里巴巴中间件

阿里云 Serverless 云原生 中间件

Webrtc ICE 框架

webrtc developer

WebRTC p2p ICE

云信小课堂 | 聊天室内容审核很头疼?3步解决!

网易云信

人工智能 AI 视频

大众汽车迟到的软件优先思维

SOA开发者

DeepMind 发布Acme框架,可简化强化学习算法开发_AI&大模型_KYLE WIGGERS_InfoQ精选文章