阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

DeepMind 发布 Acme 框架,可简化强化学习算法开发

  • 2020-06-24
  • 本文字数:1276 字

    阅读完需:约 4 分钟

DeepMind 发布Acme框架,可简化强化学习算法开发

本文最初发表在 WIRED 网站,由 InfoQ 中文站翻译并分享。


近日,DeepMind 发布了 Acme,该框架旨在通过使人工智能驱动的智能体能够在不同的执行规模下运行,从而简化强化学习(Reinforcement learning,RL)算法的开发。Acme 背后的工程师和研究人员共同撰写了一篇关于该项工作的技术论文,根据这篇论文的说法,Acme 可以用来创建比以前的方法更具并行性的智能体。


强化学习涉及到智能体与环境交互以生成自己的训练数据,它已经在电子游戏、机器人技术、自动驾驶机器人出租车等领域取得了突破。最近取得的进展,在一定程度上要归因于所使用的训练数据量的增加,这激发了智能体与环境实例交互以快速积累经验的系统的设计。DeepMind 曾断言,这种从算法的单进程原型到分布式系统的扩展通常需要重新实现相关的智能体,这正是 Acme 框架的用武之地。


Acme 是一个用于训练强化学习智能体的开发套件,它试图解决复杂性和规模化的问题,其组件用于构建从算法和策略到学习者的不同抽象层次的智能体。我们的思路是,这样可以对想法进行迅速迭代,并在生产中对这些想法进行评估,主要是通过训练循环、强制日志记录和检查点。


在 Acme 中,行为者(actor)与环境密切互动,对环境进行观察,并采取行动,而这些行动又反过来反馈到环境中。在观察到随之而来的过渡后,行为者有机会更新它们的状态;这通常与它们的行动选择政策有关,这些政策决定了它们为应对环境采取哪些行动。一种特殊类型的 Acme actor 包括行为和学习组件,它们被称为“智能体”,它们的状态更新是由学习者(learner)组件中的一些步骤触发的。也就是说,智能体在大多数情况下都会将它们的行动选择权交给它们自己的行为组件。


Acme 提供了一个位于行为者和学习者组件之间的数据集模块,该模块由一个名为 Reverb 的低级存储系统提供支持,DeepMind 日前也发布了这个系统。此外,该框架还建立了一个用于插入 Reverb 的通用接口,从而实现了不同风格的预处理和观测数据的持续聚合。


行为组件、学习组件和存储组件被划分到 Acme 内部的不同线程或进程中,这带了两个好处:环境交互和学习过程异步发生,以及数据生成得到加速。在其他地方,Acme 的速率限制允许执行从学习到执行的理想速率,只要进程保持在某个定义的容忍度内,进程就可以畅通运行。例如,如果其中一个进程由于网络问题或资源不足而开始落后于另一个进程,速率限制器将阻止落后的进程,而另一个进程则迎头赶上。


除了这些工具和资源之外,Acme 还附带了一套示例智能体,作为各自强化学习算法的参考实现,以及强大的研究基线。DeepMind 表示,未来可能会有更多的产品问世。“通过提供这些……我们希望 Acme 将有助于改善强化学习中的可重复性问题,并赋予学术研究界用简单的构建模块来创建新智能体的能力,”研究人员写道,“此外,我们的基线应该提供额外的标准,以衡量该领域的进展。”

作者介绍:

Kyle Wiggers,技术记者,现居美国纽约市,为 VentureBeat 撰写有关人工智能的文章。


原文链接:


https://venturebeat.com/2020/06/03/deepmind-releases-acme-a-distributed-framework-for-reinforcement-learning-algorithm-development/


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2020-06-24 14:241739
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 492.6 次阅读, 收获喜欢 1966 次。

关注

评论

发布
暂无评论
发现更多内容

IDaaS 系统ArkID一账通内置插件:图形验证码认证因素的配置流程

龙归科技

单点登录 Idaas

AI 时代的视频云转码移动端化——更快、更好、更低、更广

ZEGO即构

AI 音视频开发 视频云转码

快速上手 Pytest + Requests + Allure2 测试框架实战技能

霍格沃兹测试开发学社

干货|app自动化测试之Capability 使用进阶

霍格沃兹测试开发学社

干货|app自动化测试之模拟器控制

霍格沃兹测试开发学社

供应链管理是对产品流、信息流、资金流综合管理

水滴

供应链

The main application of radio technology in aerospace field/IPQ4019 IPQ4029 ,802.11AC 2x2 2.4G&5G

wallys-wifi6

IPQ4019 ipq4029

干货|移动端App自动化之触屏操作自动化

霍格沃兹测试开发学社

性能测试实战 | 修改 JMeter 源码,定制化聚合压测报告

霍格沃兹测试开发学社

技术分享 | 测试平台开发-前端开发之Vue.js 框架

霍格沃兹测试开发学社

瓴羊智能客服,基于钉钉重磅推出一体化的智能服务解决方案

瓴羊企业智能服务

干货|app自动化之如何参数化用例

霍格沃兹测试开发学社

干货|app自动化测试之Appium 源码修改定制分析

霍格沃兹测试开发学社

干货|app自动化测试之设备交互API详解

霍格沃兹测试开发学社

干货|接口测试必备技能-常见接口协议解析

霍格沃兹测试开发学社

软件测试 | 测试开发 | 测试人生 | 三十而立终圆大厂梦,测试开发开启新征程

测吧(北京)科技有限公司

软件测试 测试 测试开发

NFT拍卖交易系统开发NFT商城

薇電13242772558

NFT

云原生数据库极致弹性体验 - Amazon Aurora Serverless v2

亚马逊云科技 (Amazon Web Services)

数据库 云原生

干货|app自动化测试之Appium 原理 与 JsonWP 协议分析

霍格沃兹测试开发学社

技术分享 | Spring Boot 集成 Swagger

霍格沃兹测试开发学社

软件测试 | 测试开发 | Jenkins 持续集成体系介绍

测吧(北京)科技有限公司

软件测试 测试

持续交付-Blue Ocean 应用

霍格沃兹测试开发学社

软件测试中的『草莓酱定律』

BY林子

敏捷测试 草莓酱定律 温伯格

干货|app自动化测试之Andriod WebView如何测试

霍格沃兹测试开发学社

Python图像处理丨带你认识图像量化处理及局部马赛克特效

华为云开发者联盟

人工智能 企业号九月金秋榜

软件测试 | 测试开发 | Jenkins job 机制该如何使用?

测吧(北京)科技有限公司

测试 测试工程师

软件测试 | 测试开发 | 测试人生 | 97年双非学历的小哥哥,2线城市涨薪100%,我酸了......

测吧(北京)科技有限公司

软件测试 测试

干货|app自动化测试之Appium 源码分析

霍格沃兹测试开发学社

干货|app自动化测试之Appium问题分析及定位

霍格沃兹测试开发学社

技术分享 | Spring Boot 异常处理

霍格沃兹测试开发学社

技术分享 | 测试平台开发-前端开发之Vue.js 框架的使用

霍格沃兹测试开发学社

DeepMind 发布Acme框架,可简化强化学习算法开发_AI&大模型_KYLE WIGGERS_InfoQ精选文章