【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

DeepMind 推出 Agent57,在所有雅达利游戏上超越人类

  • 2020-05-19
  • 本文字数:1512 字

    阅读完需:约 5 分钟

DeepMind推出Agent57,在所有雅达利游戏上超越人类

谷歌旗下DeepMind的研究人员开发了一款名为Agent57的强化学习(RL)系统,该系统在街机学习环境下的全部 57 款雅达利 2600 游戏中得分都超过了人类。Agent57 是第一个在这种最难的游戏上全面超越人类的系统。


研究人员在 arXiv 上发表的一篇论文中介绍了这个系统以及一系列的实验。Agent57 基于的是 DeepMind 之前关于永不放弃(NGU)算法强化学习的工作成果。其底层架构由一个神经网络组成,该网络编码一组策略,范围从探索到利用,使用自适应机制在整个培训过程中对不同的策略进行优先级排序。另外的改进是,通过增加训练的稳定性来解决长期的可信度赋值问题。通过这些改进,Agent57 在所有游戏中的得分中值都高于 NGU。此外,在之前的人工智能系统根本不能玩的游戏中,Agent57 的得分表现也优于人类。


尽管 DeepMind 的大部分研究都集中玩游戏的 AI 上,包括像AlphaGo研究的经典棋盘游戏,据该团队他们的说法,其目标是“使用游戏作为系统开发的垫脚石,让 AI 应对更广泛的挑战。”研究人员认为雅达利 2600 系列游戏是用于评定 RL 表现的一个很好的基准,因为每款游戏都足以代表一个实际的挑战,而整个系列包含非常多品种,提供足够的多样化。尽管经过多年的研究,深度 Q-Networks (Deep Q-Networks,首个在多款游戏中实现人类水平表现的系统)也进行了多项改进,“所有深度强化学习代理始终未能在四款游戏中得分:蒙特祖玛的复仇(Montezuma’s Revenge)、陷阱(Pitfall)、飞向太空(Solaris)和滑雪(Skiing)。”若要玩好这些游戏,需要系统解决 RL 中的两个难题:探索-利用问题和长期信度分配问题。


探索-利用权衡是行为人在选择已经学习的策略和探索新的策略之间所必须达到的平衡。像《陷阱》和《蒙提祖玛的复仇》这样的游戏要求玩家在获得任何奖励之前先探索游戏“世界”。Agent57 的前身 NGU 使用了一种通过检测新的游戏状态而产生内在奖励的方式。于是,它学习了一套探索和利用政策。Agent57 使用一个多臂 bandits 元控制器改进了这一点,该控制器在训练期间调整了探索-利用平衡。


当代理采取的行动有延迟的报酬时,就会出现长期信度分配问题。例如,在滑雪游戏中,直到游戏结束才会给出分数,因此系统无法轻松学习游戏开始后不久所采取的动作的效果。Agent57 对 NGU 的改进是将 agent 的神经网络分为两部分:一部分学习预测行为的内在奖励,另一部分学习预测行为的外在奖励。研究人员发现,这“显著”提高了训练的稳定性。


DeepMind 团队将 Agent57 的性能与其他几个系统进行了比较,包括 NGU、循环回放分布式DQN (R2D2)和 MuZero。尽管 MuZero 在整个套件中拥有最高的平均值和中位数得分,但有一些游戏它“根本”就不会玩,得到的分数并不比随机策略好多少。Agent57 在最难的 20%的游戏中获得了最好的分数,并且是唯一在所有游戏中都超过人类表现的系统。


骇客新闻关于 Agent57 的讨论中,一名用户指出:


整个进化过程看起来越来越像 20 世纪 80 年代的专家系统,人们不断地添加越来越多的复杂性来“解决”一个特定的问题。对于强化学习,开始的时候,是简单而优雅的 DQN,而现在新的算法看起来像一个巨大的修修补补的大杂烩。事实上,NGU 极度复杂,看起来像是打满各种补丁的临时组合。现在在 NGU 的顶部,我们还加入了元控制器,甚至是 bandits ,最终成就了一款几乎无所不包的工具。


DeepMind 成立于 2010 年,2014 年被谷歌收购。DeepMind 开发的 AlphaGo 在 2016 年击败了最优秀的人类围棋选手之一。


原文链接:


DeepMind’s Agent57 Outperforms Humans on All Atari 2600 Games


译者简介:


冬雨,小小技术宅一枚,关注编程、软件工程、敏捷、DevOps、云计算等领域,非常乐意将国外新鲜的 IT 资讯和深度技术文章翻译分享给大家。


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-05-19 14:381418

评论

发布
暂无评论
发现更多内容

Java Web应用开发案例|模拟12306抢票

TiAmo

Java javaWeb 开发实例

一文读懂原生应用与混合应用

没有用户名丶

竞速榜实时离线对数方案演进介绍 | 京东云技术团队

京东科技开发者

实时数据 企业号 7 月 PK 榜 竞速榜 离线数据

新华水力:实现税务集中管理的新路径

用友BIP

税务管理

用友《大型企业税务数智化转型方法论》:推动企业数智化转型

用友BIP

税务管理

LED显示屏在高温的状态下工作影响有多大

Dylan

企业 常识 LED显示屏 户外LED显示屏 led显示屏厂家

javascript运算符与流程控制

timerring

JavaScript

Java高级特性——反射

java易二三

Java 编程 计算机

如何解决税务管理痛点?

用友BIP

税务管理

IPQ9554 with QCN6274 Based on QSDK|High-Performance Commercial WiFi 7 Solution

wallyslilly

ipq9554 qcn6274

数据库行业需要什么样的人才?高校老师这样说

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

MySQL事务隔离机制与实现原理详解(MySQL专栏启动)

java易二三

MySQL 数据库 程序员 计算机

Centos7系统中找不到yum及安装方法。

百度搜索:蓝易云

云计算 Linux centos 运维 yum

【实践篇】最全的【DDD领域建模】小白学习手册(文末附资料) | 京东云技术团队

京东科技开发者

架构 DDD 领域建模 企业号 7 月 PK 榜

MYSQL中JSON类型介绍 | 京东物流技术团队

京东科技开发者

json MySQL 数据库 企业号 7 月 PK 榜

微信业务架构图&学生管理系统架构设计

艾瑾行

架构实战营

长沙等保堡垒机选择哪家好?咨询电话多少?

行云管家

网络安全 等保 堡垒机 长沙

如何实现 MySQL 的读写分离?MySQL 主从复制原理的是啥?如何解决 MySQL 主从同步的延时问题?

java易二三

程序员 面试 计算机

[开源]免费开源MES系统

万界星空科技

开源

SOLAA2.0正式上线

科技热闻

行云管家荣获CFS第十二届财经峰会 “2023产品科技创新奖”

行云管家

信息安全 创新 云就算

企业纳税申报难题,用友为您解答!

用友BIP

纳税

RT-DETR:可以满足实时性要求的DETR模型

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 7 月 PK 榜

明道云与美洽产品生态合作介绍

明道云

使用 IDEA 远程 Debug 调试,太实用了!

java易二三

学习 编程 程序员 IDEA 计算机

乘风出海 提前锁定HDC2023耀星·领航出海论坛

最新动态

治水?智水!天翼云用科技解码智慧水务新发展!

天翼云开发者社区

云计算 大数据

你不知道的ES2023 | 京东云技术团队

京东科技开发者

JavaScript ecmascript 前端 ECMAScript 6 企业号 7 月 PK 榜

企业游学进华秋,助力电子产业创新与发展

华秋电子

捷报:斩获32项认证,6大奖项!

天翼云开发者社区

云计算

解析架构设计:构建可靠、高效的软件系统

前端连环话

前端架构 架构设计 前端工程化 技术 优化体系

DeepMind推出Agent57,在所有雅达利游戏上超越人类_AI&大模型_Anthony Alford_InfoQ精选文章