【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

DeepMind 推出 Agent57,在所有雅达利游戏上超越人类

  • 2020-05-19
  • 本文字数:1512 字

    阅读完需:约 5 分钟

DeepMind推出Agent57,在所有雅达利游戏上超越人类

谷歌旗下DeepMind的研究人员开发了一款名为Agent57的强化学习(RL)系统,该系统在街机学习环境下的全部 57 款雅达利 2600 游戏中得分都超过了人类。Agent57 是第一个在这种最难的游戏上全面超越人类的系统。


研究人员在 arXiv 上发表的一篇论文中介绍了这个系统以及一系列的实验。Agent57 基于的是 DeepMind 之前关于永不放弃(NGU)算法强化学习的工作成果。其底层架构由一个神经网络组成,该网络编码一组策略,范围从探索到利用,使用自适应机制在整个培训过程中对不同的策略进行优先级排序。另外的改进是,通过增加训练的稳定性来解决长期的可信度赋值问题。通过这些改进,Agent57 在所有游戏中的得分中值都高于 NGU。此外,在之前的人工智能系统根本不能玩的游戏中,Agent57 的得分表现也优于人类。


尽管 DeepMind 的大部分研究都集中玩游戏的 AI 上,包括像AlphaGo研究的经典棋盘游戏,据该团队他们的说法,其目标是“使用游戏作为系统开发的垫脚石,让 AI 应对更广泛的挑战。”研究人员认为雅达利 2600 系列游戏是用于评定 RL 表现的一个很好的基准,因为每款游戏都足以代表一个实际的挑战,而整个系列包含非常多品种,提供足够的多样化。尽管经过多年的研究,深度 Q-Networks (Deep Q-Networks,首个在多款游戏中实现人类水平表现的系统)也进行了多项改进,“所有深度强化学习代理始终未能在四款游戏中得分:蒙特祖玛的复仇(Montezuma’s Revenge)、陷阱(Pitfall)、飞向太空(Solaris)和滑雪(Skiing)。”若要玩好这些游戏,需要系统解决 RL 中的两个难题:探索-利用问题和长期信度分配问题。


探索-利用权衡是行为人在选择已经学习的策略和探索新的策略之间所必须达到的平衡。像《陷阱》和《蒙提祖玛的复仇》这样的游戏要求玩家在获得任何奖励之前先探索游戏“世界”。Agent57 的前身 NGU 使用了一种通过检测新的游戏状态而产生内在奖励的方式。于是,它学习了一套探索和利用政策。Agent57 使用一个多臂 bandits 元控制器改进了这一点,该控制器在训练期间调整了探索-利用平衡。


当代理采取的行动有延迟的报酬时,就会出现长期信度分配问题。例如,在滑雪游戏中,直到游戏结束才会给出分数,因此系统无法轻松学习游戏开始后不久所采取的动作的效果。Agent57 对 NGU 的改进是将 agent 的神经网络分为两部分:一部分学习预测行为的内在奖励,另一部分学习预测行为的外在奖励。研究人员发现,这“显著”提高了训练的稳定性。


DeepMind 团队将 Agent57 的性能与其他几个系统进行了比较,包括 NGU、循环回放分布式DQN (R2D2)和 MuZero。尽管 MuZero 在整个套件中拥有最高的平均值和中位数得分,但有一些游戏它“根本”就不会玩,得到的分数并不比随机策略好多少。Agent57 在最难的 20%的游戏中获得了最好的分数,并且是唯一在所有游戏中都超过人类表现的系统。


骇客新闻关于 Agent57 的讨论中,一名用户指出:


整个进化过程看起来越来越像 20 世纪 80 年代的专家系统,人们不断地添加越来越多的复杂性来“解决”一个特定的问题。对于强化学习,开始的时候,是简单而优雅的 DQN,而现在新的算法看起来像一个巨大的修修补补的大杂烩。事实上,NGU 极度复杂,看起来像是打满各种补丁的临时组合。现在在 NGU 的顶部,我们还加入了元控制器,甚至是 bandits ,最终成就了一款几乎无所不包的工具。


DeepMind 成立于 2010 年,2014 年被谷歌收购。DeepMind 开发的 AlphaGo 在 2016 年击败了最优秀的人类围棋选手之一。


原文链接:


DeepMind’s Agent57 Outperforms Humans on All Atari 2600 Games


译者简介:


冬雨,小小技术宅一枚,关注编程、软件工程、敏捷、DevOps、云计算等领域,非常乐意将国外新鲜的 IT 资讯和深度技术文章翻译分享给大家。


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2020-05-19 14:381401

评论

发布
暂无评论
发现更多内容

如何判断线程池已经执行完所有任务了?

CRMEB

从 OpenTSDB 到 TDengine,至数物联网平台技术改造之路

TDengine

数据库 tdengine 物联网

espnet中的transformer和LSTM语言模型对比实验

华为云开发者联盟

nlp Transformer espnet LSTM语言模型 aishell

华为公布终端云最新数据:终端全球月活用户超过7.3亿

叶落便知秋

华为

2.7万只!当前及未来仍将是量化交易的黄金期

非凸科技

rust 招聘 机器学习算法 算法交易

100行代码实现HarmonyOS“画图”应用,eTS开发走起!

HarmonyOS开发者

HarmonyOS ETS ArKUI 3.0

一个服务器轻松存储上亿数据,TDengine 在北京智能建筑边缘存储的应用

TDengine

数据库 tdengine 物联网

传统数据库改造难?华为云GaussDB“五心”解决

华为云开发者联盟

数据库 数字化转型 GaussDB 云数据库 华为云数据库

视觉Transformer中的输入可视化方法

百度Geek说

后端

java培训-JVM内存分配面试题分享

@零度

JVM JAVA开发

TiDB 在携程 | 实时标签处理平台优化实践

PingCAP

学生管理系统毕业架构设计

天琪实刚亮

「架构实战营」

大数据自动管理,24 小时服务无间断,StarRocks 如何做到?

StarRocks

大数据 数据分析 StarRocks

生产环境频繁内存溢出,原来就是因为这个“String类”

华为云开发者联盟

jdk JVM 内存 字符串 String类

大数据培训Flink 源码解析Async IO

@零度

flink 大数据开发

长治测评机构公司有几家?是正规的吗?

行云管家

网络安全 等保 等保测评

星河标杆案例 | 洞见科技与智慧齐鲁「基于隐私计算的省级公共数据开放平台建设」实践

洞见科技

隐私计算 数据流通

云效流水线 Flow 是什么?为什么选择云效「Flow」

阿里云云效

阿里云 云原生 持续交付 研发 云效流水线 Flow

亚马逊云科技创新大会 | 云基础架构

亚马逊云科技 (Amazon Web Services)

架构

云效持续交付流水线,免费还好用!

阿里云云效

云计算 阿里云 持续集成 持续交付 持续交付流水线

学习编程是最好的复利方式

FunTester

FunTester

NFT游戏NFT交易系统开发技术

薇電13242772558

NFT

机器使用成本下降 50%,TDengine 在同程旅行基础监控中的实践

TDengine

数据库 tdengine

网络编程入门从未如此简单(三):什么是IPv6?漫画式图文,一篇即懂!

JackJiang

网络编程 ipv6 ipv4 即时通讯IM

web前端培训-MySQL的索引下推解析

@零度

MySQL 前端开发

减少计算、简化架构——TDengine在灌区信息化平台中的应用

TDengine

数据库 tdengine 物联网

昇思MindSpore行至2022,开源社区成就生态共赢

科技热闻

昇思MindSpore行至2022,开源社区成就生态共赢

科技热闻

得物技术登录组件重构

得物技术

重构 用户增长 增长 组件 用户登录

固定资产管理系统的主要功能和优点

低代码小观

低代码 企业管理 资产管理 企业管理系统 CRM系统

《LeetCode刷题报告》题解内容 Ⅲ

謓泽

3月月更

DeepMind推出Agent57,在所有雅达利游戏上超越人类_AI&大模型_Anthony Alford_InfoQ精选文章