AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

DeepMind 推出 Agent57,在所有雅达利游戏上超越人类

  • 2020-05-19
  • 本文字数:1512 字

    阅读完需:约 5 分钟

DeepMind推出Agent57,在所有雅达利游戏上超越人类

谷歌旗下DeepMind的研究人员开发了一款名为Agent57的强化学习(RL)系统,该系统在街机学习环境下的全部 57 款雅达利 2600 游戏中得分都超过了人类。Agent57 是第一个在这种最难的游戏上全面超越人类的系统。


研究人员在 arXiv 上发表的一篇论文中介绍了这个系统以及一系列的实验。Agent57 基于的是 DeepMind 之前关于永不放弃(NGU)算法强化学习的工作成果。其底层架构由一个神经网络组成,该网络编码一组策略,范围从探索到利用,使用自适应机制在整个培训过程中对不同的策略进行优先级排序。另外的改进是,通过增加训练的稳定性来解决长期的可信度赋值问题。通过这些改进,Agent57 在所有游戏中的得分中值都高于 NGU。此外,在之前的人工智能系统根本不能玩的游戏中,Agent57 的得分表现也优于人类。


尽管 DeepMind 的大部分研究都集中玩游戏的 AI 上,包括像AlphaGo研究的经典棋盘游戏,据该团队他们的说法,其目标是“使用游戏作为系统开发的垫脚石,让 AI 应对更广泛的挑战。”研究人员认为雅达利 2600 系列游戏是用于评定 RL 表现的一个很好的基准,因为每款游戏都足以代表一个实际的挑战,而整个系列包含非常多品种,提供足够的多样化。尽管经过多年的研究,深度 Q-Networks (Deep Q-Networks,首个在多款游戏中实现人类水平表现的系统)也进行了多项改进,“所有深度强化学习代理始终未能在四款游戏中得分:蒙特祖玛的复仇(Montezuma’s Revenge)、陷阱(Pitfall)、飞向太空(Solaris)和滑雪(Skiing)。”若要玩好这些游戏,需要系统解决 RL 中的两个难题:探索-利用问题和长期信度分配问题。


探索-利用权衡是行为人在选择已经学习的策略和探索新的策略之间所必须达到的平衡。像《陷阱》和《蒙提祖玛的复仇》这样的游戏要求玩家在获得任何奖励之前先探索游戏“世界”。Agent57 的前身 NGU 使用了一种通过检测新的游戏状态而产生内在奖励的方式。于是,它学习了一套探索和利用政策。Agent57 使用一个多臂 bandits 元控制器改进了这一点,该控制器在训练期间调整了探索-利用平衡。


当代理采取的行动有延迟的报酬时,就会出现长期信度分配问题。例如,在滑雪游戏中,直到游戏结束才会给出分数,因此系统无法轻松学习游戏开始后不久所采取的动作的效果。Agent57 对 NGU 的改进是将 agent 的神经网络分为两部分:一部分学习预测行为的内在奖励,另一部分学习预测行为的外在奖励。研究人员发现,这“显著”提高了训练的稳定性。


DeepMind 团队将 Agent57 的性能与其他几个系统进行了比较,包括 NGU、循环回放分布式DQN (R2D2)和 MuZero。尽管 MuZero 在整个套件中拥有最高的平均值和中位数得分,但有一些游戏它“根本”就不会玩,得到的分数并不比随机策略好多少。Agent57 在最难的 20%的游戏中获得了最好的分数,并且是唯一在所有游戏中都超过人类表现的系统。


骇客新闻关于 Agent57 的讨论中,一名用户指出:


整个进化过程看起来越来越像 20 世纪 80 年代的专家系统,人们不断地添加越来越多的复杂性来“解决”一个特定的问题。对于强化学习,开始的时候,是简单而优雅的 DQN,而现在新的算法看起来像一个巨大的修修补补的大杂烩。事实上,NGU 极度复杂,看起来像是打满各种补丁的临时组合。现在在 NGU 的顶部,我们还加入了元控制器,甚至是 bandits ,最终成就了一款几乎无所不包的工具。


DeepMind 成立于 2010 年,2014 年被谷歌收购。DeepMind 开发的 AlphaGo 在 2016 年击败了最优秀的人类围棋选手之一。


原文链接:


DeepMind’s Agent57 Outperforms Humans on All Atari 2600 Games


译者简介:


冬雨,小小技术宅一枚,关注编程、软件工程、敏捷、DevOps、云计算等领域,非常乐意将国外新鲜的 IT 资讯和深度技术文章翻译分享给大家。


2020-05-19 14:381849

评论

发布
暂无评论
发现更多内容

Apache Doris 全新分区策略 Auto Partition 应用场景与功能详解

SelectDB

数据库 数据仓库 OLAP Doris 分区策略

从0到1学会Jetty内存马注入

我再BUG界嘎嘎乱杀

黑客 网络安全 jetty 网安 内存马

首届中文NL2SQL挑战赛亚军比赛攻略_BugCreater

阿里云天池

汇聚行业实践,树立应用典范——《Serverless应用实践案例集》重磅发布

Serverless 华为云

一文带你玩转全新采集配置 CRD:AliyunPipelineConfig

阿里巴巴云原生

阿里云 云原生 iLogtail

从 ClickHouse 到 Apache Doris:快成物流的数智化货运应用实践

SelectDB

数据库 数据仓库 Doris 大数据 开源 实时分析

FashionAI比赛-服饰属性标签识别比赛赛后总结(来自 Top14 Team)

阿里云天池

企业级敏捷框架:业务驱动型敏捷与产品需求团队

俞凡

团队管理 敏捷

如何在C++、PHP、GO中使用AI生成PPT API接口

幂简集成

API AI API

电商平台服务器 IP 地址遭受攻击?

网络安全服务

服务器 电商平台 DDoS IP地址 DDoS 攻击

如何在生成式AI里使用 Ray Data 进行大规模 RAG 应用的 Embedding Inference

Zilliz

人工智能 非结构化数据 向量数据库 LLM 大语言模型

鸿蒙智行享界S9发布上市|小艺一语直达奢享空间

极客天地

OpenAI 收购 Rockset:大模型如何使用 OLAP 赋能实时洞察业务场景

腾讯云大数据

大模型 rag

人工智能助力芯片半导体发展,开拓芯片设计技术新趋势

Altair RapidMiner

人工智能 芯片 半导体 altair

国内差旅报销系统排名:2024年最主流7大选择

易成研发中心

项目管理 报销管理系统

如何快速集成京东商品详情API

技术冰糖葫芦

api 货币化 API 接口 API 文档 API 测试

开发运营级海外语聊APP源码需要考虑哪些?借鉴Falla、WePlay、YoHo

山东布谷科技胡月

海外语聊APP 语聊APP开发 语音聊天室APP 语聊源码 语聊平台搭建

美年健康AI算法大赛--季军解决方案

阿里云天池

被怼了:acks=all消息也会丢失?

王磊

Java

Omnissa Horizon 8 2406 (8.13) 发布下载 - 虚拟桌面基础架构 (VDI) 和应用软件

sysin

vSphere vmware esxi horizon

数据飞轮驱动消费行业变革,火山引擎数智平台助力门店数智化转型

字节跳动数据平台

数字化转型 云服务 数据平台 火山引擎 数据飞轮

盐城销量比赛 -- YR Tech团队比赛攻略

阿里云天池

ppt目录页怎么做?2款自动生成PPT目录的AI工具推荐!

彭宏豪95

效率工具 职场 PPT 办公软件 AI生成PPT

虾皮商品数据接口全解析:高效采集,精准运营新利器

tbapi

shopee API shopee商品详情接口 shopee商品详情数据采集

OpenAI 重大人事变动,联创加入死敌;阿里视频框架 Tora 操控物体运动轨迹丨 RTE 开发者日报

声网

Mac硬盘检测:SMART Utility for mac 激活版

你的猪会飞吗

mac软件下载 mac破解软件下载

TeleVis:基于 NLP 的新闻舆情可视化项目

阿里云天池

1688商品详情API返回值:商品库存管理的智能化

技术冰糖葫芦

api 货币化 API 接口 API 文档 API 测试

Koupleless 可演进架构的设计与实践|当我们谈降本时,我们谈些什么

SOFAStack

开源 微服务 应用 架构治理 应用构建

DeepMind推出Agent57,在所有雅达利游戏上超越人类_AI&大模型_Anthony Alford_InfoQ精选文章