【AICon】开辟产业应用新天地,大模型重塑各行各业,精华内容上线58%!>>> 了解详情
写点什么

AlphaZero 进化论:从零开始,制霸所有棋类游戏

  • 2018-12-07
  • 本文字数:3556 字

    阅读完需:约 12 分钟

AlphaZero进化论:从零开始,制霸所有棋类游戏

2017 年末,DeepMind 推出了 AlphaZero——一套能够从零开始自主学习国际象棋、将棋(类似于日本版的国际象棋)以及围棋的技艺,从而全面超越各项目世界冠军的系统。


对于这一系统带来的初步成果,整个公司的研发人员都感到非常兴奋,并很高兴看到国际象棋界成员对此做出的热烈回应。他们在 AlphaZero 的棋艺当中发现了一种突破性、高度动态且“不同于传统”的对弈风格,这也使其完全不同于以往存在过的任何棋类游戏引擎。


今天,AlphaZero 登上了著名的《科学》杂志,并以封面论文的形式发表,它背后的公司 DeepMind 也在官方博客上撰文,为这一系统取得的最新成就进行了详细解析,InfoQ 将全文翻译整理如下:


今天,我们很高兴地发布 AlphaZero 的完整评估报告,这篇论文已经公开发表在《科学》杂志上:


http://science.sciencemag.org/content/362/6419/1140


评审编辑已经确认并更新了这些初步结果。论文描述了 AlphaZero 如何快速学习每一种棋类,包括在仅获得游戏基本规则、但完全不存在内置指导的前提下从随机游戏开始,一步步成长为有史以来最强大的棋手。


这种从零开始学习每种棋类的能力由于不受人类固有思维的约束,因此产生出一种独特、有悖于传统,但却极具创造性与动态思考的对弈风格。国际象棋大量马修·萨德勒(Matthew Sadler)与女子国际象棋大师娜塔莎·里根(Natasha Regan)在即将于明年 1 月出版的《游戏规则改变者(Game Changer)》一书中分析了 AlphaZero 进行的数千盘国际象棋对弈,并发现其风格不同于任何传统的国际象棋引擎。马修表示,“这就像是发现了古代棋艺大师的秘籍一样。”


传统的国际象棋引擎——包括世界计算机国际象棋冠军 Stockfish 与 IBM 广为人知的“深蓝”——依赖于数千条由顶尖人类棋手提供的规则与启发式方法。这些信息尝试解释游戏中的每一种可能性。将棋同样遵循此理,其程序仅适用于将棋本身,但采用与国际象棋程序类似的搜索引擎与算法。


AlphaZero 采取的方法则完全不同,其利用一套深层神经网络与大量通用型算法取代了那些手工制作的规则,而且这些算法除了棋类的基本规则之外一无所知。



在国际象棋当中,AlphaZero 仅用了 4 个小时便成功击败 Stockfish; 在将棋方面,其击败 Elmo 则仅用掉 2 个小时; 至于围棋,AlphaZero 在 30 个小时即击败曾于 2016 年压倒世界冠军李世石的 AlphaGo 版本。注意:每个训练步骤代表 4096 个盘面位置。


为了学习每种棋类,这套未经训练的神经网络会通过一种被称为强化学习的实验与试错过程完成数百万盘自我对弈。起初,其完全是在随机乱下; 但随着时间的推移,系统会从胜利、失败以及平局当中学习经验,从而调整神经网络参数,使其更有可能在未来的选择中做出有利判断。网络所需要的训练量取决于游戏的风格与复杂程度——国际象棋大约需要 9 个小时,将其大约需要 12 个小时,而围棋则需要 13 天。


这套经过训练的网络被用于指导一种搜索算法——被称为蒙特卡洛树搜索(简称 MCTS)——坐而选择当前盘面下最为有利的棋步。对于每一步棋,AlphaZero 所需要的位置搜索量只相当于传统国际象棋引擎的一小部分。例如在国际象棋当中,AlphaZero 每秒只需要搜索 6 万个位置; 相比之下,Stockfish 则需要搜索大约 6000 万个位置。



经过全面训练之后,这套系统被用于对抗最强大的传统国际象棋(Stockfish)与将棋(Elmo)引擎,甚至还包括 AlphaZero“一奶同胞”的大哥 AlphaGo——全球最强围棋棋手。


  • 每款程序都运行在专门设计的硬件之上。Stockfish 与 Elmo 采用 44 个 CPU 核心(与 TCEC 世界锦标赛时的情况保持一致),而 AlphaZero 与 AlphaGo Zero 则使用一台配备有 4 个第一代 TPU 与 44 个 CPU 核心的机器。第一代 TPU 的推理速度与英伟达 Titan V GPU 等商用硬件大体相似——当然,二者的架构差别巨大,不具备直接可比性。

  • 所有比赛均采用单场 3 小时制,每步棋额外增加 15 秒。

  • 在所有对抗当中,AlphaZero 都以毫无争议的方式击败了对手:

  • 在国际象棋方面,AlphaZero 击败了 2016 年 TCEC(第 9 季)世界锦标赛冠军 Stockfish——其中 AlphaZero 获得 155 场胜利,且败率仅为千分之六。为了验证 AlphaZero 的稳健性,我们还刻意为双方准备了由人类常规开盘形成的残局。无论是哪种残局,AlphaZero 仍能顺利击败 Stockfish。此外,我们亦参加了 2016 年 TCEC 世界锦标赛,并在比赛中对阵近期刚刚进行升级的 Stockfish 版本——其中一种 Stockfish 变体采用了非常强大的开局走法组合,但 AlphaZero 仍无一例外全部取胜。

  • 在将棋方面,AlphaZero 击败了在 2017 年 CSA 世界锦标赛上胜出的 Elmo 版本,胜率为 91.2%。

  • 在围棋方面,AlphaZero 战胜了 AlphaGo Zero,胜率为 61%。



然而,更令人着迷的是 AlphaZero 在对弈过程中展现出的行棋风格。例如,在国际象棋当中,AlphaZero 在自我学习与训练当中独立发现并使用了常见的人类行棋模式,例如开口、保王以及兵阵等等。然而,由于自学成才且完全不受传统观念的影响,AlphaZero 也发展出了自己的直觉与策略。其提出的一系列令人兴奋的新颖想法,大大拓展了几个世纪以来人类对于国际象棋战略的理解。


棋手们首先注意到的,一定是 AlphaZero 的行棋风格。马修·萨德勒表示,“它的走法充满了目的性与攻击性,始终围绕着对方的王进行谋划。”以此为基础,AlphaZero 还拥有着高度动态化的对弈能力,这最大限度提高了其棋路的灵活性与移动性,同时最大限制着对方棋子的灵活性与移动性。与直觉相反,AlphaZero 似乎对于“棋子角色”的重视程度较低。现代竞技项目的一大基础特性,所有参与方都具有价值。如果某一选手在棋盘上的棋子价值高于对方,则表示前者在棋子角色方面具有优势。但不同于此,AlphaZero 更倾向于在开局之初就牺牲这些棋子角色,从而获得更为长远的形势性收益。


马修指出,“令人印象深刻的是,它在各种角色与位点上都表现出这种强烈的行棋风格。”他同时观察到,AlphaZero 在起步阶段会非常刻意地以“与人类非常相似的意图”设计开局。


马修解释称,“传统引擎非常稳定,几乎不会出现明显的错误。但在面对没有具体且可参考解决方案的位置时,则显得束手无策。相比之下,AlphaZero 则能够在这样的位置上表现出「感觉」、「洞察」或者「直觉」。”


这种独特的能力是其它传统国际象棋引擎所不具备的,而且也在最近的世界国际象棋锦标赛当中为国际象棋爱好者们带来了新的思路与启发。马格努斯·卡尔森(Magnus Carlsen)与法比亚诺·卡鲁安纳(Fabiano Caruana)之间的比赛就有所体现,《游戏规则改变者》一书就对此做出了进一步探讨。娜塔莎·里根表示,“对 AlphaZero 以及顶级国际象棋引擎乃至顶级大师的行棋方式进行分析,着实令人着迷。”


AlphaZero 带来的经验,也与 2016 年 AlphaGo 与传奇围棋大师李世石间的对弈有所呼应。在此次比赛当中,AlphaGo 走出了许多极具创造性的取胜手法,包括在第二场比赛中只用 37 步即告胜出——这彻底推翻了数百年来人类对于围棋运动的理解。这些棋步已经被包括李世石本人在内的众多棋手奉为经典案例。在评论第 37 步时,李世石表示,“我一直认为 AlphaGo 属于那种基于概率的计算工具,毕竟它只是一台机器。但在看到这一步时,我改变了看法。不可否认,AlphaGo 拥有真正的创造力。”


与围棋一样,我们也对 AlphaZero 在国际象棋领域表现出的创造性感到兴奋。自从计算机时代开始以来,国际象棋一直是人工智能技术面临的主要挑战——包括巴贝奇、图灵、香农以及冯·诺伊曼在内的众多早期开拓者都在努力设计能够解决国际象棋问题的方案。但 AlphaZero 的适用于并不仅限于国际象棋、将棋或者围棋。为了建立起能够解决各类现实问题的智能系统,我们要求其具备灵活性并能够适应各种新情况。虽然我们已经在实现这一目标方面取得了一定进展,但其仍然是人工智能研究中的一大核心挑战。目前的系统虽然能够以极高的标准掌握特定技能,但却往往无法解决甚至只经过略微修改的任务。


AlphaZero 这种掌握三种不同复杂棋类(甚至有可能涵盖一切完美信息类项目)的能力代表着克服这一问题的重要一步。这证明单一算法完全有可能在不同的具体规则之下学习并发现新知识。另外,尽管尚处于早期发展阶段,但 AlphaZero 的创造性见解加上我们在 AlphaFold 等其它项目中观察到的振奋人心的结果,使我们对于创建通用学习系统这一目标充满信心。这意味着我们有望发现更多新的解决方案,从而攻克那些最重要也最复杂的科学问题。


下载论文:


https://deepmind.com/documents/260/alphazero_preprint.pdf


原文链接:


https://deepmind.com/blog/alphazero·shedding·new·light·grand·games·chess·shogi·and·go/

会议推荐:

12 月 20-21,AICon全球人工智能与机器学习技术大会将于北京盛大开幕,学习来自 Google、微软、BAT、360、京东、美团等 40+AI 落地案例年终总结,与国内外一线技术大咖面对面交流,不见不散。



公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2018-12-07 18:411694

评论 1 条评论

发布
暂无评论
发现更多内容

文心一言变身虚拟患者,助力医学生轻松开启「实践模式」

飞桨PaddlePaddle

百度 paddle 百度飞桨 开发者说 文心一言

探索AIGC在腾讯自选股应用

ninetyhe

腾讯 AI 大模型 AIGC

测试管理进阶 | 快速掌握高效沟通的汇报技巧

测吧(北京)科技有限公司

测试

从分享到共创:开放签电子签章系统在开源市场的成长之路与深化开源理念的实践

开放签开源电子签章

开源 电子合同 电子签章

MestReNova 中文版:解析和解释核磁共振(NMR)和质谱(MS)数据

Rose

MestReNova软件 MestReNova14破解版 核磁共振 医学研究

王牌驼:带领4亿中国中老年群体领跑「精准营养」新时代

科技热闻

手把手带你快速上手香橙派AIpro

华为云开发者联盟

人工智能 华为云 昇腾 华为云开发者联盟 AI开发板

用户案例|GreptimeDB 助力贵州某机场智慧能源物联网系统

Greptime 格睿科技

数据库 rust 云原生 时序数据 用户案例

GenAI助力DevOps,塑造软件工程的未来

SEAL安全

人工智能 DevOps 运维 GenAI

虚拟数字人直播开发源码怎样选择?你知道吗?

青否数字人

数字人

基于 Ractor 模型优化事务复制回放性能

KaiwuDB

数据库

文心一言 VS 讯飞星火 VS chatgpt (205)-- 算法导论15.4 1题

福大大架构师每日一题

福大大架构师每日一题

常用的Linux命令;Linux常用命令用法及实现方式

小魏写代码

资深项目管理者教你快速掌握高效沟通的汇报技巧

霍格沃兹测试开发学社

二叉搜索树(BST)

贺公子之数据科学与艺术

#算法

C4D 2024.3.2最新破解下载 c4d2024 mac中文版新功能介绍

Rose

3d建模 Cinema 4D 2024 c4d2024

App应用程序(概念、开发步骤、技术要点介绍)

天津汇柏科技有限公司

定制软件开发 app定制开发 软件开发定制

哪里有office2016安装包?office2016下载含激活工具

Rose

office办公套件 office2016

Parallels Desktop 19 虚拟机如何安装?详细PD19图文安装教程 含激活版Windows镜像

Rose

Win11系统下载 Parallels Desktop 19 pd 19 虚拟机安装

VMware Workstation (VM电脑虚拟机)激活精简版

Rose

VMware Fusion破解版下载 虚拟机安装 VM虚拟机密钥

数字人的虚拟主播怎样直播带货?

青否数字人

数字人

Axure RP 9 与其他原型设计工具的比较:为何它是您的最佳选择?

Rose

原型设计 Axure RP 9汉化 Axure RP 9授权码

运维一款月变更70+次的服务,是一种什么体验?

华为云开发者联盟

开发 华为云 华为云开发者联盟

长生不老不再是梦想?数字永生技术颠覆认知!

青否数字人

数字人

程序员的金三银四求职宝典

贺公子之数据科学与艺术

软件测试管理进阶,快速掌握高效沟通的汇报技巧

测试人

软件测试 自动化测试 测试开发 测试管理

王牌驼,守护肠胃健康与营养均衡的生力军

科技热闻

Module2作业

大鹏

photoshop 2021 对显卡的要求 ps2021中文破解版安装包下载

Rose

ps2021破解版 Photoshop 2021 Photoshop 2021要求

GreptimeDB Roadmap 2024

Greptime 格睿科技

数据库 rust 云原生 时序数据库

数智融合,华为云GaussDB(for MySQL)助力企业释放数据新价值

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 华为云GaussDB(for MySQL)

AlphaZero进化论:从零开始,制霸所有棋类游戏_AI&大模型_DeepMind Blog_InfoQ精选文章