本文节选自《强化学习（第2版）》作为强化学习思想的深度解剖之作，被业内公认为是一本强化学习基础理论的经典著作。它从强化学习的基本思想出发，深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法，并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。

我们在 20 世纪 90 年代中期撰写本书第 1 版的时候，人工智能取得了显著的进展，而且产生了一定的社会效应，尽管这个时期大多数激动人心的进展只是显示出人工智能可能的前景而已。机器学习就是这个前景中的一部分，但是对于人工智能而言还不能算是不可或缺的。如今人工智能的前景已经落地为应用，而且正在改变百万人的生活。机器学习本身也成为了一项关键技术。在我们写本书第 2 版的时候，一些人工智能方面最卓越的成就已经包括了强化学习技术，比如著名的“深度强化学习”—— 强化学习与深度人工神经网络结合。我们正处在一波人工智能真实场景应用的浪潮之中，它们中将会有很多都使用深度或者非深度的强化学习，我们很难预料它们将以什么样的方式影响我们的生活。

但是大量真实世界中的成功案例并不代表真正的人工智能已经实现了。尽管人工智能在很多领域都取得了很大的进展，但是人工智能与人类智能，甚至与动物智能之间的鸿沟都是很大的。人工智能在某些领域能有超过人类的表现，甚至是围棋这种非常难的游戏，然而开发像人类这样完整地拥有通用适应性和解决问题的能力、复杂的情感系统和创造力，以及从经验中快速学习的能力的可交互式的智能体仍然任重道远。强化学习作为一个关注于动态环境交互式学习的技术，在将来会发展为这种智能体的不可或缺的部分。

强化学习与心理学及神经科学的联系 (第 14 和 15 章) 弱化了其与人工智能其他的长期目标之间的关联，即揭示关于心智的一些关键问题，以及心智如何从大脑中产生。强化学习已经帮助我们理解了大脑的收益机制、动机和做决策的过程。因此有理由相信，在与计算精神疾病学相结合之后，强化学习将会帮助我们研发治疗精神紊乱，包括药物滥用和药物成瘾的方法。

强化学习在未来将会取得的另一个成就是辅助人类决策。在模拟仿真环境中进行强化学习，从中得到的决策函数可以指导人类做决策，比如教育、医疗、交通、能源、公共部门的资源调度。与其密切相关的一个强化学习的特征是，它总是考虑决策的长期效应。这在围棋和西洋双陆棋中是非常明显的，这些也正是强化学习给人留下最深刻印象的案例。同时这也是攸关我们人类和星球命运的诸多高风险决策的特征。在过去的很多领域中，决策分析人员已经使用了强化学习，并将其决策用于指导人类。使用高级的函数逼近方法和大量的计算资源，强化学习方法已经展现出了一些潜力，期望攻克将传统决策辅助方法推广到更大规模、更复杂问题的难题。

人工智能的快速发展让我们开始担心它可能对社会甚至人类本身造成严重的威胁。著名的科学家和人工智能先驱 Herbert Simon 早在 2000 年 (Simon，2000) 于 CMU 举办的地球研讨会 (Earthware Symposium) 上的一个演讲中，就预言了这一点。他指出在任何新形式的知识中，前景和危险都存在着永恒的冲突。他用古希腊神话中普罗米修斯和潘多拉之盒的例子打比方，现代科学的英雄普罗米修斯，为了人类的福祉，从诸神那里盗取火种；而开启潘多拉之盒，只是一个小小的无意之举，却给人类带来了灾难。Simon 认为我们需要承认这样的冲突是不可避免的，同时应该把自己当作未来的设计者而不是观众，我们更倾向于做普罗米修斯那样的决策。这对于强化学习来说非常正确，如果不就地部署强化学习，它在给社会带来福利的同时，也有可能造成我们不希望看到的后果。因此，包括强化学习在内的人工智能应用，其安全性是一个需要重视的课题。

一个强化学习智能体可以通过与真实世界环境、模拟环境 (模拟真实世界的一部分) 或者这两者的结合环境进行交互而学习。模拟器提供安全的环境，以供智能体自由试探，而不需要考虑对自己/环境带来的危害。在大多数现有的应用中，决策是通过与模拟环境交互，而不是直接与真实世界交互学习到的。除了避免在真实世界中造成不希望看到的后果之外，在模拟环境中学习，可以得到模拟的无穷无尽的数据，这比在真实环境中得到这些数据要容易得多。而且由于在模拟环境下，因此交互的速度通常比在真实环境中快，一般在模拟环境中的学习也要快于在真实世界环境中的学习。

然而，展现强化学习的全部潜力需要将智能体置于真实世界的经验流中，在我们的真实世界中行动、试探、学习，而不是仅仅在它们的虚拟世界中。总而言之，强化学习算法 (至少在本书中关注的那些) 被设计成在线式的，并且它们在很多方面都在效仿动物如何在不稳定和有敌人的环境下存活。嵌入真实世界中的强化学习智能体可以在实现人工智能放大、扩充人类能力的过程中起到变革性的作用。

希望我们的强化学习智能体在真实环境中学习的一个主要原因是：以极高的保真度模拟真实世界的经验通常是很困难甚至是不可能的，因而很难保证在模拟世界学习到的策略，无论是通过强化学习还是其他别的方法学到的，其可以安全并良好地指导真实的动作。这对于某些依赖于人类行为的动态环境而言尤其明显，例如，教育、医疗、交通、公共政策，在这些环境中，提升决策力可以带来切实的收益。然而部署这些智能体到真实世界中，需要考虑人工智能可能造成的危险。

其中有些危险是与强化学习密切相关的。因为强化学习依赖于优化，因此它继承所有优化方法的优点和缺点。其中一个缺点是设计目标函数的问题，在强化学习中这被称作收益信号，它帮助智能体学到我们想要的行为，同时规避那些我们不想要的行为。我们在 17.4 节中提到，强化学习智能体可能会试探到意想不到的方式，通过这种方式使它们的环境传递收益，而有些方式并不是我们想要的，甚至是危险的。当我们只是非直接地制定我们想要系统学习的东西时，正如我们设计强化学习的收益信号那样，在学习结束之前，我们不会知道我们的智能体距离完成我们的期望有多近。这并不是强化学习所带来的新问题，在文学和工程实践中这个问题的提出已经很久了，例如在歌德的诗歌

“魔法师的学徒”(Goethe 1878) 中，学徒对扫帚施法，以帮助他取水，但结果却造成了出人意料的洪水，这是因为学徒对魔法的掌握不到家。在工程中，Norbert Wiener，控制论 (cybernetics) 的奠基人，早在半个世纪以前就指出了这个问题。他把这个问题联系到了一个超自然的故事“猴子的爪子”(Wiener，1964)：“它满足了你向他要的，但并不是你应该向他要的，或者不是你本来的意图。”这个问题也在现代的文献中有长篇讨论 (Nick Bostrom 2014)。任何在强化学习方面有经验的人都可能发现他们的系统找到了一些出人意料的方式来提高收益。有些时候意想不到的行为是很好的，它以一种全新的方式解决了问题。但是在其他情况下，智能体学习到的东西违背了系统设计者的初衷，因为设计者完全没有考虑到某些情况。仔细设计收益函数是非常重要的，它帮助智能体在真实世界中行动，且不会给人类以观察其行为和动机并轻易干扰它的行为的机会。

尽管优化可能带来非预期的负面效果，但数百年来，优化一直在被工程师、架构师，还有潜在的可能造福人类的设计者们广泛使用。我们生活中很多好的方面都依赖于优化算法的应用。另一方面，也有很多方法被提出来解决优化潜在的风险，例如增加硬或软的约束，使用鲁棒和风险低的策略来限制优化，使用多目标函数优化等。这些方法中有些已经被用到了强化学习中，而且更多这方面的研究还有待进行。如何把强化学习智能体的目标调整成我们人类的目标，仍然是个难题。

另一个强化学习在真实世界中行动和学习带来的挑战是，我们不仅仅关注智能体学习的最终效果，而且关注其在学习时的行为方式。如何保证智能体可以得到足够多的经验以学习一个高性能的决策，同时又能保证不损害环境、其他智能体或者它本身 (更现实地说，如何把伤害的可能性降得尽可能低)？这个问题并不新鲜，也不只在强化学习中存在。对于嵌入式强化学习，风险控制和减轻问题与控制工程师们在最初使用自动化控制时所面临的问题是一样的。那时控制器的行为并不可控，很多时候还可能有灾难性后果，例如对飞机和精密化学过程的控制。控制的应用依赖于精细的系统建模、模型验证和大量的测试。关于让事先完全不了解的动态系统保证收敛和适配控制器的稳定性，已经有大量的理论。理论的保证从来不是万能的，因为它们依赖于数学上的假设成立。但是如果没有这些理论与风险控制和减轻的实践相结合，自适应或者其他类型的自动控制就不会像今天我们看到的那样，可以有效地提升质量、效率和成本收益。未来强化学习研究最重要的方向之一是适应和改善现有方法，以控制嵌入式的智能体在可接受的程度上足够安全地在真实物理环境中工作。

在最后，我们回到 Simon 的号召：我们要意识到我们是未来的设计者，而不仅仅是观众。通过我们作为个体所做的决策，以及我们对于社会如何治理所施加的影响，我们可以共同努力以保证新科技带来的好处大于其带来的危害。在强化学习领域里有充足的机会来做这件事情，因为它既可以帮助提升这个星球上生命的质量，促进公平和可持续发展，也有可能带来新的危机。现在已经存在的一个威胁就是人工智能应用造成了许多人的失业。当然我们也有充分的理由去相信，人工智能带来的好处将远大于其造成的危害。关于安全问题，强化学习带来的危害并没有和当下已经被广泛采用的相关领域的控制优化算法带来的危害有本质的区别。强化学习未来的应用涉足真实世界时，开发者们有义务遵循同类技术中成熟的实践经验，同时拓展它们，以保证普罗米修斯一直占据上风。

图书购买链接：
https://item.jd.com/12696004.html

创作场景

《强化学习》：人工智能的未来