强化学习能否在2020年取得突破？_文化 & 方法_Bill Vorhies

强化学习对于实现我们的人工智能/机器学习技术的目标来说至关重要，但现在我们还有一些障碍需要克服。尽管可靠性和减少训练数据的目标在一年内就可能实现，但是，强化学习本质上是一种“黑盒”解决方案，其缺乏透明度的特性会带来很多质疑。

传统的机器学习乃至深度学习的监督及非监督学习，是企业目前在人工智能/机器学习领域进行大量投资并从中获取回报的核心领域。但事实是，这些技术目前已经相当成熟，收益曲线也日趋平坦。

如果我们要在人工智能/机器学习领域寻找下一个突破技术，那么几乎可以肯定的是，这个突破将来自强化学习。在强化学习领域需要投入大量的努力，但是平心而论，强化学习还没有达到必要的标准化水平，尚不足以成为为商用化准备就绪的工具。

在游戏领域已经有相当多值得报道的成功案例（如 Alpha Go），在无人驾驶领域也有一些成功案例。但尽管在解决涉及系列决策的问题时，强化学习应该是我们的首选技术，可它还没有达到我们所需要的水平。

在我们的上一篇文章中，我们强调了两个阻碍强化学习的缺点，这正是微软强化学习领域的首席研究员 Romain Laroche 所描述的：

“它们基本上是不可靠的。更糟糕的是，由于强化学习过程中的随机性，使用不同随机种子的两次运行的结果可能非常不同。”
“它们需要数十亿的样本才能获得结果，而在现实世界的应用中提取如此天量的样本是不可行的。”

我们专注于一些有希望的研究，这些研究用少得多的数据、有限的财务投入和实际约束解决了训练问题。然而，剩下的问题甚至更加复杂。

由于强化学习解决方案是用随机种子启动的，因此，它们本质上是对状态空间的随机搜索。设想一下，两个启动算法随机进入这个潜在解决方案的巨大丛林，目标是找到最快的出路。尽管这两个解决方案可能达到相同的性能级别，但是，强化学习是众所周知的黑盒，它使我们无法了解系统为何及如何选择执行这一系列步骤。

Gartner 最近的报告《2020年10大战略技术趋势》中提到的两个互相矛盾的目标，突显了其重要性。

引起我们注意的两个趋势是：

趋势 8：智能设备（Autonomous things）

“智能设备，包括无人机、机器人、船舶和家用电器，利用人工智能代替人类完成任务。该技术在半智能到完全智能的智能范围内运作，并能在包括天空、海洋和陆地等各种各样的环境中运作。智能设备也将从独立的设备向协作的集群转变，例如在 2018 年冬季奥运会上使用的无人机群。”

该报告没有提到的是，要实现这一点将需要强大而可靠的强化学习。尽管有一些非常震撼人的机器人（想想 Boston Dynamics 公司吧）主要依靠物理运动的算法，而不是人工智能/机器学习技术，但行业需要强化学习才能走进下一个发展阶段。

而第 2 个趋势对强化学习来说将更加困难。

趋势 5：透明度和可追溯性

“技术的发展正在制造信任危机。随着消费者越来越关注自身信息被收集和使用的情况，各种组织也意识到存储和收集这些数据时所肩负的责任越来越大。”

“此外，人工智能和机器学习越来越多地用于代替人类做出决策，从而演变出信任危机，并推动了对可解释的人工智能和人工智能治理等理念的需求。”

尽管我们很可能想到 GDPR 以及围绕着电子商务的隐私问题，但事实是，基于我们对人工智能/机器学习如何做出决策的理解，这些技术终将受到挑战。

尤其是考虑到强化学习政策制定的随机性，以及两个成功的强化学习程序可以以完全不同的方式实现相同的目标，这将是一个难以克服的挑战。

应对可靠性问题

Romain Laroche 提出了两种技术，有望解决可靠性问题。在其论文中，一个使用集成方法（EBAS），而另一个使用调整微调参数条件风险值（Conditional value at Risk，简称 CvaR，即最差运行的平均值），这两种技术都能提高性能并减少训练时间，同时限制强化学习运行的自然趋势，以在系统中找到及利用故障。如果实际投入生产，该系统可以导致成功的结果，但是包含某种形式的意外损害。后一种技术以 SPIBB 命名，SPIBB 是 Safe Policy Improvement with Baseline Bootstrapping 的缩写，即具有基线引导的安全策略改进。

该集成方法借鉴了机器学习中的相同概念，并且与遗传算法选择训练过程中的搜索过程类似，从而得到了一些很好的结果。

EBAS 算法学习速度更快，而且最终性能没有任何下降。

透明度？

我们似乎正在解决可靠性问题以及另一个海量训练数据的需求问题。这无疑将把我们引向透明度问题。比如，无人驾驶汽车在发生人员伤亡后所受到的审查。对比人类操作人员犯错，我们对机器犯错的容忍度更低。

毫无疑问，强化学习将在 2020 年做出重大贡献，但是，想要实现一个经过验证的，商业上得到接受的方案所面临的障碍，以及由于其缺乏透明性而带来的阻力等问题，不太可能在一年内完全解决。

作者介绍：

Bill 是 Data Science Central 的特约编辑。他还是 Data-Magnum 的总裁兼首席数据科学家。自 2001 年以来，他一直从事数据科学家的工作。其文章的阅读量已经超过了 2 百万次。

可以通过 Bill@DataScienceCentral.com 或 Bill@Data-Magnum.com 联系他。

原文链接：

Can Reinforcement Learning Break Through in 2020

发布

暂无评论

创作场景

强化学习能否在 2020 年取得突破？

应对可靠性问题

透明度？

评论

使用DEM和矢量数据绘制地图

TDSQL原创技术的出发点

来自阿里的图解计算机、网络、操作系统PDF，竟在GitHub点赞最高

少女银四失足，偶得“阿里Java神级题库（25专题）”，金九稳了

偷偷翻开学妹笔记本，发现绝密Spring Cloud Alibaba笔记

T-TDSQL的核心理念，为数据赋能

腾讯出品526页异步非阻塞通信领域巅峰之作：Netty IO核心技术指南

大奖花落谁家，TDSQL他来了

TDSQL交付要求和挑战：快速、灵活、安全

腾讯云分布式数据库TDSQL的十年自主可控之路

拓路前行-TDSQL追求极致体验的这一路

无敌！肝完这套Alibaba面试全能小册，百万年薪在向你招手！

不是吧阿sir！都21年了还有人不会算法？赠你份字节内部算法手册吧

TDSQL多集群下的自动化和交付

如何实现 iOS 短视频跨页面的无痕续播？

云原生架构下的持续交付实践

在？来说点儿程序员Style的金句吧【话题讨论】

理解RESTful API

面试官：你说说限流的原理？

自助售货机主板要注意哪几个方面？

T-TDSQL的典型应用

工信部整治平台网址屏蔽问题，打击互联网行业垄断任重道远

在云中确保安全的五个技巧

牛掰！阿里大佬刷了四年LeetCode才总结出来的数据结构和算法手册

高能预警！Alibaba最新出版的JDK源码剖析手册（究极奥义版）开源

什么是CPython

拯救你的算法！GitHub上神仙项目手把手带你刷算法，Star数已破110k

TDSQL自动交付方案：全球灵活部署，最快9分钟

12年技术老兵整理的Alibaba“MySQL 学习笔记”带你轻松拿捏MySQL

T-TDSQL的核心技术

阿里最受追捧的「中高级技术核心」，助我拿下菜鸟offer，附面经

创作场景

强化学习能否在 2020 年取得突破？

应对可靠性问题

透明度？

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载