阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

强化学习能否在 2020 年取得突破?

  • 2020-01-21
  • 本文字数:2036 字

    阅读完需:约 7 分钟

强化学习能否在2020年取得突破?

强化学习对于实现我们的人工智能/机器学习技术的目标来说至关重要,但现在我们还有一些障碍需要克服。尽管可靠性和减少训练数据的目标在一年内就可能实现,但是,强化学习本质上是一种“黑盒”解决方案,其缺乏透明度的特性会带来很多质疑。


传统的机器学习乃至深度学习的监督及非监督学习,是企业目前在人工智能/机器学习领域进行大量投资并从中获取回报的核心领域。但事实是, 这些技术目前已经相当成熟,收益曲线也日趋平坦。


如果我们要在人工智能/机器学习领域寻找下一个突破技术,那么几乎可以肯定的是,这个突破将来自强化学习。在强化学习领域需要投入大量的努力,但是平心而论,强化学习还没有达到必要的标准化水平,尚不足以成为为商用化准备就绪的工具。


在游戏领域已经有相当多值得报道的成功案例(如 Alpha Go),在无人驾驶领域也有一些成功案例。但尽管在解决涉及系列决策的问题时,强化学习应该是我们的首选技术,可它还没有达到我们所需要的水平。



在我们的上一篇文章中,我们强调了两个阻碍强化学习的缺点,这正是微软强化学习领域的首席研究员 Romain Laroche 所描述的:


  • “它们基本上是不可靠的。更糟糕的是,由于强化学习过程中的随机性,使用不同随机种子的两次运行的结果可能非常不同。”

  • “它们需要数十亿的样本才能获得结果,而在现实世界的应用中提取如此天量的样本是不可行的。”


我们专注于一些有希望的研究,这些研究用少得多的数据、有限的财务投入和实际约束解决了训练问题。然而,剩下的问题甚至更加复杂。


由于强化学习解决方案是用随机种子启动的,因此,它们本质上是对状态空间的随机搜索。设想一下,两个启动算法随机进入这个潜在解决方案的巨大丛林,目标是找到最快的出路。尽管这两个解决方案可能达到相同的性能级别,但是,强化学习是众所周知的黑盒,它使我们无法了解系统为何及如何选择执行这一系列步骤。


Gartner 最近的报告《2020年10大战略技术趋势》中提到的两个互相矛盾的目标,突显了其重要性。


引起我们注意的两个趋势是:


趋势 8:智能设备(Autonomous things)


“智能设备,包括无人机、机器人、船舶和家用电器,利用人工智能代替人类完成任务。该技术在半智能到完全智能的智能范围内运作,并能在包括天空、海洋和陆地等各种各样的环境中运作。智能设备也将从独立的设备向协作的集群转变,例如在 2018 年冬季奥运会上使用的无人机群。”


该报告没有提到的是,要实现这一点将需要强大而可靠的强化学习。尽管有一些非常震撼人的机器人(想想 Boston Dynamics 公司吧)主要依靠物理运动的算法,而不是人工智能/机器学习技术,但行业需要强化学习才能走进下一个发展阶段。


而第 2 个趋势对强化学习来说将更加困难。


趋势 5:透明度和可追溯性


“技术的发展正在制造信任危机。随着消费者越来越关注自身信息被收集和使用的情况,各种组织也意识到存储和收集这些数据时所肩负的责任越来越大。”


“此外,人工智能和机器学习越来越多地用于代替人类做出决策,从而演变出信任危机,并推动了对可解释的人工智能和人工智能治理等理念的需求。”


尽管我们很可能想到 GDPR 以及围绕着电子商务的隐私问题,但事实是,基于我们对人工智能/机器学习如何做出决策的理解,这些技术终将受到挑战。


尤其是考虑到强化学习政策制定的随机性,以及两个成功的强化学习程序可以以完全不同的方式实现相同的目标,这将是一个难以克服的挑战。

应对可靠性问题

Romain Laroche 提出了两种技术,有望解决可靠性问题。在其论文中,一个使用集成方法(EBAS),而另一个使用调整微调参数条件风险值(Conditional value at Risk,简称 CvaR,即最差运行的平均值),这两种技术都能提高性能并减少训练时间,同时限制强化学习运行的自然趋势,以在系统中找到及利用故障。如果实际投入生产,该系统可以导致成功的结果,但是包含某种形式的意外损害。后一种技术以 SPIBB 命名,SPIBB 是 Safe Policy Improvement with Baseline Bootstrapping 的缩写,即具有基线引导的安全策略改进。


该集成方法借鉴了机器学习中的相同概念,并且与遗传算法选择训练过程中的搜索过程类似,从而得到了一些很好的结果。



EBAS 算法学习速度更快,而且最终性能没有任何下降。

透明度?

我们似乎正在解决可靠性问题以及另一个海量训练数据的需求问题。这无疑将把我们引向透明度问题。比如,无人驾驶汽车在发生人员伤亡后所受到的审查。对比人类操作人员犯错,我们对机器犯错的容忍度更低。


毫无疑问,强化学习将在 2020 年做出重大贡献,但是,想要实现一个经过验证的,商业上得到接受的方案所面临的障碍,以及由于其缺乏透明性而带来的阻力等问题,不太可能在一年内完全解决。


作者介绍:


Bill 是 Data Science Central 的特约编辑。他还是 Data-Magnum 的总裁兼首席数据科学家。自 2001 年以来,他一直从事数据科学家的工作。其文章的阅读量已经超过了 2 百万次。


可以通过 Bill@DataScienceCentral.com 或 Bill@Data-Magnum.com 联系他。


原文链接:


Can Reinforcement Learning Break Through in 2020


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-01-21 12:005270
用户头像
蔡芳芳 InfoQ主编

发布了 781 篇内容, 共 494.9 次阅读, 收获喜欢 2748 次。

关注

评论

发布
暂无评论
发现更多内容

我是咖啡师,在软件公司上班|ONES 人物

万事ONES

[JS真好玩] InfoQ创作者必备: 监控每天是谁取关了你?

HullQin

CSS JavaScript html 前端 8月月更

乐观锁和悲观锁各自应用场景

浅羽技术

Java 乐观锁 悲观锁 8月月更

1个理念4个步骤,快速上手客户体验管理

创意时空

拆解实体门店转型升级中的体验思维

创意时空

索信达控股上半年成绩出炉:核心业务收入大幅增长75.3%

索信达控股

一文读懂隐私公链Findora生态布局

股市老人

一文读懂隐私公链Findora生态布局

鳄鱼视界

盘点:阿里云效平台的5大替代解决方案

PingCode

如何快速地学习东西(上篇)

宇宙之一粟

学习 成长 8月月更

什么是数据结构

乌龟哥哥

8月月更

开源一夏 | React对于生命周期的深入研究

恒山其若陋兮

开源 8月月更

Hash算法详细介绍与实现(一)

迷彩

hash算法 8月月更

vim设置go语法高亮

程序员欣宸

vim 8月月更

后端面试必备知识点

浅羽技术

Java 面试 后端 8月月更

MySQL常见面试题

浅羽技术

MySQL 数据库 面试 后端 8月月更

页面切换转场动画,英雄救场更有趣!

岛上码农

flutter ios 前端 移动端开发 8月月更

[JS入门到进阶] 哎,被vite小坑了一波,大家记得配置build.cssTarget为'chrome61'

HullQin

CSS JavaScript html 前端 8月月更

SMTP协议详解

工程师日月

8月月更

每日一R「16」实践课之 kv-server(二)

Samson

学习笔记 8月月更 ​Rust

一文读懂隐私公链Findora生态布局

BlockChain先知

购物体验值急转直下?消费体验的症结和解药在这里!

创意时空

当满世界喧嚣“All in Web3”,但你可以慢慢来

One Block Community

区块链 程序员 开发者 就业 黑客马拉松

leetcode 205. Isomorphic Strings 同构字符串(简单)

okokabcd

LeetCode 算法与数据结构

隐私公链Findora生态布局,隐私赛道发展急先锋

EOSdreamer111

StarRocks 与奥威软件完成产品兼容认证,共同打造数据驱动的智慧企业

StarRocks

数据库

J-Tech Talk | 编写Dockerfile的最佳实践

Jina AI

Docker J-Tech Talk

云原生(二十七) | Kubernetes篇之自建高可用k8s集群前置概念与操作

Lansonli

云原生 k8s 8月月更

Mysql大法-Mysql索引失效VS Mysql存储引擎

知识浅谈

8月月更

开源一夏 |为什么线程池不允许使用Executors去创建?

六月的雨在InfoQ

开源 OOM Executors ThreadPoolExecutor 8月月更

头脑风暴:二叉搜索树中的众数

HelloWorld杰少

算法 LeetCode 8月月更

强化学习能否在2020年取得突破?_文化 & 方法_Bill Vorhies_InfoQ精选文章