“AI 技术+人才”如何成为企业增长新引擎?戳此了解>>> 了解详情
写点什么

强化学习能否在 2020 年取得突破?

  • 2020-01-21
  • 本文字数:2036 字

    阅读完需:约 7 分钟

强化学习能否在2020年取得突破?

强化学习对于实现我们的人工智能/机器学习技术的目标来说至关重要,但现在我们还有一些障碍需要克服。尽管可靠性和减少训练数据的目标在一年内就可能实现,但是,强化学习本质上是一种“黑盒”解决方案,其缺乏透明度的特性会带来很多质疑。


传统的机器学习乃至深度学习的监督及非监督学习,是企业目前在人工智能/机器学习领域进行大量投资并从中获取回报的核心领域。但事实是, 这些技术目前已经相当成熟,收益曲线也日趋平坦。


如果我们要在人工智能/机器学习领域寻找下一个突破技术,那么几乎可以肯定的是,这个突破将来自强化学习。在强化学习领域需要投入大量的努力,但是平心而论,强化学习还没有达到必要的标准化水平,尚不足以成为为商用化准备就绪的工具。


在游戏领域已经有相当多值得报道的成功案例(如 Alpha Go),在无人驾驶领域也有一些成功案例。但尽管在解决涉及系列决策的问题时,强化学习应该是我们的首选技术,可它还没有达到我们所需要的水平。



在我们的上一篇文章中,我们强调了两个阻碍强化学习的缺点,这正是微软强化学习领域的首席研究员 Romain Laroche 所描述的:


  • “它们基本上是不可靠的。更糟糕的是,由于强化学习过程中的随机性,使用不同随机种子的两次运行的结果可能非常不同。”

  • “它们需要数十亿的样本才能获得结果,而在现实世界的应用中提取如此天量的样本是不可行的。”


我们专注于一些有希望的研究,这些研究用少得多的数据、有限的财务投入和实际约束解决了训练问题。然而,剩下的问题甚至更加复杂。


由于强化学习解决方案是用随机种子启动的,因此,它们本质上是对状态空间的随机搜索。设想一下,两个启动算法随机进入这个潜在解决方案的巨大丛林,目标是找到最快的出路。尽管这两个解决方案可能达到相同的性能级别,但是,强化学习是众所周知的黑盒,它使我们无法了解系统为何及如何选择执行这一系列步骤。


Gartner 最近的报告《2020年10大战略技术趋势》中提到的两个互相矛盾的目标,突显了其重要性。


引起我们注意的两个趋势是:


趋势 8:智能设备(Autonomous things)


“智能设备,包括无人机、机器人、船舶和家用电器,利用人工智能代替人类完成任务。该技术在半智能到完全智能的智能范围内运作,并能在包括天空、海洋和陆地等各种各样的环境中运作。智能设备也将从独立的设备向协作的集群转变,例如在 2018 年冬季奥运会上使用的无人机群。”


该报告没有提到的是,要实现这一点将需要强大而可靠的强化学习。尽管有一些非常震撼人的机器人(想想 Boston Dynamics 公司吧)主要依靠物理运动的算法,而不是人工智能/机器学习技术,但行业需要强化学习才能走进下一个发展阶段。


而第 2 个趋势对强化学习来说将更加困难。


趋势 5:透明度和可追溯性


“技术的发展正在制造信任危机。随着消费者越来越关注自身信息被收集和使用的情况,各种组织也意识到存储和收集这些数据时所肩负的责任越来越大。”


“此外,人工智能和机器学习越来越多地用于代替人类做出决策,从而演变出信任危机,并推动了对可解释的人工智能和人工智能治理等理念的需求。”


尽管我们很可能想到 GDPR 以及围绕着电子商务的隐私问题,但事实是,基于我们对人工智能/机器学习如何做出决策的理解,这些技术终将受到挑战。


尤其是考虑到强化学习政策制定的随机性,以及两个成功的强化学习程序可以以完全不同的方式实现相同的目标,这将是一个难以克服的挑战。

应对可靠性问题

Romain Laroche 提出了两种技术,有望解决可靠性问题。在其论文中,一个使用集成方法(EBAS),而另一个使用调整微调参数条件风险值(Conditional value at Risk,简称 CvaR,即最差运行的平均值),这两种技术都能提高性能并减少训练时间,同时限制强化学习运行的自然趋势,以在系统中找到及利用故障。如果实际投入生产,该系统可以导致成功的结果,但是包含某种形式的意外损害。后一种技术以 SPIBB 命名,SPIBB 是 Safe Policy Improvement with Baseline Bootstrapping 的缩写,即具有基线引导的安全策略改进。


该集成方法借鉴了机器学习中的相同概念,并且与遗传算法选择训练过程中的搜索过程类似,从而得到了一些很好的结果。



EBAS 算法学习速度更快,而且最终性能没有任何下降。

透明度?

我们似乎正在解决可靠性问题以及另一个海量训练数据的需求问题。这无疑将把我们引向透明度问题。比如,无人驾驶汽车在发生人员伤亡后所受到的审查。对比人类操作人员犯错,我们对机器犯错的容忍度更低。


毫无疑问,强化学习将在 2020 年做出重大贡献,但是,想要实现一个经过验证的,商业上得到接受的方案所面临的障碍,以及由于其缺乏透明性而带来的阻力等问题,不太可能在一年内完全解决。


作者介绍:


Bill 是 Data Science Central 的特约编辑。他还是 Data-Magnum 的总裁兼首席数据科学家。自 2001 年以来,他一直从事数据科学家的工作。其文章的阅读量已经超过了 2 百万次。


可以通过 Bill@DataScienceCentral.com 或 Bill@Data-Magnum.com 联系他。


原文链接:


Can Reinforcement Learning Break Through in 2020


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2020-01-21 12:005256
用户头像
蔡芳芳 InfoQ主编

发布了 778 篇内容, 共 488.5 次阅读, 收获喜欢 2745 次。

关注

评论

发布
暂无评论
发现更多内容

用数据搭建反馈系统

石云升

数据分析 9月日更

Vue进阶(幺零四):elementUI 应用 $notify 提示信息中换行问题

No Silver Bullet

Vue 9月日更

北鲲云超算平台赋能蛋白设计助推生物制药行业发展

北鲲云

ULP Fec与 Flex FEC 概述

webrtc developer

WebRTC fec

Java中对千万级数据量的表进行插入操作(MYSQL)

张音乐

Java MySQL JDBC 9月日更

广告机主板定制方案能实现双屏异显或四屏异显吗?

双赞工控

安卓主板 主板定制 广告机主板

博睿数据云主机性能评测新增6家云厂商,8月报告亚马逊云科技登榜首

博睿数据

Python代码阅读(第25篇):将多行字符串拆分成列表

Felix

编程 Code Programing 阅读代码 -python

前端独立交付需求背景下的Mock数据多方案解读

爱数技术范儿

JavaScript 大前端 Mock

开源之夏项目分享:图数据库 Nebula Graph 支持 JDBC 协议

NebulaGraph

低代码开发:实现传统系统信息化的3种方案!

优秀

低代码 低代码开发

我怀疑,你对996的力量一无所知!

艾小仙

程序员 996

Python顺序结构选择结构

在即

9月日更

各编程语言里对 Iterator 进行修改时的对比

BlockQuant

Java Python rust Go 语言

总结下ThinkPHP的代码审计方法

网络安全学海

php 网络安全 信息安全 WEB安全 代码审计

justswap市值管理机器人系统软件开发技术(案例搭建)

量化系统19942438797

交易所 做市机器人 justswap

腾讯云签约广州知识城商用密码项目,助力黄建设密码产业示范区

腾讯安全云鼎实验室

腾讯云 商用密码

微信开源PhxQueue:高可用、高可靠、高性能的分布式队列

OpenIM

五行兼备:联想TruScale服务的太极之道

脑极体

Frida笔记 - Android 篇 (一)

GrowingIO技术专栏

android Frida

防沉迷系统的bug,技术如何查漏补缺?

脑极体

HashMap为什么是线程不安全的?

Java技术精选

APM领域国产化先锋!博睿数据与麒麟、统信、中科方德完成兼容性认证

博睿数据

活动推荐 | 云原生社区 Meetup 第七期深圳站开始报名啦!

CODING DevOps

Kubernetes DevOps 微服务 活动 Meetup

谁在制造“完美男性”?

脑极体

ServiceWorker工作原理、生命周期和使用场景

devpoint

Service Worker 9月日更

微信亿级用户异常检测框架的设计与实践

OpenIM

Java 操作 Office:POI word 之表格格式

程序员架构进阶

Java Apache POI 9月日更 word文档

垃圾分类与AI的反碎片之旅

百度大脑

人工智能 EasyDL

性能测试中异步展示测试进度

FunTester

性能测试 接口测试 测试框架 进度条 FunTester

maven-dependency中作用域scope含义

一个大红包

9月日更

强化学习能否在2020年取得突破?_文化 & 方法_Bill Vorhies_InfoQ精选文章