2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

强化学习能否在 2020 年取得突破?

  • 2020-01-21
  • 本文字数:2036 字

    阅读完需:约 7 分钟

强化学习能否在2020年取得突破?

强化学习对于实现我们的人工智能/机器学习技术的目标来说至关重要,但现在我们还有一些障碍需要克服。尽管可靠性和减少训练数据的目标在一年内就可能实现,但是,强化学习本质上是一种“黑盒”解决方案,其缺乏透明度的特性会带来很多质疑。


传统的机器学习乃至深度学习的监督及非监督学习,是企业目前在人工智能/机器学习领域进行大量投资并从中获取回报的核心领域。但事实是, 这些技术目前已经相当成熟,收益曲线也日趋平坦。


如果我们要在人工智能/机器学习领域寻找下一个突破技术,那么几乎可以肯定的是,这个突破将来自强化学习。在强化学习领域需要投入大量的努力,但是平心而论,强化学习还没有达到必要的标准化水平,尚不足以成为为商用化准备就绪的工具。


在游戏领域已经有相当多值得报道的成功案例(如 Alpha Go),在无人驾驶领域也有一些成功案例。但尽管在解决涉及系列决策的问题时,强化学习应该是我们的首选技术,可它还没有达到我们所需要的水平。



在我们的上一篇文章中,我们强调了两个阻碍强化学习的缺点,这正是微软强化学习领域的首席研究员 Romain Laroche 所描述的:


  • “它们基本上是不可靠的。更糟糕的是,由于强化学习过程中的随机性,使用不同随机种子的两次运行的结果可能非常不同。”

  • “它们需要数十亿的样本才能获得结果,而在现实世界的应用中提取如此天量的样本是不可行的。”


我们专注于一些有希望的研究,这些研究用少得多的数据、有限的财务投入和实际约束解决了训练问题。然而,剩下的问题甚至更加复杂。


由于强化学习解决方案是用随机种子启动的,因此,它们本质上是对状态空间的随机搜索。设想一下,两个启动算法随机进入这个潜在解决方案的巨大丛林,目标是找到最快的出路。尽管这两个解决方案可能达到相同的性能级别,但是,强化学习是众所周知的黑盒,它使我们无法了解系统为何及如何选择执行这一系列步骤。


Gartner 最近的报告《2020年10大战略技术趋势》中提到的两个互相矛盾的目标,突显了其重要性。


引起我们注意的两个趋势是:


趋势 8:智能设备(Autonomous things)


“智能设备,包括无人机、机器人、船舶和家用电器,利用人工智能代替人类完成任务。该技术在半智能到完全智能的智能范围内运作,并能在包括天空、海洋和陆地等各种各样的环境中运作。智能设备也将从独立的设备向协作的集群转变,例如在 2018 年冬季奥运会上使用的无人机群。”


该报告没有提到的是,要实现这一点将需要强大而可靠的强化学习。尽管有一些非常震撼人的机器人(想想 Boston Dynamics 公司吧)主要依靠物理运动的算法,而不是人工智能/机器学习技术,但行业需要强化学习才能走进下一个发展阶段。


而第 2 个趋势对强化学习来说将更加困难。


趋势 5:透明度和可追溯性


“技术的发展正在制造信任危机。随着消费者越来越关注自身信息被收集和使用的情况,各种组织也意识到存储和收集这些数据时所肩负的责任越来越大。”


“此外,人工智能和机器学习越来越多地用于代替人类做出决策,从而演变出信任危机,并推动了对可解释的人工智能和人工智能治理等理念的需求。”


尽管我们很可能想到 GDPR 以及围绕着电子商务的隐私问题,但事实是,基于我们对人工智能/机器学习如何做出决策的理解,这些技术终将受到挑战。


尤其是考虑到强化学习政策制定的随机性,以及两个成功的强化学习程序可以以完全不同的方式实现相同的目标,这将是一个难以克服的挑战。

应对可靠性问题

Romain Laroche 提出了两种技术,有望解决可靠性问题。在其论文中,一个使用集成方法(EBAS),而另一个使用调整微调参数条件风险值(Conditional value at Risk,简称 CvaR,即最差运行的平均值),这两种技术都能提高性能并减少训练时间,同时限制强化学习运行的自然趋势,以在系统中找到及利用故障。如果实际投入生产,该系统可以导致成功的结果,但是包含某种形式的意外损害。后一种技术以 SPIBB 命名,SPIBB 是 Safe Policy Improvement with Baseline Bootstrapping 的缩写,即具有基线引导的安全策略改进。


该集成方法借鉴了机器学习中的相同概念,并且与遗传算法选择训练过程中的搜索过程类似,从而得到了一些很好的结果。



EBAS 算法学习速度更快,而且最终性能没有任何下降。

透明度?

我们似乎正在解决可靠性问题以及另一个海量训练数据的需求问题。这无疑将把我们引向透明度问题。比如,无人驾驶汽车在发生人员伤亡后所受到的审查。对比人类操作人员犯错,我们对机器犯错的容忍度更低。


毫无疑问,强化学习将在 2020 年做出重大贡献,但是,想要实现一个经过验证的,商业上得到接受的方案所面临的障碍,以及由于其缺乏透明性而带来的阻力等问题,不太可能在一年内完全解决。


作者介绍:


Bill 是 Data Science Central 的特约编辑。他还是 Data-Magnum 的总裁兼首席数据科学家。自 2001 年以来,他一直从事数据科学家的工作。其文章的阅读量已经超过了 2 百万次。


可以通过 Bill@DataScienceCentral.com 或 Bill@Data-Magnum.com 联系他。


原文链接:


Can Reinforcement Learning Break Through in 2020


2020-01-21 12:005648
用户头像
蔡芳芳 InfoQ 总编辑

发布了 851 篇内容, 共 628.7 次阅读, 收获喜欢 2826 次。

关注

评论

发布
暂无评论
发现更多内容

面向智算服务,构建可观测体系最佳实践

阿里巴巴云原生

阿里云 云原生 可观测

跨越财务困境,聚道云软件连接器如何助力企业轻松实现数字化转型?

聚道云软件连接器

案例分享

TiDB 与MySQL优化器在特定语句下执行效果对比(一)

TiDB 社区干货传送门

性能调优 实践案例 版本测评

TiDB 与MySQL优化器在特定语句下执行效果对比(二)

TiDB 社区干货传送门

性能调优 实践案例 版本测评 新版本/特性发布 6.x 实践

文心一言 VS 讯飞星火 VS chatgpt (197)-- 算法导论14.3 5题

福大大架构师每日一题

福大大架构师每日一题

新年新岁,好运 long long

阿里云CloudImagine

云计算 视频云

TiFlash亿级多表关联优化实践,从无法跑出结果优化到2.59秒

TiDB 社区干货传送门

性能调优 实践案例 OLAP 场景实践

阿里云参编业内首个代码大模型标准丨云原生 2024 年 1 月产品技术动态

阿里巴巴云原生

阿里云 云原生

OpenMLDB 作为中国唯一的特征平台产品入选 2023 Gartner 研究报告

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

海外云手机——平台引流的重要媒介

Ogcloud

云手机 海外云手机 云手机海外版 国外云手机

听GPT 讲Deno源代码(1)

fliter

华为智慧屏游戏中心合家欢会员免费领!春节团聚畅玩《小小炸弹人》等合家欢游戏

最新动态

听GPT 讲Deno源代码(2)

fliter

考研失败如何快速找到编程工作?

王磊

Java 考研

TiDB 7.5.0 LTS 高性能数据批处理方案

TiDB 社区干货传送门

新版本/特性解读

【Netty技术专题】「原理分析系列」Netty强大特性之Native transports扩展开发实战

码界西柚

Java Netty nio epoll 2024年第三十五篇文章

了解海外云手机的多种功能

Ogcloud

云手机 海外云手机

听GPT 讲Rust Tokio源代码(6)

fliter

听GPT 讲Rust Tokio源代码(8)

fliter

京东零售技术小哥带你揭秘:亿级流量高并发春晚互动前端技术

京东零售技术

前端 春晚

【奖项公布】首届全球 TiDB 文档挑战赛圆满收官!来看看前五名花落谁家!

TiDB 社区干货传送门

听GPT 讲Rust Tokio源代码(4)

fliter

听GPT 讲Rust Tokio源代码(7)

fliter

华为音乐用AI送上新年佳曲,花式祝福迎龙年新春

最新动态

Java break、continue 详解与数组深入解析:单维数组和多维数组详细教程

小万哥

Java 程序人生 编程语言 软件工程 后端开发

强化学习能否在2020年取得突破?_文化 & 方法_Bill Vorhies_InfoQ精选文章