NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

DeepMind 提出引导式元学习算法,让元学习器具备自学能力

  • 2021-12-02
  • 本文字数:1319 字

    阅读完需:约 4 分钟

DeepMind提出引导式元学习算法,让元学习器具备自学能力

DeepMind 的一个研究小组近期提出了一种引导式(Bootstrap)的元学习算法,用于解决元优化以及短视的元目标问题,并让学习器具备自学能力。


大部分人类学会学习的过程都是应用过往经验,再学习新任务。然而,将这种能力赋予人工智能时却仍是颇具挑战。自学意味着机器学习的学习器需要学会更新规则,而这件事一般都是由人类根据任务手动调整的。

  

元学习的目标是为研究如何让学习器学会学习,而自学也是提升人工代理效率的一个很重要的研究领域。自学的方法之一,便是让学习器通过将新的规则应用于已完成的步骤,通过评估新规则的性能来进行学习。

  

为了让元学习的潜能得到全面的开发,我们需要先解决元优化和短视元目标的问题。针对这两大问题,DeepMind 的一个研究小组提出了一种新的算法,可以让学习器学会自我学习。



元学习器需要先应用规则,并评估其性能才能学会更新的规则。然而,规则的应用一般都会带来过高的计算成本。

  

先前的研究中有一个假设情况:在 K 个应用中实施更新规则后再进行性能优化,会让学习器在剩余生命周期中的性能得到提升。然而,如果该假设失败,那么元学习器在一定周期内会存在短视偏见。除此之外,在 K 个更新之后再优化学习器的性能还可能会导致其无法计算到学习过程本身。

  

这类的元优化过程还会造成两种瓶颈情况:

  • 一是曲率,元目标被限制在学习器相同类型的几何范围内。

  • 二是短视,元目标从根本上被局限在这个评估 K 步骤的平面里,从而无视掉后续的动态学习。

  

论文中提出的算法包括了两个主要特征来解决这些问题。首先,为减轻学习器短视的情况,算法通过 bootstrap 将动态学习的信息注入目标之中。至于曲率问题,论文是通过计算元目标到引导式目标的最小距离来控制曲率的。可以看出,论文中提出的算法背后的核心思想是,让元学习器通过更少的步骤来匹配未来可能的更新,从而更效率地进行自我学习。

  

该算法构建元目标有两个步骤:

  1. 从学习器的新参数中引导一个目标。在论文中,研究者在多个步骤中,依据元学习器的更新规则或其他的更新规则,不断刷新元学习器的参数,从而生成新的目标。

  2. 将学习器的新参数,或者说包含元学习器参数的函数,与目标一同投射到一个匹配空间中,而这个匹配空间简单来说可以是一个欧几里得参数空间。为控制曲率,研究者选择使用另一个(伪)度量空间,举例来说,概率模型中的一个常见选择,KL 散度(Kullback-Leibler divergence)。


引导式元梯度


总体来说,元学习器的目的是最小化到引导式目标的距离。为此,研究团队提出了一种新颖的引导式元梯度(BMG),在不新增反向传播更新步骤的情况下将未来动态学习的信息注入。因此,BMG 可以加快优化的进程,并且就如论文中展示的一样,确保了性能的提升。


研究团队通过大量的实验测试了 BMG 在标准元梯度下的性能。这些实验是通过一个经典的强化学习马尔可夫决策过程(MDP)任务,学习在特定期望下达到最优值的策略进行的。


非稳态网格世界(第5.1节)左:在超过50个随机种子之中,演员-评价者代理下的总回报对比。右:学习的熵值-正则化的时间表。


在Atari ALE[8]的57种游戏中,人类得分标准化。左:2亿帧时,对比BMG与我们实现的STACX*的赛前得分。右:对比公布的基准线与学习得分中位数。阴影部分表示3个随机种子之间的标准偏差。


Atari的消融实验。左:人类标准化得分分解,优化器(SGD,RMS),匹配函数(L2,KL,KL&V),以及引导式步骤(L)。BMG在(SGD,L2,L=1)的情况下与STACX相同。中:不同L下吃豆人关卡返回。右:在57种游戏中关卡返回的分布,按照平均值和标准偏差对每种游戏进行标准化处理。所有结果均为三个独立随机种子,1.9-2亿帧之间观察所得。


在评估中,BMG 在 Atari ALE 的基准测试中展现了大幅度的性能改进,到达了全新的技术水平。BMG 同样改善了在少数情况下模型诊断元学习(MAML)的表现,为高效元学习探索开拓了新的可能性。


论文地址:https://arxiv.org/abs/2109.04504

原文链接:DeepMind’s Bootstrapped Meta-Learning Enables Meta Learners to Teach Themselves

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2021-12-02 10:381177

评论

发布
暂无评论
发现更多内容

Android小程序开发实例,扔物线五期

android 程序员 移动开发

分布式事务最经典的七种解决方案

Java 程序员 架构 面试 分布式

Android开发自学技巧!rxjava扔物线

android 程序员 移动开发

android热更新,扔物线课程怎么样

android 程序员 移动开发

AndroidHook机制连简单实战都不会凭什么拿高薪,Android开发两年

android 程序员 移动开发

Android外包是如何转正网易的,大厂Android核心面试题出炉

android 程序员 移动开发

Android大厂面试真题解析大全,腾讯T3大牛手把手教你

android 程序员 移动开发

Android开发岗还不会这些问题,15个经典面试问题

android 程序员 移动开发

Python代码阅读(第42篇):将输入转换成列表形式

Felix

Python 编程 Code Programing 阅读代码

42岁程序员面试,动脑学院vip课程百度云

android 程序员 移动开发

997页手淘Android面试真题解析火爆全网,Android基础72问

android 程序员 移动开发

打破 Serverless 落地边界,阿里云 SAE 发布5大新特性

互联网 科技

Android开发还会吃香吗,Android开发经典实战

android 程序员 移动开发

Activity的6大难点你会几个,面试复盘

android 程序员 移动开发

Android事件分发机制及设计思路,Android程序员校招蚂蚁金服

android 程序员 移动开发

跨越行业绊脚石,阿里云函数计算发布7大技术突破

阿里巴巴中间件

阿里云 云原生 中间件 函数计算 云栖大会

Android开发面试题目,享学课堂android怎么样

android 程序员 移动开发

Android事件分发机制收藏这一篇就够了,阿里一线架构师技术图谱

android 程序员 移动开发

Android免打包多渠道统计如何实现,技术实现

android 程序员 移动开发

Android开发入门教程!扔物线学堂

android 程序员 移动开发

阿里云混合云Apsara Stack 2.0发布,加速政企数智创新

Lily

android热更新图片,动脑学院vip最新云盘

android 程序员 移动开发

Android中高级面试必知必会,Android学习路线

android 程序员 移动开发

Android体系化进阶学习图谱,动脑学院课程值得买吗

android 程序员 移动开发

跨越行业绊脚石,阿里云函数计算发布7大技术突破

Android开发社招面试解答之性能优化,Android开发面试题及答案

android 程序员 移动开发

android插件化资源冲突,动脑学院课程值得买吗

android 程序员 移动开发

打破 Serverless 落地边界,阿里云 SAE 发布5大新特性

阿里巴巴中间件

云计算 阿里云 Serverless 微服务 云栖大会

2021最新网易Android面试题目,2021Android架构面试指南

android 程序员 移动开发

每秒创建百万文件,百度沧海·文件存储CFS推出新一代Namespace架构

百度开发者中心

架构 文件存储 cfs

2021金九银十,动脑学院官网

android 程序员 移动开发

DeepMind提出引导式元学习算法,让元学习器具备自学能力_AI&大模型_Hecate He_InfoQ精选文章