【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

谷歌研究团队找到提高自我监督学习鲁棒性的方法

  • 2020-03-08
  • 本文字数:1989 字

    阅读完需:约 7 分钟

谷歌研究团队找到提高自我监督学习鲁棒性的方法

如何进一步提高自我监督学习的鲁棒性是计算机视觉领域的一大难题,Google Brain 的研究人员就此问题发表了一篇论文,本文为 AI 前线第 105 篇论文导读,我们将对这篇论文的具体方法和效果进行解读。


近日,Google Brain 研究人员发表了一篇关于“如何提高自我监督学习的鲁棒性方法”的新研究。研究中提出了一个自动删除快捷方式特征的通用框架,该框架能使自我监督的模型优于以传统方式训练的模型。

摘要

在自我监督的视觉表现学习中,特征提取器在一个“预置任务”(Pretext task 可以理解为是一种为达到特定训练任务而设计的间接任务或预置任务)上进行训练,因为可以快速生成标签。这种方法存在的一个主要问题是,特征提取器在快速学习过程中关注于低级视觉特征(low-level visual features),例如色差或水印,无法学习有用的语义表示。


为解决这一问题,研究人员提出了一个自动删除快捷特征的通用框架。我们的主要假设是,那些最初被用来解决预置任务的特征也是在经过对抗训练后最容易成为增加任务难度的特征。我们通过训练“镜头”网络进行微小的图像更改,从而最大程度降低预置任务的性能,证明了这种假设适用于常见的预置任务和数据集。在所有测试中,使用修改过的图像学习的表现都优于未使用修改过的图像学习的表现。此外,镜头所做的修改揭示了预置任务和数据集的选择如何影响自我监督学习的特征。

方法

我们建议使用一个轻量级的图像-图像转换网络(或称“镜头”)来处理图像,以提高自我监督的视觉表现,该网络通过对抗训练来弱化特征提取网络在预置任务上的性能。在本研究中,我们首先定义了“快捷”视觉特征的概念。


直观地说,根据预置任务和学习表现的下游应用,快捷特征可以定义为(i)能够通过关注低级视觉特征快速、准确解决预置任务的特征;(ii)对下游应用程序是无用的,且能阻止学习有用的语义表示。



图注:旋转预测预置任务的自动快捷删除示例。镜头学会了删除预置任务更容易解决的特征(具体来说,它在这个例子中隐藏了水印)。快捷删除迫使网络学习更高级的特性来解决预置任务,提高了语义表示质量。


我们首先规范化基于预置任务的 SSL 的一般设置,然后描述如何修改这个设置来防止快捷特征。



对于分类预置任务,我们可以训练镜头,使预测的类概率偏向于可能性最小的类。因此损失函数变成:



具体方法可以归结为:


  • 提出一个简单而通用的自动删除快捷方式的方法,几乎可以适用于任何预置任务。

  • 我们在大量的预置任务和两个不同的训练数据集(ImageNet 和 YouTube-8M frames)上验证了所提出的方法,在所有方法、上游训练数据集和两个下游/评估数据集(ImageNet 和 Places205)上显示出均有改善。特别需要注意的是,我们的方法可以替代那些人工手动删除快捷特征的预处理过程。

  • 我们使用镜头来比较不同预置任务和数据集之间的快捷特征。

实验

在实验中,研究人员在开源数据集 CIFAR-10 上训练了一种自我监督模型,并对其进行预测,以预测稍微旋转的图像的正确方向。为了测试镜头,他们在输入图像上添加了带有方向信息的快捷特征,这些快捷特征使模型无需学习目标级特征即可解决旋转任务。研究人员在报告中称,从合成的快捷特征中学习的模型(没有镜头)的语义表示表现不佳,而戏剧性的是,从镜头中学习的特征提取器总体上表现更好。



图注:模型示意图。在本文的实验中,我们对镜头 L 使用 U-Net 框架,对特征提取器 F 使用 ResNet50 v2 框架。



图注:使用不同的自我监督预置任务对 ImageNet 上训练的模型的表示进行评估。这些分数在逻辑回归模型中是准确的(以 %为单位)。以粗体表示的值在 0.05 的显著性水平上优于次佳的方法。训练图像按照各自的原始文件进行预处理。



图注:顶部:三张来自 ImageNet 的示例图像,由经过不同预置任务训练的镜头处理。输入图像上的虚线方块显示了用于基于补丁的任务的区域;底部:从测试集中随机选择的 1280 张图像的平均重建损失函数值。为了显示方便,截取了第 95 个百分位数。


在第二项测试中,该团队在开源语料库 ImageNet 中的一百万幅图像上训练了一个模型,并让其预测了图像中包含的一个或多个补丁的相对位置。研究人员称,对于所有已测试的任务,增加镜头可以使 baseline 得到改善。

结论

研究人员总结称:“结果表明,使用经过对抗训练的镜头自动删除快捷方式的好处可广泛应用于所有预置任务和数据集。此外,我们发现,各种类型的特征提取器都具备这种能力。除了提高表示方法外,我们的方法使我们能更直观地看到通过自我监督学习的特征,并能对这些特征进行量化和比较。我们确认,这种方法可以检测并弱化先前工作中出现的快捷特征。”


在未来的研究中,Google Brain 研究团队计划探索新的镜头架构,并探究该技术是否可以应用于进一步改进监督学习算法的问题上。


论文地址:


https://arxiv.org/pdf/2002.08822.pdf


参考链接:


https://venturebeat.com/2020/02/26/researchers-method-improving-self-supervised-ai-model-robustness/


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-03-08 13:402816

评论 1 条评论

发布
用户头像
类似于gan
2020-03-12 18:13
回复
没有更多了
发现更多内容

pyinstaller 打包

橙橙橙橙汁丶

毕业设计-秒杀业务

白发青年

架构实战营

现代分布式架构设计原则-可靠性

余朋飞

稳定性 可用性 弹性 可靠性

网络攻防学习笔记 Day92

穿过生命散发芬芳

网络攻防 8月日更

手把手撸二叉树之叶子相似的树

HelloWorld杰少

面试 大前端 二叉树 数据结构与算法 8月日更

服装生产流程管理在明道云的实现

明道云

Git的基本操作

卢卡多多

git flow git reset 8月日更

【LeetCode】矩阵中战斗力最弱的 K 行Java题解

Albert

算法 LeetCode 8月日更

Linux中Shell重定向

入门小站

Linux

01 设计模式之单例模式

陈皮的JavaLib

设计模式 单例模式 8月日更

Convolutional Neural Network (CNN)

毛显新

神经网络 深度学习 tensorflow 图像识别

具备货币属性的比特币,会成为一种货币吗?

CECBC

大数据训练营 -0725 课后作业

cc

Discourse 图片上传的更新

HoneyMoose

做行业的底层架构者 为区块链+提供更多可能

CECBC

李运华老师(前阿里P9)架构实战营 毕业总结

代廉洁

架构实战营

「SQL数据分析系列」13. 索引和约束

数据与智能

sql 索引 位图

聊聊实时数仓架构设计

水滴

实时数仓 数仓架构 8月日更 数仓建设思路

解密NFT,进军元宇宙,区块链与价值实体将如何链接?

CECBC

架构师实战营 模块九作业(设计电商秒杀系统)

代廉洁

架构实战营

架构实战营-毕业设计

泄矢的呼啦圈

架构实战营

架构师实战营 模块九总结

代廉洁

架构实战营

架构实战营毕业总结

白发青年

#架构实战营

【前端 · 面试 】HTTP 总结(一)—— HTTP 概述

编程三昧

面试 大前端 HTTP 8月日更

docker个人理解与安装

小鲍侃java

8月日更

带你全面了解 Git 系列 02 - 常用 Git 技巧

淼💦 淼

git GitHub

Python OpenCV 图像处理之傅里叶变换,取经之旅第 52 篇

梦想橡皮擦

8月日更

【Vue2.x 源码学习】第二十二篇 - dep 和 watcher 关联

Brave

源码 vue2 8月日更

Pandas入门教程-开篇之作

Peter

Python pandas 数据分析师 #python

菜鸡学习python

Augus

8月日更

非典型开发者的形象三变

脑极体

谷歌研究团队找到提高自我监督学习鲁棒性的方法_AI&大模型_Google_InfoQ精选文章