谷歌研究团队找到提高自我监督学习鲁棒性的方法_AI&大模型_Google

AI实践哪家强？来 AICon，解锁技术前沿，探寻产业新机！了解详情 



 写点什么

如何进一步提高自我监督学习的鲁棒性是计算机视觉领域的一大难题，Google Brain 的研究人员就此问题发表了一篇论文，本文为 AI 前线第 105 篇论文导读，我们将对这篇论文的具体方法和效果进行解读。

近日，Google Brain 研究人员发表了一篇关于“如何提高自我监督学习的鲁棒性方法”的新研究。研究中提出了一个自动删除快捷方式特征的通用框架，该框架能使自我监督的模型优于以传统方式训练的模型。

摘要

在自我监督的视觉表现学习中，特征提取器在一个“预置任务”（Pretext task 可以理解为是一种为达到特定训练任务而设计的间接任务或预置任务）上进行训练，因为可以快速生成标签。这种方法存在的一个主要问题是，特征提取器在快速学习过程中关注于低级视觉特征（low-level visual features），例如色差或水印，无法学习有用的语义表示。

为解决这一问题，研究人员提出了一个自动删除快捷特征的通用框架。我们的主要假设是，那些最初被用来解决预置任务的特征也是在经过对抗训练后最容易成为增加任务难度的特征。我们通过训练“镜头”网络进行微小的图像更改，从而最大程度降低预置任务的性能，证明了这种假设适用于常见的预置任务和数据集。在所有测试中，使用修改过的图像学习的表现都优于未使用修改过的图像学习的表现。此外，镜头所做的修改揭示了预置任务和数据集的选择如何影响自我监督学习的特征。

方法

我们建议使用一个轻量级的图像-图像转换网络（或称“镜头”）来处理图像，以提高自我监督的视觉表现，该网络通过对抗训练来弱化特征提取网络在预置任务上的性能。在本研究中，我们首先定义了“快捷”视觉特征的概念。

直观地说，根据预置任务和学习表现的下游应用，快捷特征可以定义为（i）能够通过关注低级视觉特征快速、准确解决预置任务的特征；（ii）对下游应用程序是无用的，且能阻止学习有用的语义表示。

图注：旋转预测预置任务的自动快捷删除示例。镜头学会了删除预置任务更容易解决的特征（具体来说，它在这个例子中隐藏了水印）。快捷删除迫使网络学习更高级的特性来解决预置任务，提高了语义表示质量。

我们首先规范化基于预置任务的 SSL 的一般设置，然后描述如何修改这个设置来防止快捷特征。

对于分类预置任务，我们可以训练镜头，使预测的类概率偏向于可能性最小的类。因此损失函数变成：

具体方法可以归结为：

提出一个简单而通用的自动删除快捷方式的方法，几乎可以适用于任何预置任务。
我们在大量的预置任务和两个不同的训练数据集（ImageNet 和 YouTube-8M frames)上验证了所提出的方法，在所有方法、上游训练数据集和两个下游/评估数据集（ImageNet 和 Places205）上显示出均有改善。特别需要注意的是，我们的方法可以替代那些人工手动删除快捷特征的预处理过程。
我们使用镜头来比较不同预置任务和数据集之间的快捷特征。

实验

在实验中，研究人员在开源数据集 CIFAR-10 上训练了一种自我监督模型，并对其进行预测，以预测稍微旋转的图像的正确方向。为了测试镜头，他们在输入图像上添加了带有方向信息的快捷特征，这些快捷特征使模型无需学习目标级特征即可解决旋转任务。研究人员在报告中称，从合成的快捷特征中学习的模型（没有镜头）的语义表示表现不佳，而戏剧性的是，从镜头中学习的特征提取器总体上表现更好。

图注：模型示意图。在本文的实验中，我们对镜头 L 使用 U-Net 框架，对特征提取器 F 使用 ResNet50 v2 框架。

图注：使用不同的自我监督预置任务对 ImageNet 上训练的模型的表示进行评估。这些分数在逻辑回归模型中是准确的（以 %为单位）。以粗体表示的值在 0.05 的显著性水平上优于次佳的方法。训练图像按照各自的原始文件进行预处理。

图注：顶部：三张来自 ImageNet 的示例图像，由经过不同预置任务训练的镜头处理。输入图像上的虚线方块显示了用于基于补丁的任务的区域；底部：从测试集中随机选择的 1280 张图像的平均重建损失函数值。为了显示方便，截取了第 95 个百分位数。

在第二项测试中，该团队在开源语料库 ImageNet 中的一百万幅图像上训练了一个模型，并让其预测了图像中包含的一个或多个补丁的相对位置。研究人员称，对于所有已测试的任务，增加镜头可以使 baseline 得到改善。

结论

研究人员总结称：“结果表明，使用经过对抗训练的镜头自动删除快捷方式的好处可广泛应用于所有预置任务和数据集。此外，我们发现，各种类型的特征提取器都具备这种能力。除了提高表示方法外，我们的方法使我们能更直观地看到通过自我监督学习的特征，并能对这些特征进行量化和比较。我们确认，这种方法可以检测并弱化先前工作中出现的快捷特征。”

在未来的研究中，Google Brain 研究团队计划探索新的镜头架构，并探究该技术是否可以应用于进一步改进监督学习算法的问题上。

论文地址：

https://arxiv.org/pdf/2002.08822.pdf

参考链接：

https://venturebeat.com/2020/02/26/researchers-method-improving-self-supervised-ai-model-robustness/

评论 1 条评论

发布

flywithclouder

类似于gan

2020-03-12 18:13

 0 回复

没有更多了

创作场景

谷歌研究团队找到提高自我监督学习鲁棒性的方法

摘要

方法

实验

结论

评论 1 条评论

计算机专业必须掌握的脚本开发语言—shell

Hugging Face推出全新代码大模型：支持80+编程语言，集成VSCode

品牌升级 | 图扑物联正式启用新LOGO

Python中两种网络编程方式：Socket和HTTP协议

NL2SQL进阶系列(3)：Data-Copilot、Chat2DB、Vanna Text2SQL优化框架开源应用实践详解[Text2SQL]

Python编程与算法面试-编程面试的重点

数字先锋| 加“数”蝶变，打造政务服务“心温度”！

NL2SQL进阶系列(4)：ConvAI、DIN-SQL等16个业界开源应用实践详解[Text2SQL]

利物浦都在用的AI教练，真能拯救国足吗？

面试官追问的STW，到底什么是STW？有什么影响？

KaiwuDB CTO 魏可伟：AIoT，用行业定义数据库

FittenChat：程序员写代码的最好辅助利器，没有之一

科技助力上亿用户隐私安全保护，合合信息两款产品再获CCIA PIA星级标识

「Saturn 4 Ultra土星」开启光固化3D智能打印新潮向

OpenAI前商业化负责人Zack Kass中国行系列活动圆满落幕！

X314协议市值机器人

大报文之道：优化策略与实践

天翼云入选“2023年度数据要素价值创新标杆示范案例”！

Python编程与算法面试-编程面试的重点

使用 Apifox 设置 OAuth 2.0 并快速获取访问令牌

NineData正式将SQL开发正式升级为数据库DevOps

重塑新格局，拥抱新机遇｜2024超聚变合作伙伴大会成功举办

LED电子显示屏助广告媒体转型

如何熟悉一个陌生系统

教你解决CCE集群中容器出网

干货分享 | MatrixOne 如何基于K8S+S3构建HTAP数据库

从零开始学习大模型

阿里云超大规模边缘容器云助力应用全球化部署

DDD落地指南-架构师眼中的餐厅

创作场景

谷歌研究团队找到提高自我监督学习鲁棒性的方法

摘要

方法

实验

结论

评论 1 条评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载