写点什么

BERT 是图像预处理的未来?字节跳动提出视觉预训练工作 iBOT,实现了新的 SOTA 结果

  • 2021-11-27
  • 本文字数:1104 字

    阅读完需:约 4 分钟

BERT是图像预处理的未来?字节跳动提出视觉预训练工作iBOT,实现了新的SOTA结果

屏蔽语言建模(Maksed language modelling,MLM)是一种预训练范式,它将文本分词为语义上有意义的片段。尽管 MLM 是在自然语言处理任务中转换器取得卓越性能的主要贡献者,但它在正在革命计算机视觉研究的新兴视觉转换器(visual transformers,ViT)中的潜在应用仍然相对不足。

 

一篇新论文中,来自字节跳动、约翰·霍普金斯大学、上海交通大学和加州大学圣克鲁斯分校的一个研究团队试图将 MLM 应用于训练更好的视觉转换器,即 iBOT(使用在线分词器的图像 BERT 预训练),一个通过在线分词器执行屏蔽预测的自监督框架。



MLM 预训练转换器已经证明了它们在一系列语言任务中的成功性和可扩展性,这使得许多从事计算机视觉工作人员思考 ViTs 是否也能从某种形式的 MLM 中获益。


为了找到答案,研究人员探索了屏蔽图像建模(masked image modelling,MIM)以及使用一个语义上有意义的可视化分词器的优势和挑战。该团队首先确定语言分词器为最关键的 MLM 组件,该分词器旨在将语言转换为语义上有意义的标记。


他们提出,启用 MIM 需要设计一个类似语言分词器的组件——一个视觉分词器——来将屏蔽的补丁转换为目标模型的监管信号。这项任务是具有挑战性的,因为与根据词频统计分析的语言语义不同,视觉语义由于图像的连续性而不容易提取。



研究人员创建了 iBOT 来执行 MIM,使用了一种设计良好的视觉分词器。他们将 MIM 公式化为知识提取(knowledge distillation,KD),并建议在在线分词器的帮助下执行 MIM 的自提取。这样,目标网络可以将屏蔽图像作为输入,而在线分词器保留原始图像。目标是训练目标网络学习将每个屏蔽补丁词块恢复成相对应的分词器输出。

 

这个团队确定了他们的分词器的两个自然优势:

  1. 它通过在类标记上强制执行交叉视图图像的相似性来捕获高级视觉语义;

  2. 在预处理设置中不需要额外的训练阶段,因为它通过动量更新与 MIM 联合优化。

 

在他们的实证研究中,该团队在 ImageNet-1K 分类基准上使用 5 种协议对 iBOT 进行了评估:k-NN、线性探测(linear probing)、微调(fine-tuning)、半监督学习和无监督学习。他们还将 iBOT 传给下游任务,例如 COCO 上的对象检测和实例分割,以及 ADE20K 上的语义分割。




结果表明,iBOT 在 k-NN(77.1%)、线性探测(79.5%)和微调协议(83.8%)下提高了 ImageNet-1K 分类基准,比之前的最佳结果分别高出 1.0%、1.3%和 0.2%。除了最先进的图像分类性能外,iBOT 在所有下游任务上也都优于之前的结果。

 

总的来说,这项工作证明了 BERT 式图像转换器预训练的潜力,MIM 方法不仅可以实现高检测精度,还可以提高对常见图像损害的鲁棒性。


原文链接:

Is BERT the Future of Image Pretraining? ByteDance Team’s BERT-like Pretrained Vision Transformer iBOT Achieves New SOTAs

2021-11-27 16:013291

评论

发布
暂无评论
发现更多内容

架构师0期Week10作业2

Nan Jiang

看DLI服务4核心如何提升云服务自动化运维

华为云开发者联盟

Serverless 运维 运维自动化 华为云 DLI

作业二

Kiroro

Grafana和ES打造的Nginx的仪表盘

陈磊@Criss

吴桐:数字货币具有稳定的避险性吗

CECBC

区块链 数字货币 链政经济

架构师训练营第十周总结

Hanson

22种超全用户触点采集,易观方舟SDK又更新了

易观大数据

环信助力OFashion迷橙开辟海外直播带货新通路

DT极客

欲速也可达:Battle接口测试训练系统的1分钟快速说明

陈磊@Criss

高中生写LOL外挂1年狂赚500万,落网前刚买下120万保时捷...

程序员生活志

编程 程序员 外挂

Clover:解决Java8和Cobertura的问题以及解决方法

陈磊@Criss

python判断文件和文件夹是否存在、创建文件夹

陈磊@Criss

jmeter 执行python脚本

陈磊@Criss

架构师0期Week10作业1

Nan Jiang

5G从小就梦想着自己要迎娶:高速率、低时延、大容量三个老婆

华为云开发者联盟

5G IoT 通信 华为云 NB-IoT

如何有效防止sql注入

Java旅途

什么是死信队列

Java旅途

RabbitMQ

Web前端性能优化,应该怎么做?

华为云开发者联盟

运维 大前端 HTTP js

第十周.总结

刘璐

标新立异的日志归档:用更少的内存归档大规模测试日志

陈磊@Criss

推荐Scrum书籍

Bob Jiang

Scrum 敏捷

第十周.命题作业

刘璐

弹性计算的内部概念:弹性扩张、弹性收缩、弹性自愈

陈磊@Criss

一文熟悉MySQL索引

书旅

MySQL 索引

原创 | 使用JPA实现DDD持久化-R:数据的世界

编程道与术

Java hibernate DDD JDBC jpa

PIP的报错Could not fetch URL https://pypi.org/

陈磊@Criss

两数之和

书旅

数据结构 算法 数据结构与算法

作业一

Kiroro

架构师培训第10周练习

小蚂蚁

该了解一波了!零基础入门Nginx

程序员的时光

nginx Docker

架构师训练营第十周作业

Hanson

BERT是图像预处理的未来?字节跳动提出视觉预训练工作iBOT,实现了新的SOTA结果_文化 & 方法_Hecate He_InfoQ精选文章