写点什么

BERT 是图像预处理的未来?字节跳动提出视觉预训练工作 iBOT,实现了新的 SOTA 结果

  • 2021 年 11 月 27 日
  • 本文字数:1104 字

    阅读完需:约 4 分钟

BERT是图像预处理的未来?字节跳动提出视觉预训练工作iBOT,实现了新的SOTA结果

屏蔽语言建模(Maksed language modelling,MLM)是一种预训练范式,它将文本分词为语义上有意义的片段。尽管 MLM 是在自然语言处理任务中转换器取得卓越性能的主要贡献者,但它在正在革命计算机视觉研究的新兴视觉转换器(visual transformers,ViT)中的潜在应用仍然相对不足。

 

一篇新论文中,来自字节跳动、约翰·霍普金斯大学、上海交通大学和加州大学圣克鲁斯分校的一个研究团队试图将 MLM 应用于训练更好的视觉转换器,即 iBOT(使用在线分词器的图像 BERT 预训练),一个通过在线分词器执行屏蔽预测的自监督框架。



MLM 预训练转换器已经证明了它们在一系列语言任务中的成功性和可扩展性,这使得许多从事计算机视觉工作人员思考 ViTs 是否也能从某种形式的 MLM 中获益。


为了找到答案,研究人员探索了屏蔽图像建模(masked image modelling,MIM)以及使用一个语义上有意义的可视化分词器的优势和挑战。该团队首先确定语言分词器为最关键的 MLM 组件,该分词器旨在将语言转换为语义上有意义的标记。


他们提出,启用 MIM 需要设计一个类似语言分词器的组件——一个视觉分词器——来将屏蔽的补丁转换为目标模型的监管信号。这项任务是具有挑战性的,因为与根据词频统计分析的语言语义不同,视觉语义由于图像的连续性而不容易提取。



研究人员创建了 iBOT 来执行 MIM,使用了一种设计良好的视觉分词器。他们将 MIM 公式化为知识提取(knowledge distillation,KD),并建议在在线分词器的帮助下执行 MIM 的自提取。这样,目标网络可以将屏蔽图像作为输入,而在线分词器保留原始图像。目标是训练目标网络学习将每个屏蔽补丁词块恢复成相对应的分词器输出。

 

这个团队确定了他们的分词器的两个自然优势:

  1. 它通过在类标记上强制执行交叉视图图像的相似性来捕获高级视觉语义;

  2. 在预处理设置中不需要额外的训练阶段,因为它通过动量更新与 MIM 联合优化。

 

在他们的实证研究中,该团队在 ImageNet-1K 分类基准上使用 5 种协议对 iBOT 进行了评估:k-NN、线性探测(linear probing)、微调(fine-tuning)、半监督学习和无监督学习。他们还将 iBOT 传给下游任务,例如 COCO 上的对象检测和实例分割,以及 ADE20K 上的语义分割。




结果表明,iBOT 在 k-NN(77.1%)、线性探测(79.5%)和微调协议(83.8%)下提高了 ImageNet-1K 分类基准,比之前的最佳结果分别高出 1.0%、1.3%和 0.2%。除了最先进的图像分类性能外,iBOT 在所有下游任务上也都优于之前的结果。

 

总的来说,这项工作证明了 BERT 式图像转换器预训练的潜力,MIM 方法不仅可以实现高检测精度,还可以提高对常见图像损害的鲁棒性。


原文链接:

Is BERT the Future of Image Pretraining? ByteDance Team’s BERT-like Pretrained Vision Transformer iBOT Achieves New SOTAs

2021 年 11 月 27 日 16:011911

评论

发布
暂无评论
发现更多内容

用go语言实现快排

Sean

算法 快速排序 Go 语言

【架构笔记之设计模式】架构师训练营第1期第3周

业哥

极客大学架构师训练营

CSS语法与规则 — 重学CSS

三钻

CSS 大前端

Java源码系列3——LinkedHashMap

超超不会飞

Java

FastDFS 分布式文件系统详解

哈喽沃德先生

文件系统 分布式文件存储 fastdfs 分布式文件

基于 Flink + Hive 构建流批一体准实时数仓

Apache Flink

flink

架构师训练营第 1 期第 3 周学习总结

好吃不贵

极客大学架构师训练营

传统网络缺失货币层,比特币是否能担此大任?

blockchain

比特币 区块链 数字货币 比特币数字货币 区块俩金融

架构师训练营第三周作业

邓昀垚

极客大学架构师训练营

Java源码系列2——HashMap

超超不会飞

Java

在 InfoQ 兼职做运营

邓瑞恒Ryan

创业 用户增长 创业心态 运营 产品运营

Greenplum 性能优化之路 --(一)分区表

腾讯云大数据

大数据

智能体的奇幻漂流之“成都折叠”篇

脑极体

【FastDFS】SpringBoot整合FastDFS实战,我只看这一篇!!

冰河

springboot fastdfs

经常使用的数据结构

hasWhere

一个好系统自我完善自我进化的方法

boshi

产品思维 系统工程 即时反馈 生态体系

Dromara团队发布Hmily全新架构的2.1.1版本

猫大人

分布式事务 分布式柔性事务‘’

码住!Flink Contributor 速成指南

Apache Flink

flink 开源社区

我一定是熬夜熬傻了,小程序后台获取用户信息居然发生了这件事

小Q

Java 小程序 学习 编程 架构

烦人的Null,你可以走开点了

四猿外

Java 注解 空指针 Optional null

一个Hibernate的事务问题

YoungZY

hibernate

c++杂谈4

菜鸟小sailor 🐕

架构师训练营第1期第3周作业

业哥

极客大学架构师训练营

鲲鹏播种于时代,花开五色中原

脑极体

Nexmark: 如何设计一个流计算基准测试?

Apache Flink

flink

高中生写LOL外挂1年狂赚五百万,落网前刚买下120万保时捷

Java架构师迁哥

Greenplum 性能优化之路 --(二)存储格式

腾讯云大数据

大数据

Greenplum 性能优化之路 --(三)ANALYZE

腾讯云大数据

大数据 数据仓库

优秀组织的5大表现

异想的芦苇

团队管理 团队组织 组织

Java源码系列4——HashMap扩容时究竟对链表和红黑树做了什么?

超超不会飞

Java

Smartisan

Changing Lin

摄影

ShadowRealm 与微前端沙箱

ShadowRealm 与微前端沙箱

BERT是图像预处理的未来?字节跳动提出视觉预训练工作iBOT,实现了新的SOTA结果-InfoQ