写点什么

BERT 是图像预处理的未来?字节跳动提出视觉预训练工作 iBOT,实现了新的 SOTA 结果

  • 2021-11-27
  • 本文字数:1104 字

    阅读完需:约 4 分钟

BERT是图像预处理的未来?字节跳动提出视觉预训练工作iBOT,实现了新的SOTA结果

屏蔽语言建模(Maksed language modelling,MLM)是一种预训练范式,它将文本分词为语义上有意义的片段。尽管 MLM 是在自然语言处理任务中转换器取得卓越性能的主要贡献者,但它在正在革命计算机视觉研究的新兴视觉转换器(visual transformers,ViT)中的潜在应用仍然相对不足。

 

一篇新论文中,来自字节跳动、约翰·霍普金斯大学、上海交通大学和加州大学圣克鲁斯分校的一个研究团队试图将 MLM 应用于训练更好的视觉转换器,即 iBOT(使用在线分词器的图像 BERT 预训练),一个通过在线分词器执行屏蔽预测的自监督框架。



MLM 预训练转换器已经证明了它们在一系列语言任务中的成功性和可扩展性,这使得许多从事计算机视觉工作人员思考 ViTs 是否也能从某种形式的 MLM 中获益。


为了找到答案,研究人员探索了屏蔽图像建模(masked image modelling,MIM)以及使用一个语义上有意义的可视化分词器的优势和挑战。该团队首先确定语言分词器为最关键的 MLM 组件,该分词器旨在将语言转换为语义上有意义的标记。


他们提出,启用 MIM 需要设计一个类似语言分词器的组件——一个视觉分词器——来将屏蔽的补丁转换为目标模型的监管信号。这项任务是具有挑战性的,因为与根据词频统计分析的语言语义不同,视觉语义由于图像的连续性而不容易提取。



研究人员创建了 iBOT 来执行 MIM,使用了一种设计良好的视觉分词器。他们将 MIM 公式化为知识提取(knowledge distillation,KD),并建议在在线分词器的帮助下执行 MIM 的自提取。这样,目标网络可以将屏蔽图像作为输入,而在线分词器保留原始图像。目标是训练目标网络学习将每个屏蔽补丁词块恢复成相对应的分词器输出。

 

这个团队确定了他们的分词器的两个自然优势:

  1. 它通过在类标记上强制执行交叉视图图像的相似性来捕获高级视觉语义;

  2. 在预处理设置中不需要额外的训练阶段,因为它通过动量更新与 MIM 联合优化。

 

在他们的实证研究中,该团队在 ImageNet-1K 分类基准上使用 5 种协议对 iBOT 进行了评估:k-NN、线性探测(linear probing)、微调(fine-tuning)、半监督学习和无监督学习。他们还将 iBOT 传给下游任务,例如 COCO 上的对象检测和实例分割,以及 ADE20K 上的语义分割。




结果表明,iBOT 在 k-NN(77.1%)、线性探测(79.5%)和微调协议(83.8%)下提高了 ImageNet-1K 分类基准,比之前的最佳结果分别高出 1.0%、1.3%和 0.2%。除了最先进的图像分类性能外,iBOT 在所有下游任务上也都优于之前的结果。

 

总的来说,这项工作证明了 BERT 式图像转换器预训练的潜力,MIM 方法不仅可以实现高检测精度,还可以提高对常见图像损害的鲁棒性。


原文链接:

Is BERT the Future of Image Pretraining? ByteDance Team’s BERT-like Pretrained Vision Transformer iBOT Achieves New SOTAs

2021-11-27 16:013054

评论

发布
暂无评论
发现更多内容

焱融科技发布国内首个NVIDIA DGX A100 + 全闪存储参考架构白皮书

焱融科技

文件存储 容器存储 分布式文件存储 高性能存储 全闪存储

详解React的Transition工作原理原理

夏天的味道123

前端 React

大厂不同职级要求有何不同

致知Fighting

Java 后端 晋升

[译]TIME_WAIT及其对协议和可伸缩客户端服务器系统的设计实现

蓬蒿

TCP TIME_WAIT

细说React组件性能优化

xiaofeng

前端 React

打造语言大模型的生成式AI,澜舟科技一年内完成数亿元融资

澜舟孟子开源社区

人工智能 AIGC

3.15 数据库吐槽大会

NineData

数据库 mongodb 云计算 程序员 图数据库

FeatHub:流批一体的实时特征工程平台

Apache Flink

大数据 flink 实时计算

OPPO 对话式 AI 助手小布演进之路

安第斯智能云

人工智能 AI IoT 跨端 语音助手

京东前端高频react面试题及答案

xiaofeng

前端 React

前端经典react面试题(持续更新中)

xiaofeng

前端 React

Stage模型深入解读

HarmonyOS开发者

HarmonyOS

前端常见react面试题合集

夏天的味道123

前端 React

移动端应用性能多维监控——崩溃监控系统

Openlab_cosmoplat

工业互联网 开源社区 崩溃监控系统

不被定义,思岚科技机器人底盘的百变扩展可能!

科技热闻

Android图形渲染系统新

江湖修行

渲染 an'droid 渲染技术

【NLP 系列】Bert 词向量的空间分布

京东科技开发者

人工智能 nlp NLP 大模型 BERT 企业号 3 月 PK 榜

2023Java面试,看完这份笔记薪资和offer都稳了!

程序知音

Java 编程语言 后端 八股文 Java面试题

ChatGPT-4 来了, OpenAI 官宣6种已落地应用和服务模式

B Impact

8个云成本优化的最佳实践

SEAL安全

FinOps 云成本管理

深入理解 Taier:MR on Yarn 的实现原理

袋鼠云数栈

hadoop

2022年国内CVC参与股权投资事件1341个,同比减少43.9%;智能制造、医疗健康和企业服务最受青睐丨睿兽分析CVC年报

创业邦

前端常考vue面试题(必备)

yyds2026

Vue 前端

好朋友 TIME_WAIT

蓬蒿

TCP协议 TIME_WAIT

前端必会vue面试题(必备)

yyds2026

Vue 前端

vue实战中的一些小技巧

yyds2026

Vue 前端

前端react面试题合集

夏天的味道123

前端 React

中国美妆行业私域服务商发展洞察

易观分析

商业 美妆

连接内网SSH新姿势,告别慢速度及防火墙限制

百川云开发者

Linux 远程连接 主机运维

读懂React原理之调和与Fiber

xiaofeng

前端 React

vue的几个提效技巧

yyds2026

Vue 前端

BERT是图像预处理的未来?字节跳动提出视觉预训练工作iBOT,实现了新的SOTA结果_文化 & 方法_Hecate He_InfoQ精选文章