写点什么

BERT 是图像预处理的未来?字节跳动提出视觉预训练工作 iBOT,实现了新的 SOTA 结果

  • 2021-11-27
  • 本文字数:1104 字

    阅读完需:约 4 分钟

BERT是图像预处理的未来?字节跳动提出视觉预训练工作iBOT,实现了新的SOTA结果

屏蔽语言建模(Maksed language modelling,MLM)是一种预训练范式,它将文本分词为语义上有意义的片段。尽管 MLM 是在自然语言处理任务中转换器取得卓越性能的主要贡献者,但它在正在革命计算机视觉研究的新兴视觉转换器(visual transformers,ViT)中的潜在应用仍然相对不足。

 

一篇新论文中,来自字节跳动、约翰·霍普金斯大学、上海交通大学和加州大学圣克鲁斯分校的一个研究团队试图将 MLM 应用于训练更好的视觉转换器,即 iBOT(使用在线分词器的图像 BERT 预训练),一个通过在线分词器执行屏蔽预测的自监督框架。



MLM 预训练转换器已经证明了它们在一系列语言任务中的成功性和可扩展性,这使得许多从事计算机视觉工作人员思考 ViTs 是否也能从某种形式的 MLM 中获益。


为了找到答案,研究人员探索了屏蔽图像建模(masked image modelling,MIM)以及使用一个语义上有意义的可视化分词器的优势和挑战。该团队首先确定语言分词器为最关键的 MLM 组件,该分词器旨在将语言转换为语义上有意义的标记。


他们提出,启用 MIM 需要设计一个类似语言分词器的组件——一个视觉分词器——来将屏蔽的补丁转换为目标模型的监管信号。这项任务是具有挑战性的,因为与根据词频统计分析的语言语义不同,视觉语义由于图像的连续性而不容易提取。



研究人员创建了 iBOT 来执行 MIM,使用了一种设计良好的视觉分词器。他们将 MIM 公式化为知识提取(knowledge distillation,KD),并建议在在线分词器的帮助下执行 MIM 的自提取。这样,目标网络可以将屏蔽图像作为输入,而在线分词器保留原始图像。目标是训练目标网络学习将每个屏蔽补丁词块恢复成相对应的分词器输出。

 

这个团队确定了他们的分词器的两个自然优势:

  1. 它通过在类标记上强制执行交叉视图图像的相似性来捕获高级视觉语义;

  2. 在预处理设置中不需要额外的训练阶段,因为它通过动量更新与 MIM 联合优化。

 

在他们的实证研究中,该团队在 ImageNet-1K 分类基准上使用 5 种协议对 iBOT 进行了评估:k-NN、线性探测(linear probing)、微调(fine-tuning)、半监督学习和无监督学习。他们还将 iBOT 传给下游任务,例如 COCO 上的对象检测和实例分割,以及 ADE20K 上的语义分割。




结果表明,iBOT 在 k-NN(77.1%)、线性探测(79.5%)和微调协议(83.8%)下提高了 ImageNet-1K 分类基准,比之前的最佳结果分别高出 1.0%、1.3%和 0.2%。除了最先进的图像分类性能外,iBOT 在所有下游任务上也都优于之前的结果。

 

总的来说,这项工作证明了 BERT 式图像转换器预训练的潜力,MIM 方法不仅可以实现高检测精度,还可以提高对常见图像损害的鲁棒性。


原文链接:

Is BERT the Future of Image Pretraining? ByteDance Team’s BERT-like Pretrained Vision Transformer iBOT Achieves New SOTAs

2021-11-27 16:013179

评论

发布
暂无评论
发现更多内容

企业网盘哪个好用?对比这9款主流软件

易成研发中心

文献解读-DNAscope: High accuracy small variant calling using machine learning

INSVAST

基因数据分析 生信服务 DNAscope 基准与方法研究 Sentieon

中国信通院《央国企数智化转型发展报告(2025)》征集参编单位

信通院IOMM数字化转型团队

数字化转型 数智化 IOMM 央国企数智化转型

天翼企业云盘好用吗?深入探讨8款云盘

易成研发中心

游戏行业使用高防独立IP有什么好处?

网络安全服务

服务器 DDoS 高防IP 高防IP服务 DDoS 攻击

淘宝/天猫商品描述API返回值深度解析与实战应用

代码忍者

API 接口 pinduoduo API

在线项目管理软件哪个好?9大工具全面解析

易成研发中心

选择适合的文档管理软件:支持本地私有部署的6款

易成研发中心

【Spring】配置文件优先级

虚实的星空

spring

云厂商的双11:从“价格”向“价值”倾斜的天平

脑极体

云计算 AI

项目管理软件哪个好?2024年排行榜前十名

易成研发中心

Mysql高可用架构方案

不在线第一只蜗牛

MySQL

如何选择项目管理软件?9个精选推荐

易成研发中心

推荐一款企业级的C/C++在线编译器

是但求其发

程序员 敏捷开发 嵌入式 云 IDE C++\

inBuilder低代码平台特性推荐系列第二十六期——定时器管理

inBuilder低代码平台

低代码 定时器

8款研发项目管理软件评测,哪个工具最适合

易成研发中心

让空间计算触手可及,VR手套何以点石成金?

江湖老铁

2024年免费项目管理软件有哪些?9款工具分析

易成研发中心

苹果电脑怎么读取ntfs磁盘 mac读写ntfs硬盘问题

阿拉灯神丁

硬盘 文件读取 磁盘管理 Paragon NTFS16 NTFS磁盘管理器

2024大湾区网络安全大会成功举办,天翼云AOne筑牢教育安全防线

科技热闻

轻量级项目管理软件推荐:2024年9款必看工具

易成研发中心

多源异构数据源融合怎么做!一文解读(1)

RestCloud

数据挖掘 ETL 数据集成 多源异构数据融合

技术干货|热门仿真平台HyperMesh CFD功能详解:几何和网格(Part 3)

Altair RapidMiner

制造业 仿真 几何变换 altair Hypermesh

【JIT/极态云】技术文档--扩展表

武汉万云网络科技有限公司

【JIT/极态云】技术文档--事件介绍

武汉万云网络科技有限公司

选择指南:开源项目管理软件的8大优质工具

易成研发中心

现代化可观测性平台(2)

俞凡

架构 最佳实践 可观测性

业界领先性能|焱融全闪 F9000X 荣获 AI 存储金奖

焱融科技

人工智能 全闪存储

BERT是图像预处理的未来?字节跳动提出视觉预训练工作iBOT,实现了新的SOTA结果_文化 & 方法_Hecate He_InfoQ精选文章