AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

BERT 是图像预处理的未来?字节跳动提出视觉预训练工作 iBOT,实现了新的 SOTA 结果

  • 2021-11-27
  • 本文字数:1104 字

    阅读完需:约 4 分钟

BERT是图像预处理的未来?字节跳动提出视觉预训练工作iBOT,实现了新的SOTA结果

屏蔽语言建模(Maksed language modelling,MLM)是一种预训练范式,它将文本分词为语义上有意义的片段。尽管 MLM 是在自然语言处理任务中转换器取得卓越性能的主要贡献者,但它在正在革命计算机视觉研究的新兴视觉转换器(visual transformers,ViT)中的潜在应用仍然相对不足。

 

一篇新论文中,来自字节跳动、约翰·霍普金斯大学、上海交通大学和加州大学圣克鲁斯分校的一个研究团队试图将 MLM 应用于训练更好的视觉转换器,即 iBOT(使用在线分词器的图像 BERT 预训练),一个通过在线分词器执行屏蔽预测的自监督框架。



MLM 预训练转换器已经证明了它们在一系列语言任务中的成功性和可扩展性,这使得许多从事计算机视觉工作人员思考 ViTs 是否也能从某种形式的 MLM 中获益。


为了找到答案,研究人员探索了屏蔽图像建模(masked image modelling,MIM)以及使用一个语义上有意义的可视化分词器的优势和挑战。该团队首先确定语言分词器为最关键的 MLM 组件,该分词器旨在将语言转换为语义上有意义的标记。


他们提出,启用 MIM 需要设计一个类似语言分词器的组件——一个视觉分词器——来将屏蔽的补丁转换为目标模型的监管信号。这项任务是具有挑战性的,因为与根据词频统计分析的语言语义不同,视觉语义由于图像的连续性而不容易提取。



研究人员创建了 iBOT 来执行 MIM,使用了一种设计良好的视觉分词器。他们将 MIM 公式化为知识提取(knowledge distillation,KD),并建议在在线分词器的帮助下执行 MIM 的自提取。这样,目标网络可以将屏蔽图像作为输入,而在线分词器保留原始图像。目标是训练目标网络学习将每个屏蔽补丁词块恢复成相对应的分词器输出。

 

这个团队确定了他们的分词器的两个自然优势:

  1. 它通过在类标记上强制执行交叉视图图像的相似性来捕获高级视觉语义;

  2. 在预处理设置中不需要额外的训练阶段,因为它通过动量更新与 MIM 联合优化。

 

在他们的实证研究中,该团队在 ImageNet-1K 分类基准上使用 5 种协议对 iBOT 进行了评估:k-NN、线性探测(linear probing)、微调(fine-tuning)、半监督学习和无监督学习。他们还将 iBOT 传给下游任务,例如 COCO 上的对象检测和实例分割,以及 ADE20K 上的语义分割。




结果表明,iBOT 在 k-NN(77.1%)、线性探测(79.5%)和微调协议(83.8%)下提高了 ImageNet-1K 分类基准,比之前的最佳结果分别高出 1.0%、1.3%和 0.2%。除了最先进的图像分类性能外,iBOT 在所有下游任务上也都优于之前的结果。

 

总的来说,这项工作证明了 BERT 式图像转换器预训练的潜力,MIM 方法不仅可以实现高检测精度,还可以提高对常见图像损害的鲁棒性。


原文链接:

Is BERT the Future of Image Pretraining? ByteDance Team’s BERT-like Pretrained Vision Transformer iBOT Achieves New SOTAs

2021-11-27 16:013124

评论

发布
暂无评论
发现更多内容

荣耀 MagicOS 9.0 发布会及开发者大会,现正直播中

荣耀开发者服务平台

人工智能 AI 开发者大会 荣耀

智能合约开发中的LP分红系统

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 NFT开发 代币开发

鸿蒙网络编程系列28-服务端证书锁定防范中间人攻击示例

长弓三石

DevEco Studio 开发实例 HarmonyOS NEXT 网络与连接

最新测评,6款好用的在线代码编辑器推荐

是但求其发

云计算 云原生 高效工具 云 IDE 敏捷开发工具

修复一个kubernetes集群

不在线第一只蜗牛

Kubernetes 容器 云原生

2024年西藏等保测评机构名单汇总

行云管家

等保 等保测评 西藏

MariaDB 和 GreatSQL 性能差异背后的真相

GreatSQL

智联招聘×Milvus:向量召回技术提升招聘匹配效率

Zilliz

人工智能 AI Milvus Zilliz 向量数据库

要低代码,但不要低能力,低代码产品能否成为企业的增效神器?

优秀

低代码 低代码平台 低代码平台比较

IEPL专线:企业网络的高速保障

Ogcloud

企业组网 企业网络 IEPL 企业网络专线 网络专线

项目管理这些问题,你是不是忍了很久?

天津汇柏科技有限公司

项目管理 低代码开发 软件定制开发

糟糕,当我上班用deepin,被老板看到了我的桌面后......!

nn-30

Linux 操作系统 deepin 桌面应用 桌面

鸿蒙网络编程系列30-断点续传下载文件示例

长弓三石

DevEco Studio 开发实例 HarmonyOS NEXT 网络与连接

鸿蒙网络编程系列32-基于拦截器的性能监控示例

长弓三石

DevEco Studio 开发实例 HarmonyOS NEXT 网络与连接

鸿蒙网络编程系列31-使用RCP调用OpenAI接口实现智能助手

长弓三石

DevEco Studio 开发实例 HarmonyOS NEXT 网络与连接

单月30k+ Downloads!一款头部Embedding开源模型

合合技术团队

开源 工具 科技

软件测试学习笔记丨Selenium学习笔记:元素定位与操作

测试人

软件测试

鸿蒙网络编程系列33-TLS回声服务器示例

长弓三石

DevEco Studio 开发实例 HarmonyOS NEXT 网络与连接

百度智能云千帆 AppBuilder 大模型应用开发解读

Baidu AICLOUD

应用开发 AI原生应用 大模型应用

Altair官方文档——HyperMesh模型管理

智造软件

教程 CAE软件 altair Hypermesh

数据为王,实时监控显神威 —— 淘宝商品详情API的电商实战应用

技术冰糖葫芦

API 接口 API 文档 API 测试 pinduoduo API

数据驱动未来:淘宝商品详情API在电商实战中的实时监控力量

代码忍者

API 接口 pinduoduo API

2025北京国际自动驾驶技术展览会

AIOTE智博会

自动驾驶展 自动驾驶展会

BOE(京东方)携手雷神联合发布全球首款仿生蜂鸟屏 以全新升级ACR技术引领显示产业高端化的升维发展

科技汇

去中心化衍生品入门:模型、挑战与机遇

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 钱包开发 代币开发

CNCC | 倒计时3天!CCF-网易雷火联合基金研讨会:议程嘉宾交通参会指南一图掌握

网易伏羲

人工智能 网易伏羲 cncc 具身智能 群体智能

鸿蒙网络编程系列29-RCP下载到文件和流示例

长弓三石

DevEco Studio 开发实例 HarmonyOS NEXT 网络与连接

【FAQ】HarmonyOS SDK 闭源开放能力 —IAP Kit(3)

HarmonyOS SDK

HarmonyOS

BERT是图像预处理的未来?字节跳动提出视觉预训练工作iBOT,实现了新的SOTA结果_文化 & 方法_Hecate He_InfoQ精选文章