AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

BERT 是图像预处理的未来?字节跳动提出视觉预训练工作 iBOT,实现了新的 SOTA 结果

  • 2021-11-27
  • 本文字数:1104 字

    阅读完需:约 4 分钟

BERT是图像预处理的未来?字节跳动提出视觉预训练工作iBOT,实现了新的SOTA结果

屏蔽语言建模(Maksed language modelling,MLM)是一种预训练范式,它将文本分词为语义上有意义的片段。尽管 MLM 是在自然语言处理任务中转换器取得卓越性能的主要贡献者,但它在正在革命计算机视觉研究的新兴视觉转换器(visual transformers,ViT)中的潜在应用仍然相对不足。

 

一篇新论文中,来自字节跳动、约翰·霍普金斯大学、上海交通大学和加州大学圣克鲁斯分校的一个研究团队试图将 MLM 应用于训练更好的视觉转换器,即 iBOT(使用在线分词器的图像 BERT 预训练),一个通过在线分词器执行屏蔽预测的自监督框架。



MLM 预训练转换器已经证明了它们在一系列语言任务中的成功性和可扩展性,这使得许多从事计算机视觉工作人员思考 ViTs 是否也能从某种形式的 MLM 中获益。


为了找到答案,研究人员探索了屏蔽图像建模(masked image modelling,MIM)以及使用一个语义上有意义的可视化分词器的优势和挑战。该团队首先确定语言分词器为最关键的 MLM 组件,该分词器旨在将语言转换为语义上有意义的标记。


他们提出,启用 MIM 需要设计一个类似语言分词器的组件——一个视觉分词器——来将屏蔽的补丁转换为目标模型的监管信号。这项任务是具有挑战性的,因为与根据词频统计分析的语言语义不同,视觉语义由于图像的连续性而不容易提取。



研究人员创建了 iBOT 来执行 MIM,使用了一种设计良好的视觉分词器。他们将 MIM 公式化为知识提取(knowledge distillation,KD),并建议在在线分词器的帮助下执行 MIM 的自提取。这样,目标网络可以将屏蔽图像作为输入,而在线分词器保留原始图像。目标是训练目标网络学习将每个屏蔽补丁词块恢复成相对应的分词器输出。

 

这个团队确定了他们的分词器的两个自然优势:

  1. 它通过在类标记上强制执行交叉视图图像的相似性来捕获高级视觉语义;

  2. 在预处理设置中不需要额外的训练阶段,因为它通过动量更新与 MIM 联合优化。

 

在他们的实证研究中,该团队在 ImageNet-1K 分类基准上使用 5 种协议对 iBOT 进行了评估:k-NN、线性探测(linear probing)、微调(fine-tuning)、半监督学习和无监督学习。他们还将 iBOT 传给下游任务,例如 COCO 上的对象检测和实例分割,以及 ADE20K 上的语义分割。




结果表明,iBOT 在 k-NN(77.1%)、线性探测(79.5%)和微调协议(83.8%)下提高了 ImageNet-1K 分类基准,比之前的最佳结果分别高出 1.0%、1.3%和 0.2%。除了最先进的图像分类性能外,iBOT 在所有下游任务上也都优于之前的结果。

 

总的来说,这项工作证明了 BERT 式图像转换器预训练的潜力,MIM 方法不仅可以实现高检测精度,还可以提高对常见图像损害的鲁棒性。


原文链接:

Is BERT the Future of Image Pretraining? ByteDance Team’s BERT-like Pretrained Vision Transformer iBOT Achieves New SOTAs

2021-11-27 16:013132

评论

发布
暂无评论
发现更多内容

教你如何使用PyTorch解决多分类问题

华为云开发者联盟

人工智能 华为云 华为云开发者联盟

与客户沟通过程中的30个实用技巧

九凌网络

技术分享| gcc版本升级到5.2

anyRTC开发者

音视频

情感语音识别:现状、挑战与未来趋势

数据堂

ONES 创始人兼 CEO 王颖奇:ONES.ai 上线,以及我的一些思考

万事ONES

项目管理 AI 研发管理 SaaS

大模型创业“风投”正劲,AGI Foundathon 大模型创业松活动精彩看点

飞桨PaddlePaddle

大模型 AGI 创业松

一文看懂JavaScript 如何实现继承

伤感汤姆布利柏

前端 低代码 Java’ java 技术提升

软件测试/人工智能丨人工智能测试开发训练营期待你的加入

测试人

人工智能 软件测试

ASM字节码操作类库(打开java语言世界通往字节码世界的大门) | 京东云技术团队

京东科技开发者

Java jdk asm 企业号11月PK榜

浅谈埋点及其质量保障 | 京东云技术团队

京东科技开发者

大数据 测试 埋点 企业号11月PK榜

老知识复盘-SQL从提交到执行到底经历了什么 | 京东云技术团队

京东科技开发者

MySQL 数据库 sql 企业号11月PK榜

字节跳动AB实验经验分享:企业如何构建数据驱动的实验文化?

字节跳动数据平台

大数据 A/B 测试 对比实验

NineData:为大型房产集团数据库统一纳管,推动业务高效运行

NineData

数据库 运营 房地产 权限管理 NineData

Redis桌面管理工具 Redis Desktop Manager最新中文版

胖墩儿不胖y

redis Mac软件

1688 API接口测试指南

Noah

如何做好架构设计,架构设计有章可循吗? | 京东云技术团队

京东科技开发者

架构 架构设计 企业号11月PK榜

限时开发、码力全开、2w奖金!AGI Hackathon等你挑战!

飞桨PaddlePaddle

开发者 大模型 黑客马拉松 AGI

实力见证!ONES 荣获南方周末「年度科创力产品」大奖

万事ONES

获奖 研发管理软件

git 撤销某一次 commit 提交

秃头小帅oi

git 前端 低代码

Beyond Compare 4 for Mac 文件同步对比工具 支持M1

加油,小妞!

Beyond Compare Beyond Compare 4

DeFi开发:DeFi中的去中心化保险世界

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

杉岩数据:基于鲲鹏DevKit高效开发产线质检数据智能存储管理平台,破解数据管理难题

彭飞

爆火的截图生成代码项目核心功能竟然只是一条 Prompt

mylxsw

AI openai AGI AIGC GPT

软件测试/测试开发/人工智能丨Python算术运算符

测试人

Python 人工智能 软件测试

悄悄上线:CSS @starting-style 新规则

伤感汤姆布利柏

CSS 前端

FFA 2023 「核心技术」专场: Flink 核心技术动向深度解读

Apache Flink

大数据 flink 实时计算

BERT是图像预处理的未来?字节跳动提出视觉预训练工作iBOT,实现了新的SOTA结果_文化 & 方法_Hecate He_InfoQ精选文章