阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

BERT 是图像预处理的未来?字节跳动提出视觉预训练工作 iBOT,实现了新的 SOTA 结果

  • 2021-11-27
  • 本文字数:1104 字

    阅读完需:约 4 分钟

BERT是图像预处理的未来?字节跳动提出视觉预训练工作iBOT,实现了新的SOTA结果

屏蔽语言建模(Maksed language modelling,MLM)是一种预训练范式,它将文本分词为语义上有意义的片段。尽管 MLM 是在自然语言处理任务中转换器取得卓越性能的主要贡献者,但它在正在革命计算机视觉研究的新兴视觉转换器(visual transformers,ViT)中的潜在应用仍然相对不足。

 

一篇新论文中,来自字节跳动、约翰·霍普金斯大学、上海交通大学和加州大学圣克鲁斯分校的一个研究团队试图将 MLM 应用于训练更好的视觉转换器,即 iBOT(使用在线分词器的图像 BERT 预训练),一个通过在线分词器执行屏蔽预测的自监督框架。



MLM 预训练转换器已经证明了它们在一系列语言任务中的成功性和可扩展性,这使得许多从事计算机视觉工作人员思考 ViTs 是否也能从某种形式的 MLM 中获益。


为了找到答案,研究人员探索了屏蔽图像建模(masked image modelling,MIM)以及使用一个语义上有意义的可视化分词器的优势和挑战。该团队首先确定语言分词器为最关键的 MLM 组件,该分词器旨在将语言转换为语义上有意义的标记。


他们提出,启用 MIM 需要设计一个类似语言分词器的组件——一个视觉分词器——来将屏蔽的补丁转换为目标模型的监管信号。这项任务是具有挑战性的,因为与根据词频统计分析的语言语义不同,视觉语义由于图像的连续性而不容易提取。



研究人员创建了 iBOT 来执行 MIM,使用了一种设计良好的视觉分词器。他们将 MIM 公式化为知识提取(knowledge distillation,KD),并建议在在线分词器的帮助下执行 MIM 的自提取。这样,目标网络可以将屏蔽图像作为输入,而在线分词器保留原始图像。目标是训练目标网络学习将每个屏蔽补丁词块恢复成相对应的分词器输出。

 

这个团队确定了他们的分词器的两个自然优势:

  1. 它通过在类标记上强制执行交叉视图图像的相似性来捕获高级视觉语义;

  2. 在预处理设置中不需要额外的训练阶段,因为它通过动量更新与 MIM 联合优化。

 

在他们的实证研究中,该团队在 ImageNet-1K 分类基准上使用 5 种协议对 iBOT 进行了评估:k-NN、线性探测(linear probing)、微调(fine-tuning)、半监督学习和无监督学习。他们还将 iBOT 传给下游任务,例如 COCO 上的对象检测和实例分割,以及 ADE20K 上的语义分割。




结果表明,iBOT 在 k-NN(77.1%)、线性探测(79.5%)和微调协议(83.8%)下提高了 ImageNet-1K 分类基准,比之前的最佳结果分别高出 1.0%、1.3%和 0.2%。除了最先进的图像分类性能外,iBOT 在所有下游任务上也都优于之前的结果。

 

总的来说,这项工作证明了 BERT 式图像转换器预训练的潜力,MIM 方法不仅可以实现高检测精度,还可以提高对常见图像损害的鲁棒性。


原文链接:

Is BERT the Future of Image Pretraining? ByteDance Team’s BERT-like Pretrained Vision Transformer iBOT Achieves New SOTAs

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2021-11-27 16:012341

评论

发布
暂无评论
发现更多内容

VMware Workstation 17安装教程:轻松构建虚拟机

小魏写代码

从API到界面:如何将淘宝/天猫商品详情返回值转化为用户友好的展示

Noah

哎呀,当时怎么没有想到 | 京东云技术团队

京东科技开发者

为企业提供个性化的企业门户解决方案,让团队高效协同

WorkPlus

总结

大肚皮狒狒

打造安全可靠的阅后即焚聊天平台,保护你的隐私

WorkPlus

利用预训练模型优化大模型训练

百度开发者中心

人工智能 深度学习 大模型

开工大吉!秀一下我们假期の战绩

王中阳Go

Java Go 程序人生 面试题 Go 面试题 面经 后端 大厂

教育创新:全国高校软件测试峰会聚焦技术前沿

测吧(北京)科技有限公司

测试

开放签电子签章2024年第一季度目标

开放签开源电子签章

activiti工作流代码整合流程详解及源码示例-低代码平台

金陵老街

Java集合篇之深入解析LinkedList

EquatorCoco

Java 前端 开发语言 集合运算

Canvas库 fabric.js可以实现哪些功能? 动图介绍

秦少卫

开源项目 Fabric.js 图片编辑器 canvas库

Java并发编程基础(上)

FunTester

你的新春照小红书包了!速来定制新春头像,技术让年味更浓

小红书技术REDtech

AI AIGC AI写真

MVP实战:再造一个“支付宝”

agnostic

软件架构 MVP 架构设计实战

听 GPT 讲 client-go 源代码 (5)

fliter

WorkPlus助力企业实现无缝沟通与协作的IM平台

WorkPlus

大模型训练、多模态数据处理与融合:从理论到实践

百度开发者中心

人工智能 大模型训练 大模型

C++——数据类型笔记

不在线第一只蜗牛

c++ 数据库 开发语言

Spring事务实现原理

京东科技开发者

solana生态市值机器人

区块链技术

vben-admin 配置代理转发

麦兜

听 GPT 讲 client-go 源代码 (6)

fliter

Java Spi是如何找到你的实现的? ——Java SPI原理与实践

骑牛上青山

Java jdk spi

快速部署MES源码/万界星空科技开源MES

万界星空科技

开源 mes 开源mes 万界星空科技

BERT是图像预处理的未来?字节跳动提出视觉预训练工作iBOT,实现了新的SOTA结果_文化 & 方法_Hecate He_InfoQ精选文章