【QCon】精华内容上线92%,全面覆盖“人工智能+”的典型案例!>>> 了解详情
写点什么

BERT 是图像预处理的未来?字节跳动提出视觉预训练工作 iBOT,实现了新的 SOTA 结果

  • 2021-11-27
  • 本文字数:1104 字

    阅读完需:约 4 分钟

BERT是图像预处理的未来?字节跳动提出视觉预训练工作iBOT,实现了新的SOTA结果

屏蔽语言建模(Maksed language modelling,MLM)是一种预训练范式,它将文本分词为语义上有意义的片段。尽管 MLM 是在自然语言处理任务中转换器取得卓越性能的主要贡献者,但它在正在革命计算机视觉研究的新兴视觉转换器(visual transformers,ViT)中的潜在应用仍然相对不足。

 

一篇新论文中,来自字节跳动、约翰·霍普金斯大学、上海交通大学和加州大学圣克鲁斯分校的一个研究团队试图将 MLM 应用于训练更好的视觉转换器,即 iBOT(使用在线分词器的图像 BERT 预训练),一个通过在线分词器执行屏蔽预测的自监督框架。



MLM 预训练转换器已经证明了它们在一系列语言任务中的成功性和可扩展性,这使得许多从事计算机视觉工作人员思考 ViTs 是否也能从某种形式的 MLM 中获益。


为了找到答案,研究人员探索了屏蔽图像建模(masked image modelling,MIM)以及使用一个语义上有意义的可视化分词器的优势和挑战。该团队首先确定语言分词器为最关键的 MLM 组件,该分词器旨在将语言转换为语义上有意义的标记。


他们提出,启用 MIM 需要设计一个类似语言分词器的组件——一个视觉分词器——来将屏蔽的补丁转换为目标模型的监管信号。这项任务是具有挑战性的,因为与根据词频统计分析的语言语义不同,视觉语义由于图像的连续性而不容易提取。



研究人员创建了 iBOT 来执行 MIM,使用了一种设计良好的视觉分词器。他们将 MIM 公式化为知识提取(knowledge distillation,KD),并建议在在线分词器的帮助下执行 MIM 的自提取。这样,目标网络可以将屏蔽图像作为输入,而在线分词器保留原始图像。目标是训练目标网络学习将每个屏蔽补丁词块恢复成相对应的分词器输出。

 

这个团队确定了他们的分词器的两个自然优势:

  1. 它通过在类标记上强制执行交叉视图图像的相似性来捕获高级视觉语义;

  2. 在预处理设置中不需要额外的训练阶段,因为它通过动量更新与 MIM 联合优化。

 

在他们的实证研究中,该团队在 ImageNet-1K 分类基准上使用 5 种协议对 iBOT 进行了评估:k-NN、线性探测(linear probing)、微调(fine-tuning)、半监督学习和无监督学习。他们还将 iBOT 传给下游任务,例如 COCO 上的对象检测和实例分割,以及 ADE20K 上的语义分割。




结果表明,iBOT 在 k-NN(77.1%)、线性探测(79.5%)和微调协议(83.8%)下提高了 ImageNet-1K 分类基准,比之前的最佳结果分别高出 1.0%、1.3%和 0.2%。除了最先进的图像分类性能外,iBOT 在所有下游任务上也都优于之前的结果。

 

总的来说,这项工作证明了 BERT 式图像转换器预训练的潜力,MIM 方法不仅可以实现高检测精度,还可以提高对常见图像损害的鲁棒性。


原文链接:

Is BERT the Future of Image Pretraining? ByteDance Team’s BERT-like Pretrained Vision Transformer iBOT Achieves New SOTAs

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2021-11-27 16:012328

评论

发布
暂无评论
发现更多内容

快速上手AppUploader——下载和安装操作

雪奈椰子

AppUploader教程:如何注册账号并激活AppUploader

雪奈椰子

Windows2008与Windows2012下使用IIS服务搭建网站

百度开发者中心

windows IIS 云服务器

开放下载丨云原生架构容器&微服务优秀案例集

阿里巴巴云原生

阿里云 容器 微服务 云原生

直播预告 | 倒计时一天,博睿数据联合统信软件同心生态联盟举办金融信创应用实践线上直播

博睿数据

可观测性 直播 智能运维 博睿数据 金融信创

阿里内网「MySQL面试小册」,简直太香了!

做梦都在改BUG

Java MySQL 数据库 面试

瓴羊Quick BI是一款成熟产品,数据可视化功能优势明显!

夏日星河

美团二面:Redis 究竟是单线程还是多线程?

做梦都在改BUG

Java 数据库 redis 缓存 单线程

我的天,你还不会搭建ChatGPT微应用吗?| 社区征文

三掌柜

人工智能 openai ChatGPT

2022中国低代码全景产业研究报告

人称T客

DAPP/伪DAPP区块链智能合约系统开发(成熟技术)

I8O28578624

Meta Force佛萨奇2.0合约开发系统源码部署

薇電13242772558

智能合约

“中国的ChatGPT”真的要来了吗?

科技热闻

瓴羊Quick BI数据大屏真不错,优势尽显!

流量猫猫头

2023两会看点:SaaS

ToB行业头条

AppUploader教程:如何使用该工具制作Apple证书

雪奈椰子

ios打包

秒懂算法 | DP概述和常见DP面试题

TiAmo

算法 DP算法

云服务器建站教程:Centos-7.2部署LNMP环境

百度开发者中心

云服务器,

云服务器建站教程:云服务器部署SSL证书-Nginx

百度开发者中心

centos 云服务器

快速打包、发布和管理应用——AppUploader工具介绍

雪奈椰子

宝刀未老!VB语言迎来春天,低代码绝地逢生,程序员能淡定吗?

这我可不懂

低代码 低代码平台 JNPF Visual

百度智能云首批通过信通院MLOps旗舰级评测 全面加速文心一言产业落地

Geek_2d6073

演讲实录|AI 数据库的内存优化之路

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

数据库大牛推荐的《MySQL》书籍,值得反复阅读

NineData

MySQL 程序员 书籍推荐 MySQL 高可用 学习MySQL

京东二面,Redis为什么这么快?

做梦都在改BUG

Java 数据库 redis 缓存 面试

从小程序容器和微服务架构的结合,看未来应用程序开发的主流方式

没有用户名丶

数字化转角,遇见未来新模式

鼎道智联

如何使用Xcode打包导出IPA文件并进行iOS应用内测,无需支付苹果开发者账号费用?

雪奈椰子

ios打包

CNStack 助推龙源电力扛起“双碳”大旗

阿里巴巴云原生

阿里云 云原生 CNStack

云服务器建站教程:云服务器部署SSL证书-Apache

百度开发者中心

centos 云服务器 LAMP

23年国内最牛的Java面试八股文合集(全彩版),不接受反驳

做梦都在改BUG

Java java面试 Java八股文 Java面试题 Java面试八股文

BERT是图像预处理的未来?字节跳动提出视觉预训练工作iBOT,实现了新的SOTA结果_文化 & 方法_Hecate He_InfoQ精选文章