屠榜各大CV任务，微软开源的Swin Transformer有多强？_AI&大模型_赵钰莹



 写点什么

近日，微软 Swin Transformer 代码正式开源，短短两天就在 GitHub 上获得了 1.9k 的 Star，相关话题在知乎上同样引起了广泛的讨论和关注。

微软 Swin Transformer 正式开源

Swin Transformer 可以理解为一个通用的视觉骨干网络，Swin Transformer 设计出了一种分层表示形式，首先由小的 PATCHES 开始，而后逐渐将相邻的各 Patches 融合至一个更深的 Transformer 层当中。通过这种分层结构，Swin Transformer 模型能够使用 FPN 及 UNET 等高密度预测器实现技术升级，通过限制非重叠窗口中的部分计算量降低计算强度。各窗口中的 PATCHES 数量是固定的，因此随着图像尺寸的增加，复杂性也将不断增长。相比于 ViT，Swin Transfomer 计算复杂度大幅度降低，随着输入图像大小线性计算复杂度。

Swin Transformer 的核心设计是将 Self-Attention 层划分为 SHIFT，SHIFTED Window 接入上一层窗口，二者之间保持连接，由此显著增强建模能力。这种策略还有助于有效降低延迟：所有 Query Patches 窗口共享同一 KEY 集，由此节约硬件内存；以往的 Transformer 方法由于使用不同的 Query 像素，因此在实际硬件中往往具有较高延迟；论文实验证明，SHIFTED Window 方法带来的延迟较传统滑动方法更低，且二者的建模能力基本相同。

基于此，Swin Transformer 在各类回归任务、图像分类、目标检测、语义分割等方面具有极强性能，其性能优于 VIT/DEIT 与 RESNE (X) T。

GitHub 地址：https://github.com/microsoft/Swin-Transformer

原作者团队曹越在知乎上的回答:https://www.zhihu.com/question/437495132/answer/1800881612

论文地址：https://arxiv.org/pdf/2103.14030.pdf

实现方法

Swin Transformer 的架构如下图所示。首先，它与 VIT 一样将输入的图片划分为多个 Patches，作者使用 4 x 4 的 patch 大小；之后是嵌入层，最后则是作者设计的 Swin Transformer BLOCK。

Swin Transformer Block：此模块是 Transformer 中使用 Shifted Window 的多 ATTENTION 模块，具有一致性；Swin Transformer 模块中包含一个 MSA（多头 Attention）模块 SHIFTED WINDOW，之后是 2 层 MLP，接着将 Layernorm 层添加至各 MSA 模块与各 MLP 层内，而后是剩余连接。

基于 Self-Attension 的 SHIFTED Window

标准 Transformer 使用全局 self-attention 以创建各令牌之间的关系，但这会令图像大小增加 2 倍、导致复杂性随之提升，因此不适用于处理高强度任务。为了提升建模效率，作者提出由“部分窗口计算 Self-Attention”，即假设各个窗口均包含 MXM Patches、全局 MSA 模块与基于窗口的 MSA 模块，并在 HXW Patches 的图像之上进行复杂度计算：

（1）的复杂度为 PATCH 数量 HW 的次生增长；（2）则为线性增长，其中 m 为固定值，但全局 self-attention 为大 HW，因此基于窗口的 Self-Attention 计算量不会很高。

将 SHIFTED Window 拆分为连续块

基于 Windows 的 Self-Attention 虽然拥有线性增长的复杂度，但其缺少在各窗口之间的连接，因此限制了模型的建模能力。

为了在容器上引入连接以实现模型维护，作者提出了 SHIFTED Window 分割的概念。第一个模块使用中性窗口分割，并根据窗口大小的 M=4 放大得出一个 8 x 8 的特征图。我们将此窗口划分为 2 x 2 的形式，而后通过 Shifted Window 设置下一模块，将其移动 M/2 个像素。

使用 SHIFTED 结构，Swin Transformer Blocks 的计算如下所示：

W-MSA 与 SW-MSA 分别表示使用整齐分割与 SHIFTED SELF-ATTENTION。

Shifted Window 可以跨越多个窗口向模型添加连接，并保持模型的良好运行效率。

SHIFTED WINDOW 高效批量计算

SHIFTED WINDOW 也有自己的问题，即导致窗口数量增加——由原本的 (h / m xw / m) 个增加到 ((h / m + 1) x (W / m + 1)) 个，而且其中某些窗口要小于 MXM。这种方法会将较小的窗口填充为 MXM，并计算 attention 值以掩蔽填充操作；当窗口数量较少、但大于 2 x 2 时，由此带来的额外计算量将相当可观（由 2 x 2 到 3 x 3，计算量增加达 2.25 倍）。

因此，作者提出了一种更为高效的 BATCH 计算方法，即沿左上角执行 Cyclic Shift。在完成这项位移之后，Batch WINDOW 将拥有一张由非相邻子窗口组成的特征图，这相当于是使用 Cyclic-Shift、Batch-Windows 与整齐窗口分割限制子窗口内的 Self-Attention 数量，从而极大提高了计算效率。

相对位置偏移：

作者介绍了 Self-Attention 中各头的相对位置。偏移 B：

其中：

这将显著提高性能表现。

作者根据大小与计算复杂度建立起一套基本模型，名为 SWIN-B；同时引入了 SWIN-T、SWIN-S 与 SWIN-L，其模型大小与复杂度分别为 0.25 倍、0.5 倍与 2 倍。

当我们将窗口大小 M 设定为 7 时，各头部查询 D 为 32，各扩展层的 mlp α为 4。

其中 C 为初始阶段隐藏层的通道数量。

具体表现

图像分类

表 1A，从零开始在 ImgeNet-1K 上进行训练：

表 1B，在 ImageNet-22k 上进行首轮训练，之后迁移至 ImageNet-1K：

目标检测

表 2A，在不同模型帧上使用 Swin Transformer 替代 BackBone：

表 2C，与 SOTA 的比较结果：

语义分割

表 3，对于较小模型，可提供比先前 SOTA SETR 更高的 MIOU：

消融实验

表 4，Shifted Window 在相对位置偏移中的性能改进：

表 5，SHIFTED WINDOW 与 CYCLIC 高效执行：

表 6，不同 Self-Attentions 的比较：

Transformer 在 CV 上的应用前景有可能替代 CNN 吗？

ViT 的出现扩大了 Transformer 的使用范围，这也让 AI 领域的从业者开始关注 Transformer 与 CNN 的关系。在知乎上，一位用户提问称：

目前已经有基于 Transformer 在三大图像问题上的应用：分类（ViT），检测（DETR）和分割（SETR），并且都取得了不错的效果。那么未来，Transformer 有可能替换 CNN 吗，Transformer 会不会如同在 NLP 领域的应用一样革新 CV 领域？后面的研究思路可能会有哪些呢？

关于这个问题，很多知乎答主已经给出了自己的答案，包括浙江大学控制科学与工程博士、复旦大学微电子学院硕士、阿里巴巴高级算法专家等，大体总结为未来是否会形成完全替代尚不好预测，但对 CNN 的降维打击已经形成。

感兴趣的用户可以到知乎阅读各位答友的完整回答：https://www.zhihu.com/question/437495132/answer/1800881612

参考链接：https://www.programmersought.com/article/61847904617/

评论 1 条评论

发布

a d e

普通程序员看不懂系列

2021-04-16 09:58

 0 回复

没有更多了

创作场景

屠榜各大 CV 任务，微软开源的 Swin Transformer 有多强？

微软 Swin Transformer 正式开源

实现方法

具体表现

Transformer 在 CV 上的应用前景有可能替代 CNN 吗？

评论 1 条评论

Android—Dagger2-让你爱不释手--终结篇（附视频讲解(1)

Android事件分发机制源码解析，最新Android通用流行框架大全

Android厂商推送冲突了。。，android中常见的面试题

Android之使用Assets目录中的xml布局、网页、音乐等资源

Android入门项目（六）Android的wifi开发，flutter旋转动画

Android学习攻略：手把手教你循序渐进地学习Android知识(1)

Android-黑科技保活实现原理揭秘，字节跳动Android内部学习资料泄露

AndroidX，安卓framework开发

Android动画之属性动画，2021Android开发面试解答之设计模式

Android四大组件之一（broadcast receiver)，移动端开发语言

Android基础到进阶四大组件之ContentProvider详解，安卓开发菜鸟教程

Android大牛是如何炼成的：郭霖的成长之路专访，2021最新Android高频精选面试题讲解

Android-面试中常问的MMAP到底是啥东东？原理及应用解析

Android10填坑适配指南，实际经验代码，拒绝翻译，android开发书籍pdf下载

Android—案例分析解读：观察者模式，androidstudio社区

Android冷启动优化解析，字节跳动8年老Android面试官经验谈

Android常见原理性面试题(1)，2021年阿里Android面试题精选

Android学习攻略：手把手教你循序渐进地学习Android知识

Android小菜鸡2 个月的面试亲身经历告诉大家，如何进入 BAT 等大厂？

Android-面试官：View-post()-为什么能够获取到-View-的宽高-？

AndroidStudio Gradle第三依赖统一管理，移动端开发技术

Android从零开始搭建MVVM架构（4），Android开发进阶吃透这一篇必拿60W年薪

Android全面解析之Handler机制：常见问题汇总，三级缓存和二级缓存的区别

Android学习路线总结，绝对干货，保洁阿姨看完都会了

Android—Dagger2-让你爱不释手--终结篇（附视频讲解，Flutter全方位深入探索

Android中级面筋：开发2年的程序员如何短期突击面试？跟着这几步去准备

Android修炼系列（八），2021年Android开发者跳槽指南

Android前景怎么样、是不是要凉了、是不是应该考虑要转行

Android基础都没学好就去面试，这不是挖坑给自己跳吗？字节跳动三面凉凉经

Android-音视频学习系列-(三)-Shell-脚本入门，高级安卓工程师面试题

Android常用adb命令，开源新作

创作场景

屠榜各大 CV 任务，微软开源的 Swin Transformer 有多强？

微软 Swin Transformer 正式开源

实现方法

具体表现

Transformer 在 CV 上的应用前景有可能替代 CNN 吗？

评论 1 条评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载