“不正经”的卷积神经网络_AI&大模型_言有三



 写点什么

卷积中的不变性

图像任务，都需要识别出图像中的主体，用于分类，检测，分割，比如下面的验证码识别。

但是同样的目标，在不同的图片中，会存在位置的偏移，角度的旋转，尺度的大小。卷积神经网络要能够应对这些情况，比如分类任务，对于同样的目标在不同图像中的偏移，旋转，尺度，要输出同样的结果。

这便是我们常说的旋转，平移，尺度不变性了。

cnn 有这个能力吗？有。

前面我们说过 pooling，它有一定的平移不变性，而且网络越深，越强大。但是，它的这个能力仍然是有限的，受卷积核大小和感受野大小的约束。

尺度不变性和旋转不变性呢？很遗憾，几乎没有，不然 Hinton 也不会搞 capsule。

我们通常做的随机裁剪，旋转，缩放等操作，就是利用了 cnn 强大的学习能力，制造出了各种版本的图片供其学习。为了模型的鲁棒性，需要生成大量的数据。

一句话，网络模型对于物体几何形变的适应能力几乎完全来自于数据本身所具有的多样性。

为什么？

前面我们说了问题，那为什么会这样呢？因为 cnn 就没有显式地学习这些信息，而卷积操作本身具有非常固定的几何结构，标准的卷积操作是一个非常规矩的采样，通常是正方形。

那，能不能不规矩呢？首先我们看什么是不规矩，下图来自于【1】。

a 图大家很熟悉，标准的 3*3 卷积核，而 b，c，d 虽然也是 9 个采样点，但是每个采样点相对于中心点的偏移与 a 很不一样。b 是一个通用的展示，即完全没有规律。c，d 是 b 的特例。

我们将这样的卷积，称为（deformable convolutional networks）可变形卷积，笔者更喜欢称之为“不正经卷积”。

这种“不正经卷积”的特点，1 是采样视野大于对应版本的标准卷积（带孔卷积不算），2 是它的感受野是不规则的形状。

有什么好处？

我们看上面的一张图，假如我们有一个分割任务，要分割出图中的尺度不同的动物。

我们先看左边的图，标准的卷积，感受野必然是一个方方正正的区域。顶图有一个中心像素，它的感受野是 3*3，到了中间的图，周围四个角点又可以进一步扩展感受野，直到底部的图。

所以对于顶部目标的中心像素，经历了两次 33 卷积，它的感受野是固定的 55，与动物本身的形状并不匹配。而同样的两个 3*3 的卷积，右边的“不正经卷积”，则由于灵活的感受野，所覆盖的区域更大，也更匹配了目标本身的形状。

这是一个非常通用的问题，标准卷积对目标的形状感受野不够灵活，卷积的效率自然也就下降。而可变形卷积则利用了不规则可变化的形状，改善了这两个问题。

怎么实现？

可变形卷积这么灵活，实现起来麻烦吗？答案是不麻烦，只需要增加一个偏移量即可，具体来说看下图。

与标准卷积核相比，一个可变形卷积核，用于卷积的像素相对于中心像素各自的 x，y 方向上的偏移没有了规律，如果我们学习到了这个规律（实际就是用卷积核来记录它），就完成这件事情了。

实际实现就是多了一个 offset 层，通过 offset 输出通道数，我们可以控制要学习的变形的种类。当然，这个通道数一定是 2N 的，因为要同时记录 x 和 y 方向。

总结

做一个简单的总结，首先我们说说好处。(1)增加了网络的空间变形适应性，这也是网络要解决的本质问题。(2)不增加额外的标注信息和训练代价，仍然是原来的数据就可以训练，而且同时训练卷积系数和偏移量。(3)对于复杂的任务提升效果明显，具体的实验结果指标，可以至论文中看，也可以自己训着看。

坏处主要是增加了参数量与计算量，不过这个计算量其实不大，可以通过分组进行控制。

值得注意的是，可变形卷积并非是第一个研究这个问题的，在 STN【2】中，已经通过 Spatial Transformer Layer 来实现了对旋转平移缩放等信息的学习。Active Convolution，Atrous convolution 等都曾试图解决类似问题。

参考文献

【1】Dai J, Qi H, Xiong Y, et al. Deformable convolutional networks[J]. CoRR, abs/1703.06211, 2017, 1(2): 3.

【2】Jaderberg M, Simonyan K, Zisserman A. Spatial transformer networks[C]//Advances in neural information processing systems. 2015: 2017-2025.

作者介绍

言有三，真名龙鹏，曾先后就职于奇虎 360AI 研究院、陌陌深度学习实验室，6 年多计算机视觉从业经验，拥有丰富的传统图像算法和深度学习图像项目经验，拥有技术公众号《有三 AI》，著有书籍《深度学习之图像识别：核心技术与案例实战》。

原文链接

https://mp.weixin.qq.com/s/aLvlLi97JTd_cCfCZfraIg

发布

暂无评论

创作场景

“不正经”的卷积神经网络

卷积中的不变性

为什么？

有什么好处？

怎么实现？

总结

评论

Match：重塑社交金融格局，打造财富增长新引擎

OpenHarmony城市技术论坛第10期——上海站圆满举办

利用多Lora节省大模型部署成本｜得物技术

机器人测试自动化智能化交流沙龙 —— 免费参与，线上线下同步进行，探索未来科技新篇章！

使用对比！SLS 数据加工 SPL 与旧版 DSL 场景对照

通过 API 集成优化货币兑换

PingCAP 携手 CCF 数据库专委会打造“开源数据库领域拔尖创新人才培育计划”，共塑数据库教育未来丨NDBC 2024

云上集成时序数据库 IoTDB，海量储能数据实现高效处理与实时分析

为什么要使用TikTok云手机

编程“奥斯卡”落幕，百度之星决赛中学生疯狂收割大奖！

RFG引领Meme新趋势——为何现在仍是投资好时机？

报告称2024年上半年DDoS攻击数量激增，同比增长46%

AI 应用实战营 - 作业十三 - 知识库

SHOPLINE x TiDB丨集群成本降低 50%！跨境电商 SHOPLINE 交易、商品管理等核心业务的数据库升级之路

Easysearch x 《黑神话悟空》有奖征文获奖结果公示

如何通过观测云实现AIOps突破？

在孩子成长路上，爱与智慧的陪伴是送给孩子最好的礼物

面向服务器端的 WebAssembly：与 NGINX 交互的全新方式

解锁数字新纪元：1688商品详情API——商家数字化转型的加速引擎

讯飞星火极速超拟人交互技术：语音端到端，8 月底开放；昆仑万维发布 AI 短剧平台 SkyReels丨RTE 开发者日报

四旋翼无人机到底是如何平稳飞行的？巧用空气动力学仿真

解锁RFG空投：撸毛党看过来，轻松获利的机会来了！

如何解决跨国视频会议卡顿问题

百度智能云计算系列产品通过电子标准院算力服务成熟度增强级评估

创作场景

“不正经”的卷积神经网络

卷积中的不变性

为什么？

有什么好处？

怎么实现？

总结

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载