10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

“不正经”的卷积神经网络

  • 2019-12-05
  • 本文字数:1749 字

    阅读完需:约 6 分钟

“不正经”的卷积神经网络

卷积中的不变性

图像任务,都需要识别出图像中的主体,用于分类,检测,分割,比如下面的验证码识别。



但是同样的目标,在不同的图片中,会存在位置的偏移,角度的旋转,尺度的大小。卷积神经网络要能够应对这些情况,比如分类任务,对于同样的目标在不同图像中的偏移,旋转,尺度,要输出同样的结果。



这便是我们常说的旋转,平移,尺度不变性了


cnn 有这个能力吗?有。


前面我们说过 pooling,它有一定的平移不变性,而且网络越深,越强大。但是,它的这个能力仍然是有限的,受卷积核大小和感受野大小的约束。


尺度不变性和旋转不变性呢?很遗憾,几乎没有,不然 Hinton 也不会搞 capsule。


我们通常做的随机裁剪,旋转,缩放等操作,就是利用了 cnn 强大的学习能力,制造出了各种版本的图片供其学习。为了模型的鲁棒性,需要生成大量的数据。


一句话,网络模型对于物体几何形变的适应能力几乎完全来自于数据本身所具有的多样性。

为什么?

前面我们说了问题,那为什么会这样呢?因为 cnn 就没有显式地学习这些信息,而卷积操作本身具有非常固定的几何结构,标准的卷积操作是一个非常规矩的采样,通常是正方形。


那,能不能不规矩呢?首先我们看什么是不规矩,下图来自于【1】。



a 图大家很熟悉,标准的 3*3 卷积核,而 b,c,d 虽然也是 9 个采样点,但是每个采样点相对于中心点的偏移与 a 很不一样。b 是一个通用的展示,即完全没有规律。c,d 是 b 的特例。


我们将这样的卷积,称为(deformable convolutional networks)可变形卷积,笔者更喜欢称之为“不正经卷积”。


这种“不正经卷积”的特点,1 是采样视野大于对应版本的标准卷积(带孔卷积不算),2 是它的感受野是不规则的形状。

有什么好处?


我们看上面的一张图,假如我们有一个分割任务,要分割出图中的尺度不同的动物。


我们先看左边的图,标准的卷积,感受野必然是一个方方正正的区域。顶图有一个中心像素,它的感受野是 3*3,到了中间的图,周围四个角点又可以进一步扩展感受野,直到底部的图。


所以对于顶部目标的中心像素,经历了两次 33 卷积,它的感受野是固定的 55,与动物本身的形状并不匹配。而同样的两个 3*3 的卷积,右边的“不正经卷积”,则由于灵活的感受野,所覆盖的区域更大,也更匹配了目标本身的形状。


这是一个非常通用的问题,标准卷积对目标的形状感受野不够灵活,卷积的效率自然也就下降。而可变形卷积则利用了不规则可变化的形状,改善了这两个问题。

怎么实现?

可变形卷积这么灵活,实现起来麻烦吗?答案是不麻烦,只需要增加一个偏移量即可,具体来说看下图。



与标准卷积核相比,一个可变形卷积核,用于卷积的像素相对于中心像素各自的 x,y 方向上的偏移没有了规律,如果我们学习到了这个规律(实际就是用卷积核来记录它),就完成这件事情了。



实际实现就是多了一个 offset 层,通过 offset 输出通道数,我们可以控制要学习的变形的种类。当然,这个通道数一定是 2N 的,因为要同时记录 x 和 y 方向。

总结

做一个简单的总结,首先我们说说好处。(1)增加了网络的空间变形适应性,这也是网络要解决的本质问题。(2)不增加额外的标注信息和训练代价,仍然是原来的数据就可以训练,而且同时训练卷积系数和偏移量。(3)对于复杂的任务提升效果明显,具体的实验结果指标,可以至论文中看,也可以自己训着看。


坏处主要是增加了参数量与计算量,不过这个计算量其实不大,可以通过分组进行控制。


值得注意的是,可变形卷积并非是第一个研究这个问题的,在 STN【2】中,已经通过 Spatial Transformer Layer 来实现了对旋转平移缩放等信息的学习。Active Convolution,Atrous convolution 等都曾试图解决类似问题。


参考文献


【1】Dai J, Qi H, Xiong Y, et al. Deformable convolutional networks[J]. CoRR, abs/1703.06211, 2017, 1(2): 3.


【2】Jaderberg M, Simonyan K, Zisserman A. Spatial transformer networks[C]//Advances in neural information processing systems. 2015: 2017-2025.


作者介绍


言有三,真名龙鹏,曾先后就职于奇虎 360AI 研究院、陌陌深度学习实验室,6 年多计算机视觉从业经验,拥有丰富的传统图像算法和深度学习图像项目经验,拥有技术公众号《有三 AI》,著有书籍《深度学习之图像识别:核心技术与案例实战》。


原文链接


https://mp.weixin.qq.com/s/aLvlLi97JTd_cCfCZfraIg


2019-12-05 19:082322
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 584.0 次阅读, 收获喜欢 1981 次。

关注

评论

发布
暂无评论
发现更多内容

iMile 利用 Zadig 多云环境周部署千次,跨云跨地域持续交付全球业务

Zadig

DevOps 微服务架构 CI/CD 持续交付 国际化

TTChat x Zadig 开源共创 Helm 接入场景,环境治理搞得定!

Zadig

DevOps 微服务 音视频 测试环境治理

基于字节码的统一异常上报实践

转转技术团队

异常机制 Java’

智能指标驱动的管理和决策平台 Kyligence Zen 全新上线,限量内测中

Kyligence

高效远程办公的基石:有效沟通 |社区征文

wljslmz

远程办公 初夏征文

SOFARegistry 源码|数据同步模块解析

SOFAStack

源码解析 注册中心 数据同步 开源软件

易快报:我们用 Zadig 实现万次构建部署,聪明运维,释放开发生产力

Zadig

DevOps 微服务架构 CI/CD 容器化 Zadig

年轻就要醒着拼,年轻就要勇于尝试

Zadig

DevOps 微服务治理 自动化运维 企业案例

微博评论架构设计

泋清

#架构训练营

妙!妙盈科技全面实施 Zadig 助力容器化建设,全面拥抱 Kubernetes 和云原生

Zadig

DevOps CI/CD 容器化 自动化运维 Zadig

揭秘百度智能测试在测试自动执行领域实践

百度Geek说

测试

InfoQ百位优质创作者签约计划第三季,终于等到了!!!

InfoQ写作社区官方

热门活动 签约计划第三季

web前端培训 | 34 道 Vue 高频面试题

@零度

Vue 前端开发

助力极致体验,火山引擎边缘计算最佳实践

火山引擎边缘云

云计算 边缘计算 低时延 边缘云原生 边缘网络

面试突击61:说一下MySQL事务隔离级别?

王磊

Java java面试

高校如何基于云原生构建面向未来的智慧校园?全栈云原生架构VS传统IT架构

York

云原生 数字化转型 智慧校园 教育科技

超级详细的 Maven 教程(基础+高级)

Ayue、

maven

rxjs Observable 设计原理背后的 Pull 和 Push 思路

汪子熙

typescript 响应式编程 angular RXJS 6月月更

CTO专访:合见工软深化产品布局 加速国产EDA技术革新

科技热闻

中科方德技术专家直播:如何基于 OpenStack、Ceph 构建私有云平台? | 第 27 期

OpenAnolis小助手

Ceph 龙蜥大讲堂 中科方德 OpenStack 私有云平台

大数据培训 | Flink SQL窗口表值函数聚合实现原理

@零度

flink 大数据开发

Vue3中如何使用异步请求?

Python研究所

6月月更

什么是外链和内链?

源字节1号

前端开发 后端开发 网站开发

java就业培训 | 怎么实现 SpringBoot 并行任务

@零度

JAVA开发 springboot

亲测!Centos7部署PHP + Swoole

迷彩

Apache Linux 微服务 swoole 6月月更

龙书虎书鲸书啃不动?试试豆瓣评分9.5的猴书

图灵教育

编译原理 go语言

ONES 创始人王颖奇对话《财富》(中文版):中国有没有优秀的软件?

万事ONES

架构实战营第五模块课后作业

Geek_53787a

架构实战营

影响LED封装散热主要因素有哪些?

Dylan

LED LED显示屏 led显示屏厂家

钛动科技:我们的 Zadig 落地之路

Zadig

DevOps 持续交付 企业出海 研发效率

揭秘!付费会员制下的那些小心机!

CRMEB

“不正经”的卷积神经网络_AI&大模型_言有三_InfoQ精选文章