写点什么

商汤ICCV论文解读:自然场景下文字检测的几何归一化网络(GNNets)

2019 年 12 月 13 日

商汤ICCV论文解读:自然场景下文字检测的几何归一化网络(GNNets)

今年的 ICCV,商汤科技及联合实验室共有 57 篇论文入选 ICCV 2019(包含 11 篇 Oral),同时在 Open Images、COCO、LVIS 等 13 项重要竞赛中夺冠。



本文简要介绍商汤科技研究团队在 ICCV2019 上录用的一篇文章:Geometry Normalization Networks for Accurate Scene Text Detection(GNNets),针对自然场景下文字检测的几何归一化网络。该文章通过对待处理图像的特征图进行几何变换,从而将待处理图像中几何分布差异较大的文本框归一化到一定的几何分布范围内,提高了自然场景下文本测检的效果。


一、研究背景


随着深度学习的迅速发展,计算机视觉技术对实际生产具有影响越来越重要的影响。对图像中的文本进行检测和识别,有助于计算机理解视觉内容。由于卷积神经网络(CNN)方法的通用性,自然场景文本检测受益于常规物体检测而快速发展。但由于自然场景中的文本在实际应用场景中具有较大的几何变化(例如宽高比或文字方向),所以其自身仍存在巨大的挑战。对于尺度变化问题,现有方法一般通过使用一个检测头(detection header)对不同层级的特征进行检测,利用 NMS 融合结果后作为输出或者使用类似 FPN [1]的网络将多尺度特征融合然后进行文本检测。对于角度变化问题,现有方法一般通过直接回归文本框角度或使用对方向敏感的卷积来预测任意方向。但目前的方法中要求检测头(detection header)需要学习到文字巨大的几何差异或者检测头(detection header)仅在所有训练样本中一个子集进行学习,这可能导致性能欠佳。


作者研究了几何分布对场景文本检测的影响,发现基于 CNN 的检测器只能捕获有限的文本几何分布,但充分利用所有训练的样本可以提高其泛化能力。为了解决上述难题,作者提出了一种新颖的几何规范化模块(GNM)。每个自然场景图片中的文本实例可以通过 GNM 归一化到一定的几何分布范围内。这样所有训练样本均被归一化为有限的分布,因此可以有效地训练一个共享的文本检测头。本文提出的 GNM 是通用的,可以直接将该模块插入到任何基于 CNN 的文本检测器中。为了验证提出方法的有效性,作者针对文字方向的差异性新建了一个测试集(Benchmark)并发布。


二、方法描述



Fig.1. Overall architecture.


Fig. 1 是 GNNets 的整体网络结构图。总体网络结构由 Backbone,GNM,Shared Text Detection Header 组成。通过 Backbone 提取的特征图会被输入到具有多个分支的几何规范化模块(GNM)中,每个分支由一个尺度归一化单元(SNU)F^s 和方向归一化单元(ONU)F^o 组成。SNU 有两个不同比例的尺归一化单位(S,S1/2)和四个方向归一化单位(O,Or,Of,Or + f)。 通过 SNU 和 ONU 的不同组合,GNM 会生成不同的几何归一化特征图,这些特征图将被输入到一个共享文本检测标头中。



Fig.2. ONU.


Fig. 2 是作者提出的 ONU 模块的示意图。通过应用 ONU 可以更改文本框方向。如图所示“绿色”框是原始框,“灰色”框是转换过程中的中间框,“红色”框是 ONU 的输出的结果框。 θ和θ’分别是原始框和结果框的角度。(a),(b),(c)和(d)分别是 O,Or,Of,Or + f 的过程的示意图。 由上图可以简单明了的表示 ONU 具有将[0,π/4],[-π/2,-π/4],[-π/4,0]和[π/4,π/2]角度的文本转换为在[0,π/4]角度的文本。



Fig.3. Architecture of GNM.


Fig. 3 展示了 GNM 在网络中的结构设置。对于 SNU 中的 S 使用 1x1 的卷积操作和 3x3 的卷积操作;S1/2 使用 1X1 的卷积,步长为 2 的下采样以及 3x3 的卷积。对于 ONU 中的 O,Or,Of,Or + f 中的 Operations 则分别采用不操作,旋转 feature maps,翻转 feature maps 和旋转后再翻转 feature maps。


由于多分支网络的影响,作者提出了一个针对 GNNets 的抽样训练策略。 在训练期间,作者随机采样一个文本实例,并通过旋转和调整大小 7 次来对其进行扩充,以使 GNM 的每个分支在每批次中都具有有效的文本实例用于训练。 这样可以对 GNM 的所有分支进行统一训练。并且在训练过程中如果文本实例不在预先设定的几何区间内,则忽略分支中的该文本实例。在测试过程中,作者将 GNM 中所有分支输出文本框相应地反向投影到原始比例和方向。 不在分支预先设定的几何区间内的文本框会被丢弃。 其余的文本框通过 NMS 合并。


三、实验结果



Table 1. Comparison with the state-of-the-art methods on both ICDAR 2015 and ICDAR 2017 MLT.


与原始的 PSENet[2] 相比,作者提出的 GNNets 在 ICDAR 2015[3]和 ICDAR 2017 MLT [4]上分别实现了约 1.3%和 2.1%的性能提升。与 ICDAR 2015 上的 EAST[5]和 ITN [6]相比,GNNet 的 F-score 比它们分别高出 8%和 9%。与 FTSN [7]相比,获得了 4.5%的性能提升。GNNets 在 ICDAR 2015 上的表现优于 FOTS [8],在 ICDAR 2017 MLT 上的 F-score 更超出其 7.3%。并且 FOTS 使用了文字识别的数据。在单尺度测试中,作者提出的 GNNets 在 ICDAR 2015 和 ICDAR 2017 MLT 上均达到了 state-of-the-art 的性能。Fig. 5 可视化了 GNNets 和其他文本检测方法在 ICDAR 2015 和 ICDAR 2017 MLT 上的检测结果。



Fig.5. Qualitative results on ICDAR 2015 and ICDAR 2017 MLT. The right column shows GNNets results.


四、总结及讨论


  1. 在本文中,作者提出了一种新颖的几何归一化模块(GNM)以生成多个几何感知特征图。并且GNM是通用的,可以应用到任何基于CNN的检测器中,以构建端到端的几何归一化网络(GNNet)。实验表明,GNNet在检测几何分布较大的文本实例方面相较于baseline表现出出色的性能。并且,GNNet在两个文字检测主流的数据集上较最新的方法获得了显著的性能提升。

  2. 文中研究了几何分布对场景文本检测的影响,发现基于CNN的检测器只能捕获有限的文本几何分布,但充分利用所有训练的样本可以提高其泛化能力,对后续文字检测以及其他相关领域有启发性影响。

  3. 综上所述,文本检测是OCR任务的首要前提,但自然场景下文字的字体变化、悬殊的宽高比、任意角度给检测任务带来巨大的挑战,本文为我们提出了目前研究方向上忽略的点,并提供了一个新颖的解决方法,但是相较与常规物体检测,文本检测领域仍然有其特殊性以及较大的提升空间。


参考文献


  1. Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature Pyramid Networks for Object Detection. In CVPR, 2017.

  2. Xiang Li, Wenhai Wang, Wenbo Hou, Ruo-Ze Liu, Tong Lu, and Jian Yang. Shape Robust Text Detection with Progressive Scale Expansion Network. arXiv preprint arXiv:1806.02559, 2018.

  3. Dimosthenis Karatzas, Lluis Gomez-Bigorda, Anguelos Nicolaou, Suman Ghosh, Andrew Bagdanov, Masakazu Iwamura, Jiri Matas, Lukas Neumann, Vijay Ramaseshan Chandrasekhar, Shijian Lu, and Others. ICDAR 2015 Competition on Robust Reading. In ICDAR, 2015.

  4. ICDAR2017 Competition on Multi-Lingual Scene Text Detection and Script Identification.http://rrc.cvc.uab.es/?ch=8&com=introduction, 2017.

  5. Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang, Shuchang Zhou, Weiran He, and Jiajun Liang. EAST: An Efficient and Accurate Scene Text Detector. In CVPR, 2017.

  6. Fangfang Wang, Liming Zhao, Xi Li, Xinchao Wang, and Dacheng Tao. Geometry-Aware Scene Text Detection with Instance Transformation Network. In CVPR, 2018.

  7. Yuchen Dai, Zheng Huang, Yuting Gao, Youxuan Xu, Kai Chen, Jie Guo, and Weidong Qiu. Fused Text Segmentation Networks for Multi-Oriented Scene Text Detection. In ICPR, 2018.

  8. Xuebo Liu, Ding Liang, Shi Yan, Dagui Chen, Yu Qiao, and Junjie Yan. Fots: Fast Oriented Text Spotting with a Unified Network. In CVPR, 2018.


2019 年 12 月 13 日 09:17728

评论

发布
暂无评论
发现更多内容

云小课 | 一份超实用的勒索病毒自救预防指南

华为云开发者社区

勒索病毒 弱密码 云小课 企业主机安全 病毒云查杀

全网都在跪求的阿里Java修炼开发技术笔记,终于开放下载了

你看起来很好吃

Java 编程 架构师 后端开发

TCP/IP协议族(第四版)已出,不愧是世界计算机优秀畅销精选书籍

你看起来很好吃

Java 编程 架构师 TCP/IP 协议族

2. Bean Validation声明式校验方法的参数、返回值

YourBatman

参数校验 Hibernate-Validator Bean Validation 方法校验

易观郭炜:流动水系数造未来

易观大数据

如何实现特定列脱敏?这两种方法你都要会

华为云开发者社区

postgresql 数据 脱敏 匿名 视图

架构师训练营第 0 期第 12 周作业

无名氏

图解图库JanusGraph系列-一文知晓“图数据“底层存储结构(JanusGraph data model)

洋仔聊编程

janusgraph 图数据库 存储结构 图解源码分析

GitHub上的今年第一本《Java异步编程实战》美团T9亲荐,太赞了

你看起来很好吃

Java 程序员 架构师 异步编程

架构师训练营第十二周作业

叮叮董董

数字货币交易系统应用开发,区块链交易所app

13530558032

使用 Next.js , Nexus, Prisma 构建全栈项目

夏木

nextjs prisma graphql fullstack

我们从Kubernetes发展中学到了什么(1)

华宇法律科技

Kubernetes 容器 k8s

收藏!一篇教会你写90%的shell脚本!

洋仔聊编程

Shell shell脚本编写 收藏教程

真香警告!手绘172张图解HTTP协议+703页TCP/IP协议笔记

你看起来很好吃

Java 程序员 架构师 计算机

Redis问的太深入,面试官说:你先回去等通知吧

你看起来很好吃

Java redis 编程 程序员 架构师

阿里P8大牛力荐:Java程序员进阶必读的书籍清单(附电子版)

Java成神之路

Java redis 编程 程序员 JVM

疫情对在线教育的影响

anyRTC开发者

在线教育 直播 RTC 安卓

LeetCode题解:155. 最小栈,使用链表代替栈,JavaScript,详细注释

Lee Chen

LeetCode 前端进阶训练营

不按套路出牌的阿里面试官:“刁难”面试者常用套路,你中招了吗

周老师

Java 编程 程序员 架构 面试

膜拜!京东T9大牛沉淀三年终于整理出了这份架构核心修炼之道

你看起来很好吃

Java 编程 程序员 架构师 计算机

除了方文山,用TA你也能帮周杰伦写歌词了

华为云开发者社区

AI 数据 周杰伦 modelarts 歌词

架构师培训 -12 hadoop

刘敏

区块链USDT支付系统,USDT承兑支付软件开发

13530558032

京东T9今年首发的一份Spring Boot实战,让开发像搭积木一样简单

你看起来很好吃

Java 编程 程序员 架构师 计算机

Github下载即将破百万的PDF:双十一高并发亿级流量秒杀顶级教程

你看起来很好吃

Java 编程 程序员 秒杀 计算机

架构师训练营十二周作业

方堃

Spring+多线程+集合+MVC+数据结构算法+MyBatis源码学习笔记分享

Java成神之路

Java spring 编程 程序员 多线程

架构师培训十二周练习

小蚂蚁

一文说透"静态代理"与"动态代理"

洋仔聊编程

源码分析 动态代理 静态代理

GitHub上120K Stars国内第一的Java多线程PDF到底有什么魅力?

你看起来很好吃

Java 程序员 并发编程 多线程 架构师

商汤ICCV论文解读:自然场景下文字检测的几何归一化网络(GNNets)-InfoQ