商汤ICCV论文解读：自然场景下文字检测的几何归一化网络（GNNets）-InfoQ

「如何实现流动式软件发布」线上课堂开课啦，快来报名参与课堂抽奖吧~ 了解详情 



 写点什么

今年的 ICCV，商汤科技及联合实验室共有 57 篇论文入选 ICCV 2019（包含 11 篇 Oral），同时在 Open Images、COCO、LVIS 等 13 项重要竞赛中夺冠。

本文简要介绍商汤科技研究团队在 ICCV2019 上录用的一篇文章：Geometry Normalization Networks for Accurate Scene Text Detection（GNNets），针对自然场景下文字检测的几何归一化网络。该文章通过对待处理图像的特征图进行几何变换，从而将待处理图像中几何分布差异较大的文本框归一化到一定的几何分布范围内，提高了自然场景下文本测检的效果。

一、研究背景

随着深度学习的迅速发展，计算机视觉技术对实际生产具有影响越来越重要的影响。对图像中的文本进行检测和识别，有助于计算机理解视觉内容。由于卷积神经网络（CNN）方法的通用性，自然场景文本检测受益于常规物体检测而快速发展。但由于自然场景中的文本在实际应用场景中具有较大的几何变化（例如宽高比或文字方向），所以其自身仍存在巨大的挑战。对于尺度变化问题，现有方法一般通过使用一个检测头（detection header）对不同层级的特征进行检测，利用 NMS 融合结果后作为输出或者使用类似 FPN [1]的网络将多尺度特征融合然后进行文本检测。对于角度变化问题，现有方法一般通过直接回归文本框角度或使用对方向敏感的卷积来预测任意方向。但目前的方法中要求检测头（detection header）需要学习到文字巨大的几何差异或者检测头（detection header）仅在所有训练样本中一个子集进行学习，这可能导致性能欠佳。

作者研究了几何分布对场景文本检测的影响，发现基于 CNN 的检测器只能捕获有限的文本几何分布，但充分利用所有训练的样本可以提高其泛化能力。为了解决上述难题，作者提出了一种新颖的几何规范化模块（GNM）。每个自然场景图片中的文本实例可以通过 GNM 归一化到一定的几何分布范围内。这样所有训练样本均被归一化为有限的分布，因此可以有效地训练一个共享的文本检测头。本文提出的 GNM 是通用的，可以直接将该模块插入到任何基于 CNN 的文本检测器中。为了验证提出方法的有效性，作者针对文字方向的差异性新建了一个测试集（Benchmark）并发布。

二、方法描述

Fig.1. Overall architecture.

Fig. 1 是 GNNets 的整体网络结构图。总体网络结构由 Backbone，GNM，Shared Text Detection Header 组成。通过 Backbone 提取的特征图会被输入到具有多个分支的几何规范化模块（GNM）中，每个分支由一个尺度归一化单元（SNU）F^s 和方向归一化单元（ONU）F^o 组成。SNU 有两个不同比例的尺归一化单位（S，S1/2）和四个方向归一化单位（O，Or，Of，Or + f）。通过 SNU 和 ONU 的不同组合，GNM 会生成不同的几何归一化特征图，这些特征图将被输入到一个共享文本检测标头中。

Fig.2. ONU.

Fig. 2 是作者提出的 ONU 模块的示意图。通过应用 ONU 可以更改文本框方向。如图所示“绿色”框是原始框，“灰色”框是转换过程中的中间框，“红色”框是 ONU 的输出的结果框。 θ和θ’分别是原始框和结果框的角度。（a），（b），（c）和（d）分别是 O，Or，Of，Or + f 的过程的示意图。由上图可以简单明了的表示 ONU 具有将[0，π/4]，[-π/2，-π/4]，[-π/4，0]和[π/4，π/2]角度的文本转换为在[0，π/4]角度的文本。

Fig.3. Architecture of GNM.

Fig. 3 展示了 GNM 在网络中的结构设置。对于 SNU 中的 S 使用 1x1 的卷积操作和 3x3 的卷积操作；S1/2 使用 1X1 的卷积，步长为 2 的下采样以及 3x3 的卷积。对于 ONU 中的 O，Or，Of，Or + f 中的 Operations 则分别采用不操作，旋转 feature maps，翻转 feature maps 和旋转后再翻转 feature maps。

由于多分支网络的影响，作者提出了一个针对 GNNets 的抽样训练策略。在训练期间，作者随机采样一个文本实例，并通过旋转和调整大小 7 次来对其进行扩充，以使 GNM 的每个分支在每批次中都具有有效的文本实例用于训练。这样可以对 GNM 的所有分支进行统一训练。并且在训练过程中如果文本实例不在预先设定的几何区间内，则忽略分支中的该文本实例。在测试过程中，作者将 GNM 中所有分支输出文本框相应地反向投影到原始比例和方向。不在分支预先设定的几何区间内的文本框会被丢弃。其余的文本框通过 NMS 合并。

三、实验结果

Table 1. Comparison with the state-of-the-art methods on both ICDAR 2015 and ICDAR 2017 MLT.

与原始的 PSENet[2] 相比，作者提出的 GNNets 在 ICDAR 2015[3]和 ICDAR 2017 MLT [4]上分别实现了约 1.3％和 2.1％的性能提升。与 ICDAR 2015 上的 EAST[5]和 ITN [6]相比，GNNet 的 F-score 比它们分别高出 8％和 9％。与 FTSN [7]相比，获得了 4.5％的性能提升。GNNets 在 ICDAR 2015 上的表现优于 FOTS [8]，在 ICDAR 2017 MLT 上的 F-score 更超出其 7.3％。并且 FOTS 使用了文字识别的数据。在单尺度测试中，作者提出的 GNNets 在 ICDAR 2015 和 ICDAR 2017 MLT 上均达到了 state-of-the-art 的性能。Fig. 5 可视化了 GNNets 和其他文本检测方法在 ICDAR 2015 和 ICDAR 2017 MLT 上的检测结果。

Fig.5. Qualitative results on ICDAR 2015 and ICDAR 2017 MLT. The right column shows GNNets results.

四、总结及讨论

在本文中，作者提出了一种新颖的几何归一化模块（GNM）以生成多个几何感知特征图。并且 GNM 是通用的，可以应用到任何基于 CNN 的检测器中，以构建端到端的几何归一化网络（GNNet）。实验表明，GNNet 在检测几何分布较大的文本实例方面相较于 baseline 表现出出色的性能。并且，GNNet 在两个文字检测主流的数据集上较最新的方法获得了显著的性能提升。
文中研究了几何分布对场景文本检测的影响，发现基于 CNN 的检测器只能捕获有限的文本几何分布，但充分利用所有训练的样本可以提高其泛化能力，对后续文字检测以及其他相关领域有启发性影响。
综上所述，文本检测是 OCR 任务的首要前提，但自然场景下文字的字体变化、悬殊的宽高比、任意角度给检测任务带来巨大的挑战，本文为我们提出了目前研究方向上忽略的点，并提供了一个新颖的解决方法，但是相较与常规物体检测，文本检测领域仍然有其特殊性以及较大的提升空间。

参考文献

Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature Pyramid Networks for Object Detection. In CVPR, 2017.
Xiang Li, Wenhai Wang, Wenbo Hou, Ruo-Ze Liu, Tong Lu, and Jian Yang. Shape Robust Text Detection with Progressive Scale Expansion Network. arXiv preprint arXiv:1806.02559, 2018.
Dimosthenis Karatzas, Lluis Gomez-Bigorda, Anguelos Nicolaou, Suman Ghosh, Andrew Bagdanov, Masakazu Iwamura, Jiri Matas, Lukas Neumann, Vijay Ramaseshan Chandrasekhar, Shijian Lu, and Others. ICDAR 2015 Competition on Robust Reading. In ICDAR, 2015.
ICDAR2017 Competition on Multi-Lingual Scene Text Detection and Script Identification.http://rrc.cvc.uab.es/?ch=8&com=introduction, 2017.
Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang, Shuchang Zhou, Weiran He, and Jiajun Liang. EAST: An Efficient and Accurate Scene Text Detector. In CVPR, 2017.
Fangfang Wang, Liming Zhao, Xi Li, Xinchao Wang, and Dacheng Tao. Geometry-Aware Scene Text Detection with Instance Transformation Network. In CVPR, 2018.
Yuchen Dai, Zheng Huang, Yuting Gao, Youxuan Xu, Kai Chen, Jie Guo, and Weidong Qiu. Fused Text Segmentation Networks for Multi-Oriented Scene Text Detection. In ICPR, 2018.
Xuebo Liu, Ding Liang, Shi Yan, Dagui Chen, Yu Qiao, and Junjie Yan. Fots: Fast Oriented Text Spotting with a Unified Network. In CVPR, 2018.

发布

暂无评论

创作场景

商汤 ICCV 论文解读：自然场景下文字检测的几何归一化网络（GNNets）

一、研究背景

二、方法描述

三、实验结果

四、总结及讨论

参考文献

评论

如何优雅的在业务中使用设计模式（代码如诗）

fil挖矿怎么挖？fil挖矿成本是多少？

Go- 可变参数函数

面试“特效药”，不愧是Github上标星80K的腾讯Java进阶笔记！

简单、快捷、低成本的超写实虚拟人平台来了……

立于山巅！他，凭什么抗住万亿级流量冲击！

译文 | 四张画布教你判断「产品开发优先级」

文件上传绕过思路拓展

MySQL 不完全入门指南

❤️专科出身拿到阿里offer，我直呼666！【付硬核面试】❤️

微服务的痛：你的微服务还好吗？

简述 Linux I/O 原理及零拷贝（上）— 磁盘 I/O

简述 Linux I/O 原理及零拷贝（下） — 网络 I/O

20年IT老民工苦心编撰成超大流量分布式系统架构解决方案文档

一文带你掌握 OceanBase 社区版部署细节及原理

摩尔时代如何押注AI算力？英特尔战术大揭秘

软件测试框架之——Postman参数化（超详细小白教程）

短视频询盘获客系统开发案例解析

入职京东：成功拿到offer薪资30K「面试经历+面试真题」

fil矿机1T一天可以挖多少币？fil矿机能挖多久？

ipfs矿机公司星际联盟是什么公司？星际联盟ipfs矿机靠谱吗？

DEX去中心化交易所自动刷量机器人开发|去中心化做市机器人

Apache APISIX 社区周报｜ 2021 8.16-8.22

解密优酷智能生产技术，看 AI 赋能内容数字化

堡垒机和跳板机的三大区别分析-行云管家

影像篡改与识别（一）：胶片时代

【等保测评】黑龙江等保测评机构详细信息说明

可视化全埋点系列文章之功能介绍篇

webrtc BitrateAllocator

石油行业数据采集中的 MQTT 协议

论坛接口测试——Postman数据驱动（超详细小白教程）

创作场景

商汤 ICCV 论文解读：自然场景下文字检测的几何归一化网络（GNNets）

一、研究背景

二、方法描述

三、实验结果

四、总结及讨论

参考文献

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载