【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

高德地图如何基于深度学习实践图像分割

  • 2019-12-28
  • 本文字数:3997 字

    阅读完需:约 13 分钟

高德地图如何基于深度学习实践图像分割

一、前言

图像分割(Image Segmentation)是计算机视觉领域中的一项重要基础技术,是图像理解中的重要一环。图像分割是将数字图像细分为多个图像子区域的过程,通过简化或改变图像的表示形式,让图像能够更加容易被理解。更简单地说,图像分割就是为数字图像中的每一个像素附加标签,使得具有相同标签的像素具有某种共同的视觉特性。


图像分割技术自 60 年代数字图像处理诞生开始便有了研究,随着近年来深度学习研究的逐步深入,图像分割技术也随之有了巨大的发展。早期的图像分割算法不能很好地分割一些具有抽象语义的目标,比如文字、动物、行人、车辆。这是因为早期的图像分割算法基于简单的像素值或一些低层的特征,如边缘、纹理等,人工设计的一些描述很难准确描述这些语义,这一经典问题被称之为“语义鸿沟”。


得益于深度学习能够“自动学习特征”的这一特点,第三代图像分割很好地避免了人工设计特征带来的“语义鸿沟”,从最初只能基于像素值以及低层特征进行分割,到现在能够完成一些根据高层语义的分割需求。



(图像分割的发展历史)


高德地图拥有图像/视频大数据,在众多业务场景上都需要理解图像中的内容。例如,在数据的自动化生产中,通常需要寻找文字、路面、房屋、桥梁、指示牌、路面标线等目标。这些数据里有些是通过采集车辆或卫星拍摄,也有些数据则是通过用户手机拍摄,如下图所示:



面对这些场景语义复杂、内容差异巨大的图像,高德是如何通过图像分割对其进行理解的?本文介绍了图像分割在高德地图从解决一些小问题的“手段”,逐步成长为高度自动化数据生产线的强大技术助力。

二、探索期:一些早期的尝试

在街边的数据采集中,我们需要自动化生产出采集到的小区、店铺等 POI (Point of Interest)数据。我们通过 OCR 算法识别其中文字,但苦恼于无法确定采集图像中到底有几个 POI。例如,下图中“领秀丽人”与“燕子童装”两家店铺,人眼可以很容易区分,但是对于机器则不然。一些简单的策略,比如背景颜色,容易带来很多的错误。



例如,遇到两个样式十分相近的挂牌的时候,我们利用无监督的 gPb-owt-ucm 算法 [1] 在检测多级轮廓的基础上结合改进的分水岭算法将图像切分为多个区域,并利用 Cascade Boosting 的文字检测结果将图中带有文字的区域进行了分割。

三、成长期:自然场景下的语义分割

于 2014 年底问世的全卷积神经网络 [2](FCNs, Fully Convolutional Networks)无疑是继 2012 年问鼎 ImageNet 大赛以来深度学习发展的又一里程碑。FCNs 提供了第一个端到端式的深度学习图像分割解决方案。FCNs 在 CNN 的基础上可以从任意尺寸的输入进行逐像素的分类。我们也在第一时间将其落地到高德自身的应用场景中,例如文字区域的分割。自然场景下的文字由于其背景、光照复杂,文字朝向、字体多样,使得人工构建特征十分困难。


很快地,我们发现 FCNs 还并不能很好地满足我们的需求。虽然 FCNs 在解决语义鸿沟问题上提供了解决方案,但在一般情况下只能给出一个“粗糙”的区域分割结果,不能实现很好的“实例分割”,对于目标虚警、目标粘连、目标多尺度、边缘精度等问题上也没有很好地解决。一个典型的例子就是在分割文字区域时,“挨得近”的文字区域特别容易粘在一起,导致在计算图像中的文本行数时造成计数错误。



因此,我们提出了一个多任务网络来实现自己的实例分割框架。针对目标粘连的问题,我们在原始网络中追加了一个分割任务,其目标是分割出每个文本行的“中轴线”,然后通过中轴线区域来拆分粘连的文本行区域。拆分的方法则是一个类似于 Dijkstra 的算法求解每个文本区域像素到区域内中轴线的距离,并以最短距离的中轴线作为像素归属。



另外一个比较困扰的问题是 FCNs 结果中的虚警,即非文字区域被分割为文字区域。虽然相较于一些传统方法,FCNs 结果中的虚警已经少了很多,但为了达到更好的分割正确率,我们在原有网络基础上增加了一个并行的 R-CNN 子网络进行文字的检测,并利用这些检测结果抑制虚警的产生(False Alarms Suppression)。


为了通过端到端的学习使得网络达到更好的效果,我们设计了一个一致性损失函数(Consistency Loss Function),来保证网络主干下分割子网络和检测子网络能够相互指导、调优。从优化后分割网络输出的能量图可以看到,虚警的概率明显降低了。若想要了解详细细节,可以参考我们 17 年公布在 arxiv 上的文章[3]。


四、成熟期:分割的精细化与实例化

得益于 Mask R-CNN 框架 [4] 的提出,实例化的图像分割变得更加容易。以之前提到的商户挂牌的分割为例,挂牌区域的分割也十分容易出现粘连,且挂牌样式多样,不存在文本行这样明显的“中轴线”。目标检测方法可以对提取挂牌的外包矩形。但问题在于,自然场景下挂牌的拍摄往往存在非垂直视角,因此在图像上并不是一个矩形,通常的检测算法则会带来不准确的边缘估计。Mask R-CNN 通过良好地整合检测与分割两个分支,实现了通用的实例化图像分割框架。其中目标检测分支通过 RPN 提取目标区域,并对其进行分类实现目标的实例化;然后在这些目标区域中进行分割,从而提取出精准的边缘。


一些更加复杂的场景理解需求,也对图像分割分割精细程度提出了更高的要求。这主要体现在两个方面:(1)边缘的准确度(2)不同尺度目标的召回能力。


在高精地图的数据数据生产需要分割出图像中的路面,然而高精地图对于精度的要求在厘米级,换算到图像上误差仅在 1~2 个像素点。观察原始分割的结果不难发现,分割的不准确位置一般都是出现在区域边缘上,区域内部是比较容易学习的。


因此,我们设计了一个特殊的损失函数,人为地增大真值边缘区域产生的惩罚性误差,从而加强对边缘的学习效果,如图所示,左侧为可行驶路面区域分割,右侧是路面及地面标线分割。



道路场景下需要理解的目标种类繁多,一方面其本身有大有小,另一方面由于拍摄的景深变化,呈现在图像上的尺度也大小各异。特别的是,有些特殊目标,例如灯杆、车道线等目标是“细长”的,在图像上具有较大长度,但宽度很小。这些目标的特性都使得精细的图像分割变得困难。



首先,由于受到网络感受野的限制,过大和过小的目标都不容易准确分割,比如道路场景下的路面与灯杆,卫星影像中的道路与建筑群。针对该问题,目前的 PSPNet [5], DeepLab [6], FPN [7] 等网络结构都能在不同程度上解决。


其次,由于目标尺度不同,导致分割网络样本数量的比例极不均衡(每一个像素可以认为是一个样本),我们将原先用于目标检测任务的 Focal Loss [8] 迁移到图像分割网络中来。Focal Loss 的特点在于可以让误差集中在训练的不好的数据上。这一特性使得难以学习的小尺度目标能够被更加准确地分割出来。


五、未来的展望

图像分割技术目前朝着越来越精确的方向上发展,例如 Mask Scoring R-CNN [9]、Hybrid Task Cascade [10] 的提出,在 Mask R-CNN 的基础上持续优化了其分割的精确程度。然而站在应用角度,基于深度学习的图像分割相较于当量的分类任务则显得“笨重”。


出于图像分割任务对精度的要求,输入图像不会像分类任务一样被压缩至一个很小的尺寸,带来的则是计算量的指数级增加,使得图像分割任务的实时性较难保证。针对这个问题,ICNet, Mobile 等网络结构通过快速下采样减少了卷积初期的计算量,但也带来了效果上的折损。基于知识蒸馏(Knowledge Distillation)的训练方法,则像个更好的优化方案,通过大网络指导小网络学习,使得小网络的训练效果优于单独训练。知识蒸馏在训练过程中规避了网络剪枝所需要的经验与技巧,直接使用较低开销的小网络完成原先只能大网络实现的复杂任务。


对于高德地图来说,图像分割已经是一个不可或缺的基础技术,并在各个数据自动化生产线中得到了广泛应用,助力高德地图的高度自动化数据生产。未来,我们也将持续在地图应用场景下打造更加精准、轻量的图像分割技术方案。

六、参考文献

[1] Arbelaez, Pablo, et al. “Contour detection and hierarchical image segmentation.” IEEE transactions on pattern analysis and machine intelligence 33.5 (2010): 898-916.


[2] Long, Jonathan, Evan Shelhamer, and Trevor Darrell. “Fully convolutional networks for semantic segmentation.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.


[3] Jiang, Fan, Zhihui Hao, and Xinran Liu. “Deep scene text detection with connected component proposals.” arXiv preprint arXiv:1708.05133 (2017).


[4] He, Kaiming, et al. “Mask r-cnn.” Proceedings of the IEEE international conference on computer vision. 2017.


[5] Zhao, Hengshuang, et al. “Pyramid scene parsing network.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.


[6] Chen, Liang-Chieh, et al. “Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs.” IEEE transactions on pattern analysis and machine intelligence 40.4 (2017): 834-848.


[7] Lin, Tsung-Yi, et al. “Feature pyramid networks for object detection.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.


[8] Lin, Tsung-Yi, et al. “Focal loss for dense object detection.” Proceedings of the IEEE international conference on computer vision. 2017.


[9] Huang, Zhaojin, et al. “Mask scoring r-cnn.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.


[10] Chen, Kai, et al. “Hybrid task cascade for instance segmentation.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.


本文转载自公众号高德技术(ID:amap_tech)。


原文链接


https://mp.weixin.qq.com/s/n9Xdj5RKGR9cyXXNzxzvSw


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-12-28 10:002676

评论

发布
暂无评论
发现更多内容

小令观点 | 从大批QQ账号被盗,看账号安全与数据资产问题

令牌云数字身份

数据安全 账号安全

小令观点丨现代版 “见令如见人”

令牌云数字身份

小令动态 | 令牌云新获上海市创新资金立项支持,此前还有......

令牌云数字身份

HashData携手恒丰银行 入选信通院金融科技创新应用五大“最受关注案例”

酷克数据HashData

云数据仓库

【Ajax】全面了解http协议

坚毅的小解同志

HTTP 11月月更

【Ajax进阶】跨域和JSONP的学习

坚毅的小解同志

ajax 11月月更

数维图智慧化工园区三维系统 助力危化企业安全生产

2D3D前端可视化开发

物联网 数据可视化 数字孪生 智慧化工园区 化工园区三维可视化

华为云虚拟专用网络VPN,为企业铺就数据上云的安全路

路过的憨憨

OpenHarmony 3.2 Beta多媒体系列——音视频播放框架

OpenHarmony开发者

OpenHarmony

一周活动速递|Paper Time第五期;技术征文大赛即将收官

OceanBase 数据库

MySQL中支持的字符集和排序规则

@下一站

MySQL 技术 字符集 11月月更

一个宁静祥和没有bug的下午和SqlSession的故事

京东科技开发者

mybatis sql Spring Boot CLI SQLSession

【Ajax】如何通过axios发起Ajax请求

坚毅的小解同志

ajax 11月月更

小令动态 | 令牌云成功通过国家等保三级认证

令牌云数字身份

SAP UI5 应用和 Angular 应用视图里控件 id 生成逻辑的异同比较

Jerry Wang

前端开发 angular SAP SAP UI5 11月月更

基于Spring-AOP的自定义分片工具

京东科技开发者

aop 数据分片 spring aop 配置文件

Bigkey问题的解决思路与方式探索

vivo互联网技术

redis dba bigkey

旺链科技肖慧荣登超级账本2022年第三季度中国贡献榜

旺链科技

区块链 产业区块链 VoneBaaS 企业号十月PK榜

深度解析KubeEdge EdgeMesh 高可用架构

华为云开发者联盟

云计算 云原生 后端 华为云

【Ajax】如何通过axios发起Ajax请求

坚毅的小解同志

ajax 11月月更

LR低代码快速开发平台 高效调整企业组织架构

力软低代码开发平台

【原生Ajax】全面了解xhr的概念与使用。

坚毅的小解同志

ajax 11月月更

Mybatis中使用${}和使用#{}

@下一站

mybatis MyBatis标签 Java core 11月月更

JS有哪些变态语法,你知道吗?

千锋IT教育

提升80%上云集成效率, TA是如何做到的

华为云开发者联盟

云计算 后端 华为云 云集成

“如何实现高效的应用交付”鲁班会开发者训练营厦门站进行时

华为云开发者联盟

云计算 软件开发 华为云 应用集成

【jquery ajax】实现文件上传提交

坚毅的小解同志

ajax 11月月更

python常用的内置对象

乔乔

11月月更

大模型狂欢背后:AI基础设施的“老化”与改造工程

OneFlow

人工智能 深度学习 大模型

字节跳动基于数据湖技术的近实时场景实践

字节跳动数据平台

数据湖 火山引擎

4.0体验站|OceanBase 4.0 我回来给你点个赞

OceanBase 数据库

高德地图如何基于深度学习实践图像分割_AI&大模型_匀瀚_InfoQ精选文章