前端代码是怎样智能生成的：图像分离篇-InfoQ



 写点什么

作为阿里经济体前端委员会四大技术方向之一，前端智能化项目经历了 2019 双十一的阶段性考验，交出了不错的答卷，天猫淘宝双十一会场新增模块 79.34% 的线上代码由前端智能化项目自动生成。在此期间研发小组经历了许多困难与思考，本次《前端代码是怎样智能生成的》系列分享，将与大家分享前端智能化项目中技术与思考的点点滴滴。

概述

一直以来，如何从“视觉稿”精确的还原出对应的 UI 侧代码一直是端侧开发同学工作里消耗比较大的部分，一方面这部分的工作比较确定缺少技术深度，另一方面视觉设计师也需要投入大量的走查时间，有大量无谓的沟通和消耗。

很多人会比较好奇，为什么我们尝试使用图片做为输入源，一方面基于 Sketch 或者 Photoshop 等插件相对容易拿到确定性的信息，图片在某些方面容易丢失一些特征；另外基于图片的分析其实挑战更大。我们做这个选择有以下原因：

首先图片作为最终的产出物，更直观和确定性，另外这个链路里对上游不会有约束性。
视觉稿跟开发代码不一样的地方在于布局的不同，比如 listview ，grdview 这类布局类别在设计稿中是不存在的
基于图片的应用场景会更普适，类似场景。例如自动化测试能力的支持，基于竞品直接截图来套用我们自己的数据源找体感，这类场景是其他的方案做不到的。
设计稿有图层堆叠的问题，从图片出发可以更好地合并图层。

图像分离是 D2C 图像处理层的重要组成部分，具体内容包括了版面分析，复杂背景处理，布局识别和属性提取。本篇会从版面分析和复杂背景内容提取两个部分加以介绍。版面分析会将图像分割成若干个区块，并对不同的内容做分割和合并。复杂背景处理会在版面分析的基础上提取一些叠加的元素。

所在分层

本文讲述前端智能化 D2C 里技术分层中的图层处理能力层，主要负责识别图像的元素类别和提取样式，同时也为后续的布局算法层赋能。

版面分析

版面分析主要处理 UI 图像的前景提取和背景分析，通过前后景分离算法，将 UI 视觉稿剪裁为 GUI 元素:

背景分析：通过机器视觉算法，分析背景颜色，背景渐变方向，以及背景的连通区域。
前景分析：通过深度学习算法，对 GUI 碎片进行整理，合并，识别。

背景分析

背景分析的关键在于找到背景的连通区域和闭合区间，具体的步骤如下：

第一步：判断背景区块，通过 sobel，Lapacian，canny 等边缘检测的方法计算出梯度变化方向，从而得到纯色背景和渐变色背景区域。基于拉普拉斯算子的背景区域提取离散拉普拉斯算子的模板如下：

此外，我们通过统计背景运动趋势的方式来判定它是否存在渐变色背景。如果存在，我们将通过第二步进行精细化处理。

第二步：基于漫水填充算法，选取漫水的种子节点，滤除渐变色背景区域噪声。

def fill_color_diffuse_water_from_img(task_out_dir, image, x, y, thres_up = (10, 10, 10), thres_down = (10, 10, 10), fill_color"""漫⽔填充：会改变图像"""# 获取图⽚的⾼和宽h, w = image.shape[:2]# 创建⼀个h+2,w+2的遮罩层，# 这⾥需要注意，OpenCV的默认规定，# 遮罩层的shape必须是h+2，w+2并且必须是单通道8位，具体原因我也不是很清楚。mask = np.zeros([h + 2, w + 2], np.uint8)# 这⾥执⾏漫⽔填充，参数代表：# copyImg：要填充的图⽚# mask：遮罩层# (x, y)：开始填充的位置（开始的种⼦点）# (255, 255, 255)：填充的值，这⾥填充成⽩⾊# (100,100,100)：开始的种⼦点与整个图像的像素值的最⼤的负差值# (50,50,50)：开始的种⼦点与整个图像的像素值的最⼤的正差值# cv.FLOODFILL_FIXED_RANGE：处理图像的⽅法，⼀般处理彩⾊图象⽤这个⽅法cv2.floodFill(image, mask, (x, y), fill_color, thres_down, thres_up, cv2.FLOODFILL_FIXED_RANGE)cv2.imwrite(task_out_dir + "/ui/tmp2.png", image)# mask是⾮常重要的⼀个区域，这块区域内会显示哪些区域被填充了颜⾊# 对于UI⾃动化，mask可以设置成shape，⼤⼩以1最⼤的宽和⾼为准return image, mask

复制代码

处理过后的效果如下：

（原图与处理效果图）

第三步：通过版面切割，提取 GUI 元素。

（背景分析后提取的内容模块）

这个时候我们已经成功将图片分层并提取了模块，后续细节可以在前景分析和复杂背景提取中获得。

前景分析

前景分析的关键在于组件完整性切割与识别。我们通过连通域分析，防止组件碎片化，再通过机器学习识别组件类型，再通过组件类型进行碎片化合并，反复执行上述动作，直到无特征属性碎片。我们通过瀑布流中提取一个完整 item 为例：

（标红部分是处理难点）

闲鱼页面中瀑布流卡片识别是实现布局分析的一个重要步骤，需求是当卡片完整出现在截屏图像中时(允许图标遮挡)需要识别出来，卡片被背景部分遮挡时不应该识别出来。上图的瀑布流卡片样式，由于其布局紧凑且样式繁多，导致容易产生漏检或误检。

基于边缘梯度或连通域的传统图像处理方法能根据图像本身的灰度或者形状特征提取出瀑布流卡片的轮廓，优点是定位精度高、运算速度快。缺点是容易受到干扰，召回率不高。

基于目标检测或者特征点检测的深度学习方法采用有监督的方式学习卡片的样式特征，优点是不易受到干扰，召回率很高。缺点是因为涉及回归过程，定位精度比传统图像处理方法要低，并且需要大量的人工标注，运算速度也比传统图像处理方法要慢。

受集成学习的启发，通过融合传统图像处理方法和深度学习方法，结合两者各自的优点，最终能得到具有较高精确率、召回率和定位精度的识别结果。

传统图像处理算法流程如下图所示:

输入的瀑布流卡片图像转换成灰度图后使用对比度受限的自适应直方图均衡化 (CLAHE) 进行增强
使用 Canny 算子进行边缘检测得到二值化图像
对二值化图像进行形态学膨胀处理，连接断开的边缘
提取连续边缘的外层轮廓，并基于轮廓包含区域的面积大小丢弃面积较小的轮廓，输出候选轮廓
使用 Douglas-Peucker 算法进行矩形逼近，保留最像矩形的外轮廓，输出新的候选轮廓
最后对第 4 步的候选轮廓进行水平和垂直方向投影得到平滑的轮廓作为输出

（传统图像处理算法流程）

算法流程中 1-3 可以归为边缘检测部分。

受各种因素影响，图像会出现降质，需要对其进行增强来提高边缘检测的效果。使用全图单一的直方图进行均衡化显然不是最好的选择，因为截取的瀑布流图像不同区域对比度可能差别很大，增强后的图像可能会产生伪影。在单一直方图均衡化的基础上，学者基于分块处理的思想提出了自适应的直方图均衡化算法 (AHE) ，但是 AHE 在增强边缘的同时有时候也会将噪声放大。后来学者在 AHE 的基础上提出了 CLAHE ，利用一个对比度阈值来去除噪声的干扰，如下图所示直方图，CLAHE 不是将直方图中超过阈值的部分丢弃，而是将其均匀分布于其他 bin 中。

（直方图均衡）

Canny 算子是一种经典的边缘检测算子，它能得到精确的边缘位置。Canny 检测的一般步骤为：1) 用高斯滤波进行降噪 2) 用一阶偏导的有限差分计算梯度的幅值和方向 3)对梯度幅值进行非极大值抑制 4) 用双阈值检测和连接边缘。实验过程中，需要多次尝试选择较好的双阈值参数。

检测出来的边缘在某些局部地方会断开，可以采用特定形状和尺寸的结构元素对二值化图像进行形态学膨胀处理来连接断开的边缘。边缘检测的结果如下图所示，其中 c) 中 CLAHE 设定对比度阈值为 10.0 ，区域大小为 (10，10)，d) 中 Canny 检测设置双阈值为 (20，80)，e) 中形态学膨胀结构元素使用大小为 (3，3) 的十字线。

（传统图像处理结果图）

算法流程中 4-6 可以归为轮廓提取部分。二值图像形态学膨胀处理后，首先提取连续边缘的外层轮廓。如下图所示，对于只有 0 和 1 的二值图像，假设 S1 为像素值为 0 的一堆背景点，S2 为像素值为 1 的一堆前景点，外层轮廓 B1 为一堆前景点最外围的点，内层轮廓 B2 为一堆前景点最内部的点。通过对二值图像进行行扫描给不同轮廓边界赋予不同的整数值，从而确定轮廓的类型以及之间的层次关系。提取出外层轮廓后通过计算轮廓包含的面积大小丢弃面积较小的外层轮廓，输出第一步候选轮廓。

（提取轮廓）

闲鱼页面瀑布流卡片轮廓近似于矩形，在四个角由弧形曲线连接。对于提取的候选轮廓使用 Douglas-Peucker 算法进行矩形逼近，保留形状接近矩形的外轮廓。Douglas-Peucker 算法通过将一组点表示的曲线或多边形拟合成另一组更少的点，使得两组点之间的距离满足特定的精度。之后输出第二步候选轮廓。

通过对第二步候选轮廓所处位置对应的第一步候选轮廓进行水平和垂直方向投影，去除毛刺影响，输出矩形轮廓。轮廓提取的结果如下图所示，其中 c) 中轮廓包含面积设置的阈值为 10000 ，d) 中 Douglas-Peucker 算法设置的精度为 0.01 * 轮廓长度。本文所有提取的轮廓均包含输入框。

（不同方法识别结果）

我们再介绍下机器学习如何处理：

传统算法中提出采用传统图像处理方法提取轮廓特征，这样会带来一个问题：当图像不清晰或者有遮挡的情况下无法提取出轮廓，即召回率不是很高。

基于卷积神经网络的目标检测算法能通过输入大量样本数据，学习到更具有代表性和区别性的特征。目前目标检测算法主要分成两个派系：以 R-CNN 家族为代表的两阶段流和以 YOLO 、SSD 为代表的一阶段流。一阶段流直接对预测的目标进行分类和回归，优点是速度快，缺点是 mAP 整体上没有两阶段流高。两阶段流在对预测的目标进行分类和回归前需要先生成候选的目标区域，这样训练时更容易收敛，因此优点是 mAP 高，缺点是速度上不如一阶段流。不管是一阶段流还是两阶段流，通用的目标检测推理过程如图所示。输入一张图像到特征提取网络(可选择 VGG 、Inception 、Resnet 等成熟的 CNN 网络)得到图像特征，然后将特定区域特征分别送入分类器和回归器进行类别分类和位置回归，最后将框的类别和位置进行输出。

（目标检测网络流程示意）

Faster R-CNN 对 R-CNN 家族最大的贡献是将生成候选目标区域的过程整合到整个网络中，使得综合性能有了较大提高，尤其是在检测速度上。Faster R-CNN 的基本结构如图所示。主要分为 4 个部分：1) conv layers。作为一种特征提取网络，使用一组基础的 conv + relu + pooling 层提取图像的特征，该特征被共享用于后续 RPN 网络和全连接层。2) Region Proposal Network。该网络用于生成候选目标框，通过 softmax 判断候选框是属于前景还是背景，并且通过候选框回归修正候选框位置。3) RoI pooling。收集输入的特征图和候选区域，将这些候选区域映射到固定大小并送入后续全连接层。4) classifer。计算候选框的具体类别，并且再次回归修正候选框的位置。

（目标检测网络基本结构示意）

使用 Faster R-CNN 进行瀑布流卡片的识别，得到下图的结果。

（目标检测结果）

标题传统算法与机器学习的融合

描述的传统图像方法能够获得高定位精度的卡片位置，但受卡片本身模式的影响，召回率不高)中右边卡片没有检测到。基于目标检测的深度学习方法具有较高的泛化能力，能获得较高的召回率，但是回归过程无法得到高定位精度的卡片位置)中卡片都能检测出来，但有两个卡片的边缘几乎粘连在了一起。

将两种方法得到的结果融合在一起，能同时获得高精确率、高召回率、高定位精度的检测结果。融合过程如下：

输入一张图像，并行运行传统图像处理方法和深度学习方法，分别得到提取的卡片框 trbox 和 dlbox 。定位精度以 trbox 为标杆，精确率和召回率以 dlbox 为标杆
筛选 trbox 。规则为当 trbox 与 dlbox 的 IOU 大于某个阈值时(比如 0.8 )保留此 trbox，否则丢弃，得到 trbox1
筛选 dlbox 。规则为当 dlbox 与 trbox1 的 IOU 大于某个阈值时(比如 0.8)丢弃此 dlbox ，否则保留，得到 dlbox1
修正 dlbox1 位置。规则为 dlbox1 的每条边移动到距离其最近的一条直线上，约束条件为移动的距离不能超过给定的阈值(比如 20 个像素)，并且移动的边不能跨越 trbox1 的边，得到修正的 dlbox2
输出 trbox1 + dlbox2 为最终融合的卡片框

结果

先介绍几个基本指标:

True Positive(TP): 被模型预测为正的正例数

True Negative(TN): 被模型预测为负的负例数

False Positive(FP): 被模型预测为正的负例数

False Negative(FN): 被模型预测为负的正例数

精确率 (Precision) = TP/(TP+FP) :反映了被模型预测的正例中真正的正样本所占比重

召回率 (Recall) = TP/(TP+FN) : 反映了被模型正确预测的正例占总的正样本比重

定位精度 (IOU) = 两个框的交集大小/两个框的并集大小

（不同方式得到的检测结果）

上图分别显示了不同方法识别的卡片, d) 相对于 b) 的优势是提高了召回率，d) 相对于 c) 的优势是提高了定位精度。图一图二图三显示了一些其他实例图像的识别，每行图像是一类实例图，第一列是原始图像，第二列是传统图像处理识别的卡片，第三列是深度学习识别的卡片，第四列是融合的卡片。

图一图二能够准确识别卡片轮廓：

（前景识别结果示例 I）

图三融合卡片的下边缘并没有完全贴合，这是因为融合步骤中修正 dlbox1 位置时，采用传统图像处理方法寻找临域范围内最近的直线，受到图像样式的影响，找到的直线并不是期望的卡片下边缘。

（前景识别结果示例 II）

实验过程中随机截取了 50 张闲鱼瀑布流卡片图像，共有卡片 96 个(不包含输入框)，对每张图像分别采用传统图像处理方法、深度学习方法、融合方法得到卡片的识别结果，其中传统图像处理方法共识别出 65 个卡片，深度学习方法共识别出 97 个，融合后共识别出 98 个。精确率、召回率、定位精度如下表所示。融合后识别结果结合了传统图像处理方法定位精度高、深度学习方法召回率高的优点。

不同方法结果：