修补的方法基本上也是基于梯度/边缘的连续性或者纹理的扩展性，而传统机器学习方法可以学习有先验知识的图像合成方法。下面介绍深度学习的方法。

Pluralistic Image Completion是一种多元（Pluralistic）图像完整（image completion）的方法【1】，它为图像完整生成多种多样的合理解决方案。基于学习的方法面临的主要挑战是，通常每个标签只有一个GT训练实例。从条件的变分自动编码器（CVAE）采样仍然导致最少多样性。为此，采用基于概率原理的两个并行路径框架：一个是重建路径，利用给定的GT来得到缺失的部分先验，并从该分布重建原始图像；另一种是生成路径，条件先验与重构路径中的分布耦合在一起。两个路径都基于GAN，另外还有一个短距加长距的注意层（attention layer），利用了解码器和编码器特征之间的远距离关系，提高了外观的一致性。

如图给出屏蔽输入的完整策略：“确定性”结构直接预测GT实例；“CVAE”增加随机抽样以使产出多样化；“实例盲”仅匹配可见部分，但训练不稳定；“双路径方法”【1】在测试期间使用生成路径，但在训练期间由并行的重建路径引导；黄色路径用于训练。如下对各部分分别解释一下。

假设一个图像，最初是Ig，许多缺失的像素使其退化成为包含可见像素的Im（被掩盖部分图像）。定义Ic为包括原始缺失像素的补充（complement）部分图像。经典图像完整法试图以确定的方式从Im重建原始未掩盖的图像Ig（见图“确定性”），这导致一个解决方案。相反，双路径法想做的是从p（Ic | Im）进行采样。

为了得到样本的分布，目前的方法是采用CVAE来估计潜空间的参数分布，然后从中采样（见图“CVAE”）。这涉及观察训练实例的条件对数似然函数logp（Ic | Im）的变分下限：

其中zc是潜向量，qψ（·|·）是后验重要采样（importance sampling）函数，pφ（···）是条件先验函数，pθ（·|·）是似然函数，其中ψ，φ和θ是相应函数的深度网络参数。对所有参数，该下限最大化。

输出多样化的一种方法是，在训练期间简单不刺激输出去重建实例特有的Ig，只需要适应训练集分布，如学习的对抗鉴别器那样（见图“实例盲（Instance Blind）“）。尽管如此，该方法不是很稳定，特别在复杂的大环境里。

双路径法【1】要求提供丢失的部分图像作为完整图像的超集，也是来自潜空间分布，已知为p（zc）的平滑先验知识。这样，log p(Ic)的变分下限是：

当涉及到部分图像时这会更具辨别力，因为有不同数量的像素。更多像素（较大孔）的缺失部分图像Ic比较少像素（较小孔）的缺失部分图像Ic更大的潜先验方差。因此，为适应像素数n，广义化先前的p（zc）= Nm（0，σ2（n）I）。

将潜先验知识组合成条件对数似然函数的条件下限，只需要假设zc与Ic比与Im更密切相关，因此得到：

这样条件对数似然函数logp（Ic | Im）的变分下限变成：

然而，不同的是，训练期间不再自由学习qψ（zc | Ic），但其在变分下限的存在联系在一起。直观地，qψ（zc | Ic）的学习由变分下限的先验知识p（zc）正则化，而条件先验pφ（zc | Im）的学习依次由上面条件对数似然函数变分下限中的qψ（zc | Ic）正则化。

上面条件对数似然函数logp（Ic | Im）变分下限的一个问题是：在训练期间采样取自qψ（zc | Ic），但在测试期间这不行，因此采样必须来自pφ（zc | Im），这个可能无法充分学习。为了缓解这个问题，将上面变分下限修改为重要采样（importance sampling）有和无二者的混合形式，简化写成：

当从重要函数（importance function）qψ（·| Ic）采样时，整个训练实例可用，并且似然函数prθ（Ic | zc，Im）侧重于Ic的重构。相反，从学习的不包含Ic的条件先验pφ（·| Im）采样时，让似然函数模型：

和Ic的原始实例（original instance）无关，可促进创造性生成（creative generation）。不然，它只鼓励生成样本适应于整体的训练分布。

然后，总训练目标可以表示为联合最大化log p（Ic）和logp（Ic | Im）两个的变分下限，其中前者中的似然函数统一到后者，即

如下图是并行双路径的框架图：重建流水线（黄线）组合Im和Ic的信息用于训练；生成流水线（蓝线）推断隐藏区域的条件分布，在测试期间进行采样；表示和生成两个网络共享一样的权重。

该网络由两条路径组成：重建路径使用来自整个图像的信息，即Ig = {Ic，Im}，而生成路径仅使用来自可见区域Im的信息。另外：

• 对于重建路径，补充元素图像Ic用于推断训练期间的重要函数qψ（·| Ic）=Nψ（·）。因此，采样的潜在向量zc包含缺失区域的信息，而条件特征fm对可见区域的信息进行编码。由于有足够的信息，该路径损失函数适合于重建原始图像Ig。

• 对于生成路径（也是测试路径），仅基于可见Im推断洞Ic的潜分布。这明显不如路径中的推断准确。因此，重建损失仅针对可见区域Im（经由fm）。

• 此外，在两条路径上使用对抗学习网络，理想情况下确保完整的合成数据符合训练集分布，并凭经验得出更高质量的图像。

训练的损失函数定义如下：

其中分布正则化损失：

外观匹配损失：

对抗损失：

从自注意（Self-Attention）GAN扩展出来，不仅在解码器层使用自注意图（self-attention map）来利用远距离空间上下文（distant spatial context），还要进一步捕获编码器和解码器之间的特征-特征上下文（feature-feature context）。关键点是：让网络选择在编码器中使用更精细的特征，或者在解码器中使用更具语义生成的特性，下图是长+短距注意层的架构图所示。

如下图是通过实验结果对训练中不同策略的比较：双路径（顶部），CVAE（中部）和实例盲（底部）。

下图是不同注意模块的注意力图比较：长短距注意图（顶部）和上下文注意图（底部）。

深度图像完整通常无法将恢复的图像和谐地混合到现有内容中，尤其是在边界区域中。【2】从创建平滑过渡的角度考虑，提出简洁的深度融合网络（DFNet）。首先，引入融合块生成用于组合已知和未知区域的α组合图（alpha composition map）。融合模块不仅在恢复的内容和现有内容之间提供平滑的融合，而且提供注意力图（attention map），使网络更多地关注未知像素。通过这种方式，在结构和纹理信息之间构建了一个桥梁，使信息自然地从已知区域传播直到完整。

此外，DFNet的融合块嵌入到网络的几个解码器层中。随着每层可调的损失约束，图像完整实现了更精确的结构信息恢复。

下图是融合块的示意图：融合块通过可学习的函数M从特征图中提取原始完整信息，并预测函数A的alpha合成图。最后，它通过混合函数B将原始完整与缩放的输入图像组合在一起。

如图所示，DFNet建立在类似U-Net模型的体系结构上。和原始U-Net之间的区别在于，融合块嵌入到多个解码器层。融合块有助于在边界附近实现更平滑的过渡，并且是多尺度约束的关键组件。一个融合块馈入两个元素，具有未知区域的输入图像Iin和特征映射Fk形成第k层（第一层是U-Net的最后一个解码器层）。这个融合块首先从特征图中提取原始完整Ck，然后预测α组合图αk，最后结合起来。最终结果Iˆk通过以下方式获得：

其中缩放Iin 得到 Ik，通过可学习函数M从特征映射Fk提取的原始完整Ck：

M（x）将n个通道特征图x变换为3通道图像，分辨率不变，即原始完整。实际上，通过1×1卷积层加sigmoid函数来学习M。alpha合成图αk由另一个可学习的函数A从原始完整和缩放的输入图像产生：

直观地说，在图像被完整时，在算法的较低分辨率构造结构更容易，而在高分辨率下纹理恢复更可行。将融合块嵌入到U-Net的最后几个解码器层中，并以不同的分辨率获得完整结果。然后，根据需要将结构和纹理约束应用于不同的分辨率。

每个融合块输出与输入特征图Fi相同分辨率的完整结果Ci。根据分辨率，可以在训练期间提供不同的约束。在测试期间，仅需要来自最后一层的完整结果I0。

损失函数定义如下：先是重建损失：

感知和风格损失分别是：

其中克矩阵（Gram matrix）：

最后，总的损失函数是：

其中结构和纹理损失分别是：

如图是实验结果比较：第2行可以看出，基于更多的融合块，建筑结构更加清晰和准确。此外，在3个融合块的结果描绘了房屋的形状，而不是1个融合块结果的噪声。虽然编码器高层有更大的感知场和全局上下文，但在解码器更多层可以更容易地重建结构信息。

参考文献

C Zheng, T Cham, J Cai,“Pluralistic Image Completion”, CVPR 2019
X Hong et al.,“Deep Fusion Network for Image Completion”, arXiv 1904.08060, 2019

作者介绍

黄浴，奇点汽车美研中心总裁和自动驾驶首席科学家，上海大学兼职教授。曾在百度美研自动驾驶组、英特尔公司总部、三星美研数字媒体研究中心、华为美研媒体网络实验室，和法国汤姆逊多媒体公司普林斯顿研究所等工作。发表国际期刊和会议论文30余篇，申请30余个专利，其中13个获批准。

原文链接

注：本文源自黄浴的知乎：https://zhuanlan.zhihu.com/p/78874490

创作场景

基于深度学习的图像修补 / 完整方法分析