AI实践哪家强？来 AICon，解锁技术前沿，探寻产业新机！了解详情 



 写点什么

登录/注册

深度学习自动构图研究报告

今天带来基于深度学习的图像构图的研究报告，主要涉及了基于 CNN 的图像剪裁方法的研究现状、数据集的发展、以及现有应用。

什么是自动切图

我们在拍摄照片后，第一步要做的就是图像裁剪，也称为后期构图。构图，用于合理安排画面中的元素分布，提升照片的美感。

构图的自动化【1】既可以用于拍摄之前的构图推荐，也可以用于拍摄之后的自动调整，在许多的缩略图自动裁剪中也有用处，甚至用于自动拍照。

我在公众号和知乎的专栏中已经多次讲过计算机美学了，也介绍过现有的产品，所以这里不再过多赘述。下面我们说说计算机构图的原理。

计算机构图的研究方法

接下来我们从这 2 个方面来讲讲计算机构图算法的原理。

1.1 显著目标方法

【2-3】也称之为 Attention-Based 的方法，它基于一个假设，图像中最显著的区域即照片中最相关的部分，因此我们应该保留最相关的部分，而裁剪其他部分。

如上面左图 1，2 是显著目标概率图，裁剪的时候就在保留显著目标的同时，裁剪掉了其他部分。

这类方法的目标就是研究如何用最小的剪裁窗口使得注意力（图像显著特性）总和最大化，它缺少对图像构图准则以及美学质量的考量，可能会导致剪裁出来的图像不美观。因为已经不是主流研究方法，就不细细说明了。

1.2 美学方法

基于显著目标的方法不是现在的主流，而基于美学的方法更加符合摄影师构图的原理，它要求裁剪出美学质量分数更高的区域。

上图文【4】是比较早的研究思路，它通过滑动窗口的方法获取一系列的候选裁剪框，然后从中选择美学分数最高的。这一类方法的问题就是效率太低，计算量太高，根本无法实用。

文【5】提供了不同的思路，如上图。它训练了一个显著目标检测网络，可以得到显著目标区域的初始化框，在它的附近，就可以采用不同的大小和比例，获取一系列候选的裁剪框，网络如下。

训练了另一个美学评估网络，用于选取美学分数更高的裁剪框。由于这个方法，只需要 1 次特征提取，且两个网络共享了若干神经网络卷积层，大大提高了剪裁窗口获取的效率，网络如下。

文【6】使用增强学习来更高效地搜索裁剪框，网络结构如下。

相比上面的两种方法，它需要更少的候选窗口与更少的运行时间，可以获得任意尺度位置更精确的剪裁窗口。

最新的研究来自于 adode 2018 年[7]的文章。该文章包含了两个网络，一个是 view proposal network，用于提取候选框。另一个是 view evaluation net，用于从候选框中选择美学价值最高的，网络如下。

该文另一个贡献是整理了一个大型高质量的数据集，因为现有的数据集太小是限制研究的最主要原因。

数据集

下面介绍两个主要的数据集。

1.1 FCDB

FCDB【1】数据集是一个专门为图像剪裁而设计构建的数据集。这个数据集一共包含 1743 张经过人工标记剪裁窗口的图片与 34130 张与原始图像相匹配的剪裁图像对。数据集里的每张照片都从专业摄影照片分享社区 Flickr 上下载后经人工筛选得到，具有较高的美学特征与较好的构图。

1.2 CPC[7]

这是 adobe 整理的，包含 10800 张图，超过 1 million 的图像对，每一个图像对就是原图和它的裁剪图，他们会有相对美学的标注。为了保证分布的广泛性，不仅选择了专业的图片，也选择了日常生活中的图片。

另外还有一些小的数据集，不一一列举。

优化目标

怎么评估一个自动裁剪算法的好坏呢？下面介绍两个。

3.1 IoU

平均交叉区域 average intersection-over-union，这也是目标检测中使用的优化目标。上式中 N 为输入图片的总数，wig 为第 i 幅输入图像 ground truth 的窗口，wic 为不同方法剪裁出的第 i 幅输入图像的最优窗口，IoU 的值越大说明剪裁的最优窗口与 ground truth 的窗口越接近，即剪裁的效果越好。

3.2 平均边界位移

平均边界位移 average boundary displacement。上式中 N 为输入图片的总数，

big(l,r,u,d)为第 i 幅输入图像 ground truth 的窗口 4 条边与原图像对应边的距离，bic(l,r,u,d)为不同方法剪裁出的第 i 幅输入图像的最优窗口 4 条边与原图像对应边的距离，Disp 的值越小说明剪裁的最优窗口与 ground truth 的窗口越接近，即剪裁的效果越好。

总结

随着研究人员的活跃和数据集的增长，自动构图算法一定会在这几年得到快速的发展。

作者介绍

言有三，真名龙鹏，曾先后就职于奇虎 360AI 研究院、陌陌深度学习实验室，6 年多计算机视觉从业经验，拥有丰富的传统图像算法和深度学习图像项目经验，拥有技术公众号《有三 AI》，著有书籍《深度学习之图像识别：核心技术与案例实战》。

原文链接

https://mp.weixin.qq.com/s/eyIeLaBZ0f_EsxglsUuH8A

评论

发布

暂无评论

看完这篇，DWS故障修复不再愁

华为云开发者联盟

数据库后端华为云华为云开发者联盟企业号 5 月 PK 榜

深度学习基础入门篇[9.2]：卷积之1*1 卷积（残差网络）、2D/3D卷积、转置卷积数学推导、应用实例

汀丶人工智能

人工智能神经网络深度学习卷积网络卷积核

BSC智能链游戏链系统开发解析

区块链追溯系统开发元宇宙元宇宙系统开发

【实践篇】领域驱动设计：DDD工程参考架构 | 京东云技术团队

京东科技开发者

领域驱动设计 DDD 企业号 5 月 PK 榜工程架构

LED显示屏如何做到节能

效率能源节能 LED显示屏

非常实验——在SSH下通过终端浏览网页

吴脑的键客

浏览器终端工具

【程序员日记】——从业务编排到低代码 | 京东云技术团队

京东科技开发者

低代码业务企业号 5 月 PK 榜业务编排

用写代码的方式画图-试下PlantUML吧 | 京东云技术团队

京东科技开发者

开发工具 PlantUML 画图软件企业号 5 月 PK 榜

OpenHarmony社区运营报告（2023年4月）

OpenHarmony开发者

硬核！互联网资深大佬手码高并发编程速成笔记（2023版）限时开源

Java 并发编程高并发

面试官：你能和我说一下 CMS 垃圾回收器吗？

算法 CMS JVM 垃圾回收器垃圾收集器

rt下降40%？程序并行优化六步法 | 京东云技术团队

京东科技开发者

性能优化异步编程企业号 5 月 PK 榜多线程优化并发框架

关于PCBA元器件布局的重要性

工具元器件 PCB 布局 PCB设计

聊聊万亿流量场景下的负载均衡实践

负载均衡 ssm 高并发 DNS 负载均衡架构

真香！阿里最新产出分布式进阶实战手册，涵盖分布式架构所有操作

架构微服务架构 Spring Cloud Spring Boot ssm

敏捷开发：新一代软件开发模式的优越性与挑战

Java 架构开发效率

线上问题处理案例：出乎意料的数据库连接池 | 京东云技术团队

京东科技开发者

数据库 GC 线上问题数据库连接池企业号 5 月 PK 榜

TF游戏Ai智能系统开发

系统开发区块链、智能运维AIOps

为什么MySQL单表不能超过2000万行？

华为云开发者联盟

数据库后端华为云华为云开发者联盟企业号 5 月 PK 榜

软件测试/测试开发丨Python基本数据类型之字符串

Python 软件测试自动化测试测试开发

软件测试/测试开发丨Python控制流–分支判断和循环

Python 软件测试自动化测试测试开发

Seata 的可观测实践

阿里巴巴云原生

阿里云云原生 seata

抠图党福音：教你一键分割图像

华为云开发者联盟

华为云华为云开发者联盟企业号 5 月 PK 榜人工资高hi嗯呢该分割图像

2023语言与智能技术竞赛开辟“双赛道”：寻找“全民测评官”，探索AI多模态能力

飞桨PaddlePaddle

为什么我们拥有庞大的语言模型，而Vision Transformers的规模却很小？

人工智能深度学习计算机视觉白海科技 Vision Transformers

深度学习基础入门篇[9.1]：卷积之标准卷积：卷积核/特征图/卷积计算、填充、感受视野、多通道输入输出、卷积优势和应用案例讲解

汀丶人工智能

人工智能神经网络深度学习卷积网络卷积相关算子

2023数字中国建设峰会：百度点石获开放群岛开源社区优秀共建单位

火山引擎DataTester：小改动带来大收益，A/B实验助力幸福里APP精准优化

字节跳动数据平台

ab测试 A/B 测试

如何使用、部署 Auto-GPT？系统开发技术分析

系统开发区块链、 autogpt