NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

深度学习自动构图研究报告

  • 2019-09-11
  • 本文字数:1803 字

    阅读完需:约 6 分钟

深度学习自动构图研究报告


今天带来基于深度学习的图像构图的研究报告,主要涉及了基于 CNN 的图像剪裁方法的研究现状、数据集的发展、以及现有应用。

什么是自动切图

我们在拍摄照片后,第一步要做的就是图像裁剪,也称为后期构图。构图,用于合理安排画面中的元素分布,提升照片的美感。


构图的自动化【1】既可以用于拍摄之前的构图推荐,也可以用于拍摄之后的自动调整,在许多的缩略图自动裁剪中也有用处,甚至用于自动拍照。


我在公众号和知乎的专栏中已经多次讲过计算机美学了,也介绍过现有的产品,所以这里不再过多赘述。下面我们说说计算机构图的原理。

计算机构图的研究方法

接下来我们从这 2 个方面来讲讲计算机构图算法的原理。

1.1 显著目标方法

【2-3】也称之为 Attention-Based 的方法,它基于一个假设,图像中最显著的区域即照片中最相关的部分,因此我们应该保留最相关的部分,而裁剪其他部分。



如上面左图 1,2 是显著目标概率图,裁剪的时候就在保留显著目标的同时,裁剪掉了其他部分。


这类方法的目标就是研究如何用最小的剪裁窗口使得注意力(图像显著特性)总和最大化,它缺少对图像构图准则以及美学质量的考量,可能会导致剪裁出来的图像不美观。因为已经不是主流研究方法,就不细细说明了。

1.2 美学方法

基于显著目标的方法不是现在的主流,而基于美学的方法更加符合摄影师构图的原理,它要求裁剪出美学质量分数更高的区域。



上图文【4】是比较早的研究思路,它通过滑动窗口的方法获取一系列的候选裁剪框,然后从中选择美学分数最高的。这一类方法的问题就是效率太低,计算量太高,根本无法实用。



文【5】提供了不同的思路,如上图。它训练了一个显著目标检测网络,可以得到显著目标区域的初始化框,在它的附近,就可以采用不同的大小和比例,获取一系列候选的裁剪框,网络如下。



训练了另一个美学评估网络,用于选取美学分数更高的裁剪框。由于这个方法,只需要 1 次特征提取,且两个网络共享了若干神经网络卷积层,大大提高了剪裁窗口获取的效率,网络如下。



文【6】使用增强学习来更高效地搜索裁剪框,网络结构如下。



相比上面的两种方法,它需要更少的候选窗口与更少的运行时间,可以获得任意尺度位置更精确的剪裁窗口。


最新的研究来自于 adode 2018 年[7]的文章。该文章包含了两个网络,一个是 view proposal network,用于提取候选框。另一个是 view evaluation net,用于从候选框中选择美学价值最高的,网络如下。



该文另一个贡献是整理了一个大型高质量的数据集,因为现有的数据集太小是限制研究的最主要原因。

数据集

下面介绍两个主要的数据集。

1.1 FCDB

FCDB【1】数据集是一个专门为图像剪裁而设计构建的数据集。这个数据集一共包含 1743 张经过人工标记剪裁窗口的图片与 34130 张与原始图像相匹配的剪裁图像对。数据集里的每张照片都从专业摄影照片分享社区 Flickr 上下载后经人工筛选得到,具有较高的美学特征与较好的构图。

1.2 CPC[7]

这是 adobe 整理的,包含 10800 张图,超过 1 million 的图像对,每一个图像对就是原图和它的裁剪图,他们会有相对美学的标注。为了保证分布的广泛性,不仅选择了专业的图片,也选择了日常生活中的图片。


另外还有一些小的数据集,不一一列举。

优化目标

怎么评估一个自动裁剪算法的好坏呢?下面介绍两个。

3.1 IoU


平均交叉区域 average intersection-over-union,这也是目标检测中使用的优化目标。上式中 N 为输入图片的总数,wig 为第 i 幅输入图像 ground truth 的窗口,wic 为不同方法剪裁出的第 i 幅输入图像的最优窗口,IoU 的值越大说明剪裁的最优窗口与 ground truth 的窗口越接近,即剪裁的效果越好。

3.2 平均边界位移


平均边界位移 average boundary displacement。上式中 N 为输入图片的总数,


big(l,r,u,d)为第 i 幅输入图像 ground truth 的窗口 4 条边与原图像对应边的距离,bic(l,r,u,d)为不同方法剪裁出的第 i 幅输入图像的最优窗口 4 条边与原图像对应边的距离,Disp 的值越小说明剪裁的最优窗口与 ground truth 的窗口越接近,即剪裁的效果越好。

总结

随着研究人员的活跃和数据集的增长,自动构图算法一定会在这几年得到快速的发展。


作者介绍


言有三,真名龙鹏,曾先后就职于奇虎 360AI 研究院、陌陌深度学习实验室,6 年多计算机视觉从业经验,拥有丰富的传统图像算法和深度学习图像项目经验,拥有技术公众号《有三 AI》,著有书籍《深度学习之图像识别:核心技术与案例实战》。


原文链接


https://mp.weixin.qq.com/s/eyIeLaBZ0f_EsxglsUuH8A


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-09-11 20:312737

评论

发布
暂无评论
发现更多内容

黑龙江哈尔滨市等保测评机构有五家啦!名单看这里!

行云管家

等保 机构 等保测评 哈尔滨

用Docker在本地搭建nginx静态服务器&反向代理

致知Fighting

Java Docker 后端

瓴羊Quick BI可视化功能,满足企业的数据分析需求

对不起该用户已成仙‖

炸了!3年图片都没了

艾小仙

电阻为什么都是4.7kΩ、5.1kΩ,而不是整数5kΩ?

元器件秋姐

科普 元器件 元器件知识 电阻 电阻值

多款社交黑马海外霸榜,融云全球通信服务护航登顶

融云 RongCloud

国际财务系统基于ShardingSphere的数据分片和一主多从实践

京东科技开发者

数据库 数据分片 ShardingSphere 企业号 2 月 PK 榜 一主多从

连续两年榜上有名!TDengine 荣获墨天轮“2022 年度时序数据库”奖项

TDengine

数据库 tdengine 时序数据库

飞桨特色产业级模型库助力AI开发与落地更简单

飞桨PaddlePaddle

paddle 开源 模型 飞桨

Maven Shade插件relocation修改类常量的问题

Laughing

Java 后端 Maven-Shade-Plugin RelocationClass

拥有了瓴羊Quick BI,企业的数据分析变得更好

巷子

QCon演讲实录(下):多云管理关键能力实现与解析-AppManager

阿里云大数据AI技术

大数据 运维 多云服务 多云管理

使用自定义的初始化方法宏(OC)

刿刀

完美主义者友好!合合信息旗下扫描全能王“智能擦除”照片中的杂物

合合技术团队

人工智能 图片 文本

墨天轮【第二届数据库掌门人论坛】圆满收官 | 含嘉宾精彩观点回顾

墨天轮

数据库 Serverless TiDB oceanbase 国产数据库

程序员超级干货书单:技术人必看

引迈信息

程序员 敏捷开发 书单

大模型为什么是深度学习的未来?

蓝海大脑GPU

人工智能 深度学习 大模型

使用 Ingest Pipeline 在 Elasticsearch 中对数据进行预处理

Se7en

有了瓴羊Quick BI,企业再也不必担心可视化分析情况

小偏执o

更专业、安全、可控!政企都选择WorkPlus私有化部署

WorkPlus

什么是网关型堡垒机?与运维审计堡垒机有什么区别?

行云管家

堡垒机 堡垒机网络安全

百分点科技宣布接入百度文心一言能力 数据科学基础平台获领先AI技术加持

百分点科技技术团队

关系型数据库的架构演变

石臻臻的杂货铺

数据库 架构

直播 | StarRocks 实战系列第二期--导入优化&问题排查

StarRocks

数据库 开源

利用DUCC配置平台实现一个动态化线程池

京东科技开发者

spring 多线程 代码 动态线程池 ducc

WorkPlus即时通讯集成工作平台,提效企业一体化管控

WorkPlus

基于开源IM即时通讯框架MobileIMSDK:RainbowChat v8.4版已发布

JackJiang

即时通讯 即时通讯IM

飞桨框架v2.4 API新升级!全面支持稀疏计算、图学习、语音处理等任务

百度Geek说

API 框架 3D点云 企业号 2 月 PK 榜 Sparse Transformer

可靠、稳定、安全,龙蜥云原生容器镜像正式发布!

OpenAnolis小助手

开源 容器 云原生 镜像 龙蜥社区

90%企业在探索的敏捷开发怎么做?极狐GitLab总结了这些逻辑与流程

极狐GitLab

DevOps 敏捷开发 持续集成 CI/CD 持续交付

英特尔研究院探索负责任的生成式AI,让AI应用真正惠及大众

科技之家

深度学习自动构图研究报告_AI&大模型_言有三_InfoQ精选文章