写点什么

AI 抠图:基于影像去背的海报艺术字体提取

2020 年 3 月 02 日

AI 抠图:基于影像去背的海报艺术字体提取

海报,是电影的第二张脸。


在传媒影视行业,电影、电视剧的宣发涉及大量海报的使用。相比文字宣传,图片海报表意更直观,也更易于传播,其中的艺术字体更是点睛之处,在所有造势海报中都固定出现。


为了制作影视作品相关的广告物料,传媒公司通常需要让经验丰富的设计师手动抠取片方海报中的艺术字体元素,这种做法既浪费人力,效率也十分低下。同时,目前业内已有的商业抠图工具大多关注人物,还没有专门针对艺术字体的可落地解决方案。



抠图前(上)和抠图后(下)


在与国内某文化类上市公司的合作过程中,才云科技针对传媒行业的这项痛点,基于 AI 中台 Caicloud Clever 训练了一个海报艺术字体提取工具。用户输入原始海报即可获得轮廓精准、细节清晰的艺术字体。


面向艺术字体提取的影像去背

为了高效提取艺术字体,才云 Cabernet 团队采取的方法是利用深度学习实现影像去背(Image Matting)。


影像去背即给定一幅图像,将需要的部分(前景)从背景中抠取出来。当前这种技术已经在多个领域有实际应用,比如手机的背景虚化功能就是利用算法抠除主体,对背景进行单独的虚化处理;特效电影采用绿幕拍摄,也是为了后期利用影像去背将人物放在新制作的背景上。


相比已经非常成熟的人物抠取,艺术字体影像去背的主要难点还是在于轮廓界定和数据量。


影像去背的第一步是分离艺术字体和海报背景。工程师需要计算艺术字体中每个像素的透明度,以此获得阿法遮罩,然后利用阿法遮罩实现前后景分离。但目前计算阿法遮罩还没有纯数学上的解决办法,仍依赖 Trimap 辅助。



来源:NVIDIA 大会


Trimap 是一种静态图像抠图算法,即将图像粗略划分为前景、背景和待求未知区域。艺术字体轮廓复杂多变,目前依赖算法的自动化抠图方法还有很大局限,无法精准抠出字体。而为了让 AI 模型的性能真正达到落地应用的程度,模型训练必须具备大量海报原图及对应的高精度阿法遮罩。由于自动化的 Trimap 分割精度不够,分离海报前后景的工作势需要大量人工参与。这显然不适用于传媒行业的人力现状,也违背自动化工具的设计初衷。


基于 Caicloud Clever 定制解决方案

综合以上难点,整个艺术字体提取任务其实可以被简单拆分成两部分:自动化前后景分割和数据生成。


才云 Cabernet 团队参考了近两年学界、工业界在这些问题上的进展,最后选取了一种在某电商平台已实现广泛应用的新型成果。借助 Caicloud Clever 丰富的深度学习框架、强大的硬件资源管理能力以及高效的模型开发能力,团队最后成功复现了该方案,且完美适应传媒行业的需求。



自动化前后景分割

上图是实现高精度前后景分割的流程示意图。简而言之,它先通过原图生成 Trimap,再通过原图和 Trimap 捕捉细节信息并生成初步的阿法遮罩,最后通过加权融合进一步细化阿法遮罩,实现精准分割。


整个流程的第一部分是一个经典的语义分割问题。输入原图后,模型输出的是图中每个像素点所属的类别,通常是 N 色图,N 就是图中包含的物体类别的数量(在我们的例子中是 Trimap:前景、背景、不确定)。如下图所示:



来源:公开数据集


对于第二部分,网络结构采用了较为经典的 encoder-decoder 结构。输入原图及 Trimap 后,它会细化不确定区域的分类,生成初步的阿法遮罩。encoder 采用的是预训练的 VGG16 的部分网络层。decoder 通过 upsampling 将图像还原到原始大小。流程中的 Fusion Module 负责将 Trimap 和初步的阿法遮罩进行结合,选取前者的前景部分和后者不确定区域部分,得到最终的阿法遮罩。


数据生成

如前文所述,因为真实数据有限,企业在训练模型时往往需要依赖人工抠取的图像集,杯水车薪,难以保障模型的最终性能。


在原有解决方案的基础上,Cabernet 团队针对艺术字体去背给出了一种数据增强方法,即爬取可使用的背景、纹理素材及多样的字体库,并通过给定流程生成尽可能逼真的图像样本。


通过这个数据合成流程,Cabernet 团队只用了 100 多张原始图片就完成了训练,且最终模型性能完全满足企业在生产环境中的应用需要。


未来:进一步优化

以下是模型输出的部分示例:



正如一开始所说的,才云 Cabernet 团队的目标是开发出一个具有落地应用意义的企业级深度学习解决方案。


事实证明,虽然企业对 AI 技术的应用态度近几年已发生转变,但从客户成功的角度看,他们想要的并不只是一种替换旧有工具的新型自动化工具,他们更希望借助第三方提供的成熟 AI 平台能力,让自己具备 AI 开发能力,去自主规划、实现商业模式的创新和业务转型。而这,正是他们选择 Caicloud Clever AI 中台的原因。


目前,上述解决方案已经可以满足传媒行业的基本需求,但受限于技术本身的成熟度,模型在处理复杂光泽纹理时,生成效果还有所欠缺。为了精益求精,未来,Cabernet 团队将进一步优化模型性能,并开发适用于更多场景的解决方案。


本文转载自才云 Caicloud 公众号。


原文链接:https://mp.weixin.qq.com/s/biG0JAPf9KhsSlj0I7ZsRQ


2020 年 3 月 02 日 22:18426

评论

发布
暂无评论
发现更多内容

虚拟路由器冗余协议 VRRP 详解

算法攻关 - 重上到下打印二叉树 (O(n))_offer32

小诚信驿站

刘晓成 小诚信驿站 28天写作 算法攻关 从上到下打印二叉树

css高度坍塌与清除浮动

依旧廖凯

三月日更 28天挑战

【LeetCode】设计哈希集合Java题解

HQ数字卡

算法 LeetCode 28天写作 三月日更

数据类型

在即

28天写作 28天挑战 3月日更

2021字节面经最新整理: 面试真经/思维导图/学习笔记!火遍全网

比伯

Java 编程 架构 面试 计算机

资深大牛带你了解源码!最详细的docker中安装并配置redis,实战解析

欢喜学安卓

android 程序员 面试 移动开发

数据类型

在即

28天写作 28天挑战 3月日更

滚雪球学 Python 之怎么玩转时间和日期库

梦想橡皮擦

28天写作 三月日更

优雅编程 | Javascript闭包的4种高级用法

devpoint

闭包 防抖 节流 闭包要点

Elasticsearch 近实时搜索 Near Real-Time Search

escray

elastic 28天写作 死磕Elasticsearch 60天通过Elastic认证考试 三月日更

太赞了!终于有清华大牛把对标阿里P7面试题库收录成册,全网开源了!

程序员小毕

Java 程序员 面试 offer 字节

数字化“翻译官”

boshi

数字化 日更挑战

万事开头难——人为推进效应

Justin

心理学 28天写作 游戏设计

厦门,第27届中国国际广告节即将如约而至;网络广告市场规模达6464.3亿!

󠀛Ferry

日更挑战 三月日更

Zookeeper.01 - 简介

insight

zookeeper 三月日更

【办公自动化】打卡示范

Tango

办公自动化 三月日更 IT蜗壳教学

《经济学人》2021年3月13日刊精彩文章导读及资源免费下载

wbliu85

对话微众和红枣:预言机是区块链提供可信数据的基础设施

CECBC区块链专委会

区块链

阿里高可用、高并发不传之秘!Spring Cloud+Nginx架构核心编程笔记限时开源!

程序员小毕

nginx 架构 分布式 高并发 SpringCloud

微服务学习笔记

lenka

三月日更

MySQL主从复制机制

luojiahu

MySQL 主从复制

资深大牛带你了解源码!面试题解析已整理成文档,已拿offer

欢喜学安卓

android 程序员 面试 移动开发

Python 日期格式和时间以及当前时间和时间戳

HoneyMoose

浅谈数仓、数仓模型分层

白程序员的自习室

大数据 解决方案 通用设计模型 数仓

寻找被遗忘的勇气(十三)

Changing Lin

三月日更

[转]html5设计原理

小江

你最喜欢的奥斯卡电影是哪部?

wbliu85

熟练使用SSH客户端常用工具SecureCRT

xiezhr

Linux SSH securecrt SSH工具

代码审查:从 ArrayList 说线程安全

mzlogin

Java 代码审查

进入大厂的简历应该是什么样子

我是程序员小贱

三月日更

AI 抠图:基于影像去背的海报艺术字体提取-InfoQ