用深度神经网络生成以假乱真的“照片”

  • 杨赛

2016 年 12 月 25 日

话题:语言 & 开发架构

2016 年 12 月 20 日,The Verge 发布了一篇报道《Artificial intelligence is going to make it easier than ever to fake images and video》(姑且译为《AI,人类再也无法阻挡的 P 图大师》)。其中,进化 AI 实验室 Evolving AI Lab 的实验室主任Jeff Clune分享了大量近年来 AI 在图像处理方面的进展。

本文整理出该报道中提及的论文和项目,以供参考。此外,Evolving AI Lab 近年来还有很多各方面的有趣成果,也在此推荐。

从 DeepVis 到 PPGN

2015 年,深度神经网络(DNN)已经能够比较准确的识别照片类图像中的各种对象。然而,当人们尝试用 DNN 去生成指定对象类型的图像(比如,一辆校车)时,却发现完全不是那么一回事。

图:DNN 生成的“校车”

Anh Nguyen、Jason Yosinski 和 Jeff Clune 在 CPVR'15 发布了一篇论文Deep neural networks are easily fooled,介绍他们把此类生成的图像丢给其他的 DNN(包括当时最前沿的 LeNet)进行辨认,结果发现大部分 DNN 都开始“犯傻”:

图:LeNet 认为上面这几张图都是手写的数字“0”

接下来,该研究组进一步深入探索:DNN 在学习过程中究竟发生了什么?其识别一粒棒球、一辆校车或一个手写数字的依据是什么,为何会把在人眼看来完全无意义的图像识别为有意义的对象?同年,他们在 ICML 上又发布了一篇报告Understanding Neural Networks Through Deep Visualization论文下载),并在 Github 上分享了论文中用到的工具DeepVis Toolbox。通过该工具,人可以直观的看到当 DNN 接受到一张图片时,具体活跃的是哪些神经节点,以及不同的神经节点是因为哪些特征而被触发。

图:当前选中的神经节点对“车轮”产生了反应

由此,研究组得以发现,当时大部分的 DNN 在识别图像中对象的过程中主要依据的特征是一些局部的独特痕迹(如豹子身上的斑点、校车的黑黄色),而忽略了整体特征(如海星的五角星形状、豹子长了四条腿)。

知道了 DNN 所忽略的特征,从而有针对性的进行算法的改进,就有可能大幅提升 DNN 生成指定图像的能力。2016 年,该研究组先后发布了两篇论文介绍Deep Generator Networks(DGN)以及其改良版Plug & Play Generative Networks(PPGN),这些改良后的神经网络——创作网络 Generator Network——足以生成以假乱真的图片:

图:PPGN 生成的火山“照片”

图:向 PPGN 输入词组“a_church_steeple_that_has_a_clock_on_it”所获得的图像

现在,深度神经网络的“创作能力”已经能够胜任很多复杂的工作,比如各种“玩脸”、改图,甚至还能够给视频自动配音。

2015-2016,AI 的创作力

用 2D 照片创建人脸 3D 模型

Shunsuke Saito 等人于 2016 年 12 月发布在 ArXiv 的论文中介绍了一种方法,通过深度神经网络提取 2D 照片中的人脸特征,创建出完整的面部 3D 模型。点击这里查看该论文在 YouTube 上的介绍视频

图:根据低分辨率照片生成的面部 3D 模型

Smile Vector

Tom White@dribnet)在 2016 年 5 月上线了一个 Twitter 机器人Smile Vector,可自动为图片中的人脸添加微笑(以及其他表情)。相关论文Sampling Generative Networks在 2016 年 9 月发布,并在 2016 年 12 月的 NIPS 大会上进行了演示

Face2Face

Justus Thies等人发布在 CVPR 2016 上的报告Face2Face: Real-time Face Capture and Reenactment of RGB Videos中介绍了一种方法,将摄像头前(就是普通的消费级摄像头)的演员的面部表情“实时移植”到一段视频中的人物脸上。

图:“表情移植”

川普变光头

Samson,一个将辩论视频中的川普实时替换成光头的小程序。

图:变成光头的川普

永驻银屏的 Joey

Virtual Immortality,来自英国利兹大学的研究成果,发布在2016 年 10 月的 VARVAI Workshop。该研究组让神经网络学习了 236 集《老友记》,实现了一个“可以在任何视频中乱入、做各种 Joey 风格动作、讲各种 Joey 风格台词的 Joey”(论文下载)。

图:AI 生成的乱入 Joey

照片补光(Image Relighting)

微软研究院在 SIGGRAPH 2015 上发布的报告Image Based Relighting Using Neural Networks介绍了一种给照片补光的深度学习方法。该成果被Two Minute Papers做成了视频短片发布在 YouTube

图:用深度神经网络给照片补光

把照片变成梵高的画

画风移植(Style Transfer)是一项已经在图像处理领域发展了多年的技术。The Verge 的这篇报道中提及了一个用神经网络进行艺术作品画风移植的实现,源自 Leon A. Gatys 等人在 2015 年 8 月发布的一篇论文A Neural Algorithm of Artistic Style,其效果如下:

该研究组已经将论文中使用的代码分享至 Github,普通用户可以在Deepart 网站或者Prisma App上体验该算法的效果。此外,Facebook App 也在 2016 年底上线了类似的实现相关论文在此查看)。

看图创作配音

MIT AI 实验室在 2015 年 12 月发布的论文Visually Indicated Sounds下载),介绍一种根据图像生成匹配声音的算法。该算法使用一个循环神经网络 recurrent neural network,根据视频中的图像内容(如草坪、水、塑料袋或布料被其他物体触碰)预测声音的特征,并基于声音库生成对应的波形。

总结

如上所述,AI 的“创作能力”正在快速提升。此类创作能力将适用于图像、音视频、文字等各种媒介,并且快速的从实验室走到普通消费者的手中。在这一过程中,相信无论对于开发者还是对于内容创作者,都蕴藏着大量的机遇。

语言 & 开发架构