“AI 技术+人才”如何成为企业增长新引擎?戳此了解>>> 了解详情
写点什么

用深度神经网络生成以假乱真的“照片”

  • 2016-12-25
  • 本文字数:2147 字

    阅读完需:约 7 分钟

2016 年 12 月 20 日,The Verge 发布了一篇报道《 Artificial intelligence is going to make it easier than ever to fake images and video 》(姑且译为《AI,人类再也无法阻挡的 P 图大师》)。其中,进化 AI 实验室 Evolving AI Lab 的实验室主任 Jeff Clune 分享了大量近年来 AI 在图像处理方面的进展。

本文整理出该报道中提及的论文和项目,以供参考。此外,Evolving AI Lab 近年来还有很多各方面的有趣成果,也在此推荐。

从DeepVis 到PPGN

2015 年,深度神经网络(DNN)已经能够比较准确的识别照片类图像中的各种对象。然而,当人们尝试用 DNN 去生成指定对象类型的图像(比如,一辆校车)时,却发现完全不是那么一回事。

图:DNN 生成的“校车”

Anh Nguyen、Jason Yosinski 和 Jeff Clune 在 CPVR’15 发布了一篇论文 Deep neural networks are easily fooled ,介绍他们把此类生成的图像丢给其他的 DNN(包括当时最前沿的 LeNet)进行辨认,结果发现大部分 DNN 都开始“犯傻”:

图:LeNet 认为上面这几张图都是手写的数字“0”

接下来,该研究组进一步深入探索:DNN 在学习过程中究竟发生了什么?其识别一粒棒球、一辆校车或一个手写数字的依据是什么,为何会把在人眼看来完全无意义的图像识别为有意义的对象?同年,他们在 ICML 上又发布了一篇报告 Understanding Neural Networks Through Deep Visualization 论文下载),并在Github 上分享了论文中用到的工具 DeepVis Toolbox 。通过该工具,人可以直观的看到当 DNN 接受到一张图片时,具体活跃的是哪些神经节点,以及不同的神经节点是因为哪些特征而被触发。

图:当前选中的神经节点对“车轮”产生了反应

由此,研究组得以发现,当时大部分的 DNN 在识别图像中对象的过程中主要依据的特征是一些局部的独特痕迹(如豹子身上的斑点、校车的黑黄色),而忽略了整体特征(如海星的五角星形状、豹子长了四条腿)。

知道了 DNN 所忽略的特征,从而有针对性的进行算法的改进,就有可能大幅提升 DNN 生成指定图像的能力。2016 年,该研究组先后发布了两篇论文介绍 Deep Generator Networks(DGN)以及其改良版 Plug & Play Generative Networks(PPGN),这些改良后的神经网络——创作网络 Generator Network——足以生成以假乱真的图片:

图:PPGN 生成的火山“照片”

图:向 PPGN 输入词组“a_church_steeple_that_has_a_clock_on_it”所获得的图像

现在,深度神经网络的“创作能力”已经能够胜任很多复杂的工作,比如各种“玩脸”、改图,甚至还能够给视频自动配音。

2015-2016,AI 的创作力

用 2D 照片创建人脸 3D 模型

Shunsuke Saito 等人于2016 年12 月发布在ArXiv 的论文中介绍了一种方法,通过深度神经网络提取2D 照片中的人脸特征,创建出完整的面部3D 模型。点击这里查看该论文在YouTube 上的介绍视频

图:根据低分辨率照片生成的面部3D 模型

Smile Vector

Tom White @dribnet )在 2016 年 5 月上线了一个 Twitter 机器人 Smile Vector ,可自动为图片中的人脸添加微笑(以及其他表情)。相关论文 Sampling Generative Networks 在 2016 年 9 月发布,并在2016 年12 月的NIPS 大会上进行了演示

Face2Face

Justus Thies 等人发布在 CVPR 2016 上的报告 Face2Face: Real-time Face Capture and Reenactment of RGB Videos 中介绍了一种方法,将摄像头前(就是普通的消费级摄像头)的演员的面部表情“实时移植”到一段视频中的人物脸上。

图:“表情移植”

川普变光头

Samson ,一个将辩论视频中的川普实时替换成光头的小程序。

图:变成光头的川普

永驻银屏的Joey

Virtual Immortality,来自英国利兹大学的研究成果,发布在 2016 年 10 月的 VARVAI Workshop 。该研究组让神经网络学习了 236 集《老友记》,实现了一个“可以在任何视频中乱入、做各种Joey 风格动作、讲各种Joey 风格台词的Joey ”(论文下载)。

图:AI 生成的乱入Joey

照片补光(Image Relighting)

微软研究院在SIGGRAPH 2015 上发布的报告 Image Based Relighting Using Neural Networks 介绍了一种给照片补光的深度学习方法。该成果被 Two Minute Papers 做成了视频短片发布在YouTube

图:用深度神经网络给照片补光

把照片变成梵高的画

画风移植(Style Transfer)是一项已经在图像处理领域发展了多年的技术。The Verge 的这篇报道中提及了一个用神经网络进行艺术作品画风移植的实现,源自Leon A. Gatys 等人在2015 年8 月发布的一篇论文 A Neural Algorithm of Artistic Style ,其效果如下:

该研究组已经将论文中使用的代码分享至Github ,普通用户可以在 Deepart 网站或者 Prisma App 上体验该算法的效果。此外,Facebook App 也在2016 年底上线了类似的实现相关论文在此查看)。

看图创作配音

MIT AI 实验室在 2015 年 12 月发布的论文 Visually Indicated Sounds 下载),介绍一种根据图像生成匹配声音的算法。该算法使用一个循环神经网络 recurrent neural network,根据视频中的图像内容(如草坪、水、塑料袋或布料被其他物体触碰)预测声音的特征,并基于声音库生成对应的波形。

总结

如上所述,AI 的“创作能力”正在快速提升。此类创作能力将适用于图像、音视频、文字等各种媒介,并且快速的从实验室走到普通消费者的手中。在这一过程中,相信无论对于开发者还是对于内容创作者,都蕴藏着大量的机遇。

2016-12-25 18:007476

评论

发布
暂无评论
发现更多内容

非典型开发者的形象三变

脑极体

解密NFT,进军元宇宙,区块链与价值实体将如何链接?

CECBC

架构师实战营 模块九总结

代廉洁

架构实战营

聊聊实时数仓架构设计

水滴

实时数仓 数仓架构 8月日更 数仓建设思路

docker个人理解与安装

小鲍侃java

8月日更

架构师实战营 模块九作业(设计电商秒杀系统)

代廉洁

架构实战营

菜鸡学习python

Augus

8月日更

现代分布式架构设计原则-可靠性

余朋飞

稳定性 可用性 弹性 可靠性

gopher成长之路(二):听万俊峰老师演讲有感

非晓为骁

学习 个人成长 gopher

01 设计模式之单例模式

陈皮的JavaLib

设计模式 单例模式 8月日更

Python OpenCV 图像处理之傅里叶变换,取经之旅第 52 篇

梦想橡皮擦

8月日更

Git的基本操作

卢卡多多

git flow git reset 8月日更

【LeetCode】矩阵中战斗力最弱的 K 行Java题解

Albert

算法 LeetCode 8月日更

毕业设计-秒杀业务

白发青年

架构实战营

架构实战营毕业总结

白发青年

#架构实战营

网络攻防学习笔记 Day92

穿过生命散发芬芳

网络攻防 8月日更

手把手撸二叉树之叶子相似的树

HelloWorld杰少

面试 大前端 二叉树 数据结构与算法 8月日更

「SQL数据分析系列」13. 索引和约束

数据与智能

sql 索引 位图

服装生产流程管理在明道云的实现

明道云

具备货币属性的比特币,会成为一种货币吗?

CECBC

架构训练营模块 2 作业 - 学生信息管理系统的架构文档 - 江哲

江哲

带你全面了解 Git 系列 02 - 常用 Git 技巧

淼💦 淼

git GitHub

Convolutional Neural Network (CNN)

毛显新

神经网络 深度学习 tensorflow 图像识别

Linux中Shell重定向

入门小站

Linux

【前端 · 面试 】HTTP 总结(一)—— HTTP 概述

编程三昧

面试 大前端 HTTP 8月日更

李运华老师(前阿里P9)架构实战营 毕业总结

代廉洁

架构实战营

pyinstaller 打包

橙橙橙橙汁丶

做行业的底层架构者 为区块链+提供更多可能

CECBC

Java 代理模式

gin

Java 代理 Proxy

Discourse 图片上传的更新

HoneyMoose

架构实战营-毕业设计

泄矢的呼啦圈

架构实战营

用深度神经网络生成以假乱真的“照片”_语言 & 开发_sai_InfoQ精选文章