用深度神经网络生成以假乱真的“照片”_语言 & 开发_sai

东亚银行、岚图汽车带你解锁 AIGC 时代的数字化人才培养各赛道新模式！了解详情 



 写点什么

2016 年 12 月 20 日，The Verge 发布了一篇报道《 Artificial intelligence is going to make it easier than ever to fake images and video 》（姑且译为《AI，人类再也无法阻挡的 P 图大师》）。其中，进化 AI 实验室 Evolving AI Lab 的实验室主任 Jeff Clune 分享了大量近年来 AI 在图像处理方面的进展。

本文整理出该报道中提及的论文和项目，以供参考。此外，Evolving AI Lab 近年来还有很多各方面的有趣成果，也在此推荐。

从DeepVis 到PPGN

2015 年，深度神经网络（DNN）已经能够比较准确的识别照片类图像中的各种对象。然而，当人们尝试用 DNN 去生成指定对象类型的图像（比如，一辆校车）时，却发现完全不是那么一回事。

图：DNN 生成的“校车”

Anh Nguyen、Jason Yosinski 和 Jeff Clune 在 CPVR’15 发布了一篇论文 Deep neural networks are easily fooled ，介绍他们把此类生成的图像丢给其他的 DNN（包括当时最前沿的 LeNet）进行辨认，结果发现大部分 DNN 都开始“犯傻”：

图：LeNet 认为上面这几张图都是手写的数字“0”

接下来，该研究组进一步深入探索：DNN 在学习过程中究竟发生了什么？其识别一粒棒球、一辆校车或一个手写数字的依据是什么，为何会把在人眼看来完全无意义的图像识别为有意义的对象？同年，他们在 ICML 上又发布了一篇报告 Understanding Neural Networks Through Deep Visualization （论文下载），并在Github 上分享了论文中用到的工具 DeepVis Toolbox 。通过该工具，人可以直观的看到当 DNN 接受到一张图片时，具体活跃的是哪些神经节点，以及不同的神经节点是因为哪些特征而被触发。

图：当前选中的神经节点对“车轮”产生了反应

由此，研究组得以发现，当时大部分的 DNN 在识别图像中对象的过程中主要依据的特征是一些局部的独特痕迹（如豹子身上的斑点、校车的黑黄色），而忽略了整体特征（如海星的五角星形状、豹子长了四条腿）。

知道了 DNN 所忽略的特征，从而有针对性的进行算法的改进，就有可能大幅提升 DNN 生成指定图像的能力。2016 年，该研究组先后发布了两篇论文介绍 Deep Generator Networks（DGN）以及其改良版 Plug & Play Generative Networks（PPGN），这些改良后的神经网络——创作网络 Generator Network——足以生成以假乱真的图片：

图：PPGN 生成的火山“照片”

图：向 PPGN 输入词组“a_church_steeple_that_has_a_clock_on_it”所获得的图像

现在，深度神经网络的“创作能力”已经能够胜任很多复杂的工作，比如各种“玩脸”、改图，甚至还能够给视频自动配音。

2015-2016，AI 的创作力

用 2D 照片创建人脸 3D 模型

Shunsuke Saito 等人于2016 年12 月发布在ArXiv 的论文中介绍了一种方法，通过深度神经网络提取2D 照片中的人脸特征，创建出完整的面部3D 模型。点击这里查看该论文在YouTube 上的介绍视频。

图：根据低分辨率照片生成的面部3D 模型

Smile Vector

Tom White （ @dribnet ）在 2016 年 5 月上线了一个 Twitter 机器人 Smile Vector ，可自动为图片中的人脸添加微笑（以及其他表情）。相关论文 Sampling Generative Networks 在 2016 年 9 月发布，并在2016 年12 月的NIPS 大会上进行了演示。

Face2Face

Justus Thies 等人发布在 CVPR 2016 上的报告 Face2Face: Real-time Face Capture and Reenactment of RGB Videos 中介绍了一种方法，将摄像头前（就是普通的消费级摄像头）的演员的面部表情“实时移植”到一段视频中的人物脸上。

图：“表情移植”

川普变光头

Samson ，一个将辩论视频中的川普实时替换成光头的小程序。

图：变成光头的川普

永驻银屏的Joey

Virtual Immortality，来自英国利兹大学的研究成果，发布在 2016 年 10 月的 VARVAI Workshop 。该研究组让神经网络学习了 236 集《老友记》，实现了一个“可以在任何视频中乱入、做各种Joey 风格动作、讲各种Joey 风格台词的Joey ”（论文下载）。

图：AI 生成的乱入Joey

照片补光（Image Relighting）

微软研究院在SIGGRAPH 2015 上发布的报告 Image Based Relighting Using Neural Networks 介绍了一种给照片补光的深度学习方法。该成果被 Two Minute Papers 做成了视频短片发布在YouTube 。

图：用深度神经网络给照片补光

把照片变成梵高的画

画风移植（Style Transfer）是一项已经在图像处理领域发展了多年的技术。The Verge 的这篇报道中提及了一个用神经网络进行艺术作品画风移植的实现，源自Leon A. Gatys 等人在2015 年8 月发布的一篇论文 A Neural Algorithm of Artistic Style ，其效果如下：

该研究组已经将论文中使用的代码分享至Github ，普通用户可以在 Deepart 网站或者 Prisma App 上体验该算法的效果。此外，Facebook App 也在2016 年底上线了类似的实现（相关论文在此查看）。

看图创作配音

MIT AI 实验室在 2015 年 12 月发布的论文 Visually Indicated Sounds （下载），介绍一种根据图像生成匹配声音的算法。该算法使用一个循环神经网络 recurrent neural network，根据视频中的图像内容（如草坪、水、塑料袋或布料被其他物体触碰）预测声音的特征，并基于声音库生成对应的波形。

总结

如上所述，AI 的“创作能力”正在快速提升。此类创作能力将适用于图像、音视频、文字等各种媒介，并且快速的从实验室走到普通消费者的手中。在这一过程中，相信无论对于开发者还是对于内容创作者，都蕴藏着大量的机遇。

发布

暂无评论

创作场景

用深度神经网络生成以假乱真的“照片”

评论

Plato Farm有望通过Elephant Swap，进一步向外拓展生态

浅谈低代码技术在物流运输平台中的搭建与管理

干货|语义网、Web3.0、Web3、元宇宙这些概念还傻傻分不清楚？（中）

Redis为什么这么快？Redis的线程模型与Redis多线程

什么是RPC？RPC框架dubbo的核心流程

「中高级试题」：MVCC实现原理是什么？

聚力打造四个“高地”，携手合作伙伴共铸国云！

天翼云Web应用防火墙（边缘云版）支持检测和拦截Apache Spark shell命令注入漏洞

参加前端培训班学web前端技术靠谱吗

敲黑板画重点：七种常见“分布式事务”详解

深度学习3D人体姿态估计国内外研究现状及痛点

目标检测网络R-CNN 系列

数据泄漏、删除事件频发，企业应如何构建安全防线？

一百五十个终极Java 经典面试题（你会多少题？）

大数据培训机构有哪些值得推荐？

在北京选择前端培训班学习大数据

万字长文，浅谈企业数字化建模蓝图

10 万字节Spring Boot +redis详细面试笔记(带完整目录)免费分享

@千行百业，一起乘云而上！

技术分享：国民远控向日葵如何通过BBR算法提升远控体验？

向日葵远程控制为何采用BGP服务器？自动最优路线、跨运营商高速传输

iOS单元测试的那些事儿

海外APP推送（下篇）：海外厂商通道集成指南

银行业客户体验管理现状与优化策略分析

TDSQL-C Serverless:助力初创企业实现降本增效

百问百答第48期：极客有约——可观测体系的建设路径

面试京东T5，被按在地上摩擦，鬼知道我经历了什么？

行业案例｜指标中台如何助力银行业普惠金融可持续发展

最新战报：十项认证，五项最佳实践

尤雨溪向初学者推荐Vite 【为什么使用Vite】

公司刚来的阿里p8，看完我构建的springboot框架，甩给我一份文档

创作场景

用深度神经网络生成以假乱真的“照片”

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载