东亚银行、岚图汽车带你解锁 AIGC 时代的数字化人才培养各赛道新模式! 了解详情
写点什么

用深度神经网络生成以假乱真的“照片”

  • 2016-12-25
  • 本文字数:2147 字

    阅读完需:约 7 分钟

2016 年 12 月 20 日,The Verge 发布了一篇报道《 Artificial intelligence is going to make it easier than ever to fake images and video 》(姑且译为《AI,人类再也无法阻挡的 P 图大师》)。其中,进化 AI 实验室 Evolving AI Lab 的实验室主任 Jeff Clune 分享了大量近年来 AI 在图像处理方面的进展。

本文整理出该报道中提及的论文和项目,以供参考。此外,Evolving AI Lab 近年来还有很多各方面的有趣成果,也在此推荐。

从DeepVis 到PPGN

2015 年,深度神经网络(DNN)已经能够比较准确的识别照片类图像中的各种对象。然而,当人们尝试用 DNN 去生成指定对象类型的图像(比如,一辆校车)时,却发现完全不是那么一回事。

图:DNN 生成的“校车”

Anh Nguyen、Jason Yosinski 和 Jeff Clune 在 CPVR’15 发布了一篇论文 Deep neural networks are easily fooled ,介绍他们把此类生成的图像丢给其他的 DNN(包括当时最前沿的 LeNet)进行辨认,结果发现大部分 DNN 都开始“犯傻”:

图:LeNet 认为上面这几张图都是手写的数字“0”

接下来,该研究组进一步深入探索:DNN 在学习过程中究竟发生了什么?其识别一粒棒球、一辆校车或一个手写数字的依据是什么,为何会把在人眼看来完全无意义的图像识别为有意义的对象?同年,他们在 ICML 上又发布了一篇报告 Understanding Neural Networks Through Deep Visualization 论文下载),并在Github 上分享了论文中用到的工具 DeepVis Toolbox 。通过该工具,人可以直观的看到当 DNN 接受到一张图片时,具体活跃的是哪些神经节点,以及不同的神经节点是因为哪些特征而被触发。

图:当前选中的神经节点对“车轮”产生了反应

由此,研究组得以发现,当时大部分的 DNN 在识别图像中对象的过程中主要依据的特征是一些局部的独特痕迹(如豹子身上的斑点、校车的黑黄色),而忽略了整体特征(如海星的五角星形状、豹子长了四条腿)。

知道了 DNN 所忽略的特征,从而有针对性的进行算法的改进,就有可能大幅提升 DNN 生成指定图像的能力。2016 年,该研究组先后发布了两篇论文介绍 Deep Generator Networks(DGN)以及其改良版 Plug & Play Generative Networks(PPGN),这些改良后的神经网络——创作网络 Generator Network——足以生成以假乱真的图片:

图:PPGN 生成的火山“照片”

图:向 PPGN 输入词组“a_church_steeple_that_has_a_clock_on_it”所获得的图像

现在,深度神经网络的“创作能力”已经能够胜任很多复杂的工作,比如各种“玩脸”、改图,甚至还能够给视频自动配音。

2015-2016,AI 的创作力

用 2D 照片创建人脸 3D 模型

Shunsuke Saito 等人于2016 年12 月发布在ArXiv 的论文中介绍了一种方法,通过深度神经网络提取2D 照片中的人脸特征,创建出完整的面部3D 模型。点击这里查看该论文在YouTube 上的介绍视频

图:根据低分辨率照片生成的面部3D 模型

Smile Vector

Tom White @dribnet )在 2016 年 5 月上线了一个 Twitter 机器人 Smile Vector ,可自动为图片中的人脸添加微笑(以及其他表情)。相关论文 Sampling Generative Networks 在 2016 年 9 月发布,并在2016 年12 月的NIPS 大会上进行了演示

Face2Face

Justus Thies 等人发布在 CVPR 2016 上的报告 Face2Face: Real-time Face Capture and Reenactment of RGB Videos 中介绍了一种方法,将摄像头前(就是普通的消费级摄像头)的演员的面部表情“实时移植”到一段视频中的人物脸上。

图:“表情移植”

川普变光头

Samson ,一个将辩论视频中的川普实时替换成光头的小程序。

图:变成光头的川普

永驻银屏的Joey

Virtual Immortality,来自英国利兹大学的研究成果,发布在 2016 年 10 月的 VARVAI Workshop 。该研究组让神经网络学习了 236 集《老友记》,实现了一个“可以在任何视频中乱入、做各种Joey 风格动作、讲各种Joey 风格台词的Joey ”(论文下载)。

图:AI 生成的乱入Joey

照片补光(Image Relighting)

微软研究院在SIGGRAPH 2015 上发布的报告 Image Based Relighting Using Neural Networks 介绍了一种给照片补光的深度学习方法。该成果被 Two Minute Papers 做成了视频短片发布在YouTube

图:用深度神经网络给照片补光

把照片变成梵高的画

画风移植(Style Transfer)是一项已经在图像处理领域发展了多年的技术。The Verge 的这篇报道中提及了一个用神经网络进行艺术作品画风移植的实现,源自Leon A. Gatys 等人在2015 年8 月发布的一篇论文 A Neural Algorithm of Artistic Style ,其效果如下:

该研究组已经将论文中使用的代码分享至Github ,普通用户可以在 Deepart 网站或者 Prisma App 上体验该算法的效果。此外,Facebook App 也在2016 年底上线了类似的实现相关论文在此查看)。

看图创作配音

MIT AI 实验室在 2015 年 12 月发布的论文 Visually Indicated Sounds 下载),介绍一种根据图像生成匹配声音的算法。该算法使用一个循环神经网络 recurrent neural network,根据视频中的图像内容(如草坪、水、塑料袋或布料被其他物体触碰)预测声音的特征,并基于声音库生成对应的波形。

总结

如上所述,AI 的“创作能力”正在快速提升。此类创作能力将适用于图像、音视频、文字等各种媒介,并且快速的从实验室走到普通消费者的手中。在这一过程中,相信无论对于开发者还是对于内容创作者,都蕴藏着大量的机遇。

2016-12-25 18:007487

评论

发布
暂无评论
发现更多内容

Plato Farm有望通过Elephant Swap,进一步向外拓展生态

西柚子

浅谈低代码技术在物流运输平台中的搭建与管理

王平

干货|语义网、Web3.0、Web3、元宇宙这些概念还傻傻分不清楚?(中)

Orillusion

开源 WebGL 元宇宙 Metaverse webgpu

Redis为什么这么快?Redis的线程模型与Redis多线程

程序员啊叶

Java 编程 程序员 架构 Java 面试

什么是RPC?RPC框架dubbo的核心流程

程序员啊叶

Java 编程 程序员 架构 java面试

「中高级试题」:MVCC实现原理是什么?

程序员啊叶

Java 编程 程序员 架构 java面试

聚力打造四个“高地”,携手合作伙伴共铸国云!

天翼云开发者社区

云计算 云平台

天翼云Web应用防火墙(边缘云版)支持检测和拦截Apache Spark shell命令注入漏洞

天翼云开发者社区

Shell 防火墙

参加前端培训班学web前端技术靠谱吗

小谷哥

敲黑板画重点:七种常见“分布式事务”详解

程序员啊叶

Java 编程 程序员 架构 java面试

深度学习3D人体姿态估计国内外研究现状及痛点

阿炜小菜鸡

深度学习 人体姿态估计

目标检测网络R-CNN 系列

阿炜小菜鸡

深度学习 目标检测 7月月更

数据泄漏、删除事件频发,企业应如何构建安全防线?

京东科技开发者

公司管理 网络安全 安全 删库 程序员‘

一百五十个终极Java 经典面试题(你会多少题?)

程序员啊叶

Java 编程 程序员 架构 java面试

大数据培训机构有哪些值得推荐?

小谷哥

在北京选择前端培训班学习大数据

小谷哥

万字长文,浅谈企业数字化建模蓝图

产品老高

数字化 中台架构

10 万字节Spring Boot +redis详细面试笔记(带完整目录)免费分享

程序员啊叶

Java 编程 程序员 架构 java面试

@千行百业,一起乘云而上!

天翼云开发者社区

云计算 云平台

技术分享:国民远控向日葵如何通过BBR算法提升远控体验?

贝锐

技术分享 远程控制 TCP拥塞控制 向日葵 BBR

向日葵远程控制为何采用BGP服务器?自动最优路线、跨运营商高速传输

贝锐

远程控制 向日葵

iOS单元测试的那些事儿

珲少

海外APP推送(下篇):海外厂商通道集成指南

极光JIGUANG

sdk 厂商通道

银行业客户体验管理现状与优化策略分析

易观分析

银行

TDSQL-C Serverless:助力初创企业实现降本增效

石云升

全球架构师峰会 ArchSummit

百问百答第48期:极客有约——可观测体系的建设路径

博睿数据

可观测性 智能运维 博睿数据 性能监测 极客有约

面试京东T5,被按在地上摩擦,鬼知道我经历了什么?

程序员啊叶

Java 编程 程序员 架构 java面试

行业案例|指标中台如何助力银行业普惠金融可持续发展

Kyligence

大数据 普惠金融 指标中台

最新战报:十项认证,五项最佳实践

天翼云开发者社区

云计算 分布式云

尤雨溪向初学者推荐Vite 【为什么使用Vite】

flow

签约计划第三季

公司刚来的阿里p8,看完我构建的springboot框架,甩给我一份文档

程序员啊叶

Java 编程 程序员 架构 java面试

用深度神经网络生成以假乱真的“照片”_语言 & 开发_sai_InfoQ精选文章