Deepfake再升级！一张照片+音频“复活”爱因斯坦-InfoQ



 写点什么

Deepfake 自诞生以来，就与造假、伪造等词语紧紧捆绑在一起，只要出现在人们的视野中，就一定与新的造假方法有关。虽然遭到了公众的联合抵制，但是这并不能削减研究人员对相关技术探索的热情，就在今天，一种新的“Deepfake”技术又出现了。

据国外科技媒体 The Verge 报道，近日三星人工智能研究中心和伦敦帝国理工学院的研究人员提出一种新型端到端系统，只需要一张照片，加上一段音频，就能让爱因斯坦张嘴演讲，让百年以前就去世的人大唱歌手碧昂斯的歌曲，甚至还可以为合成视频里的人物配上对应的表情。

一张照片+一段音频=合成视频

先来看看通过照片+音频合成的视频到底效果如何？

通过著名科学家爱因斯坦的一张照片，再配合上他本人之前的演讲，就能合成出这样一段视频：

00:00 / 00:00

1.0x

2.0x
1.5x
1.25x
1.0x
0.5x

网页全屏

全屏

00:00

被称为“俄国妖僧”的拉斯普京早在百年以前就去世了，但是通过这项技术，他竟然能在视频里大唱著名歌手碧昂斯的热单《Halo》：

00:00 / 00:00

1.0x

2.0x
1.5x
1.25x
1.0x
0.5x

网页全屏

全屏

00:00

虽然声音仍然是碧昂斯的，但是通过视频能够看到，照片中人物的口型几乎和歌词是一模一样的。

如果说之前的两个案例还算是正常发挥，那么下面这段视频就有些“放大招”的意思了：

00:00 / 00:00

1.0x

2.0x
1.5x
1.25x
1.0x
0.5x

网页全屏

全屏

00:00

不仅合成了与输入音频匹配的视频，而且还可以通过调整表情以传达特定情感。请记住，创建这些视频所需的只是一张图片和一个音频文件，算法完成了其余所有工作。

这几个案例虽然看上去有些唬人，而且合成的视频并非是 100%完美无缺的，但它是这项技术发展速度之快的最新例证，其背后的原理值得探索。

技术原理

据介绍，这是一套端到端系统，生成的视频拥有与音频同步的唇部运动和自然的面部表情，例如眨眼和皱眉。这项研究的相关论文也入选了 CVPR 2019。

论文地址：https://arxiv.org/pdf/1906.06337.pdf

图 1：论文提出的端到端人脸合成模型，能够使用一个静止图像和一个包含语音的音轨生成逼真的人脸序列。

这篇论文所提出的语音驱动人脸合成体系结构如图2所示。该系统由时序生成器和多个鉴别器组成，每一个鉴别器都从不同的角度对生成的序列进行评估。生成器捕获自然序列的各个方面的能力与每个识别器根据它们辨别视频的能力成正比。

图 2：语音驱动面部合成的深层模型"

时序生成器网络具有编解码器结构，可以从概念上划分为子网络，如图3所示。假设一个潜在的表征是由三个部分组成的，这三个部分包括说话人的身份、音频内容和自然的面部表情。这些组件由不同的模块生成，结合在一起形成一个嵌入，就可以通过解码网络转换成帧。

图 3：生成器网络结构

每个帧的潜在表征是通过连接标识、内容和噪声组件来构造的。帧解码器是一种CNN，它使用步长转置卷积从潜在的表征生成视频帧。使用U-Net架构，在标识编码器和帧解码器之间进行残差连接，以保存主体的标识，如图4所示。

图 4：向生成器网络添加残差连接的影响。

而同步鉴别器给出原始视频和音频的固定长度片段(误差0.2s)，并确定它们是否同步。鉴别器使用两种流架构来计算音频和视频的嵌入，通过计算两个嵌入点之间的欧几里德距离，并将其输入单层感知器进行分类。鉴别器的结构如图5所示。

图 5：同步鉴别器决定视听对是否同步。它使用 2 个编码器来获取音频和视频的嵌入，并根据它们的欧几里德距离决定它们是否同步。

论文团队最后通过PyTorch+GTX 1080 Ti进行了实验，而实验的最终成果就像前文里视频中展示的那样，虽然不甚完美，但是已经相当成功了。

与 Speech2Vid 模型相比，这一方法在最终呈现效果上提升了不少：

从上图可以看出：Speech2Vid 模型虽然也做到了让人物开口讲话，但是除了嘴部动作几乎没有表情，而新方法的效果让人物的表情、动作更加自然，虽然会显得有些夸张，但是比起直勾勾瞪着人的表情已经进步了不少。

Speech2Vid 模型是另一种仅使用音频语音段和目标身份的面部图像来生成说话人脸的视频的方法，可通过该篇论文了解：https://link.springer.com/content/pdf/10.1007%2Fs11263-019-01150-y.pdf

Deepfake 技术会走向何方？

制作类似 Deepfake 的技术正在变得越来越容易，尽管像这样的研究还没有大规模商业化，但最初的 Deepfake 制造者很快就把他们的技术捆绑到易于使用的软件中，同样的情况也会发生在后来出现的这些新方法上。

注：Deepfake 技术已经被一些公司进行了小范围的商业化，AI 前线也曾经进行过报道，感兴趣的读者可以点此回顾。

类似的研究层出不穷，让人们担心它们可能被用于误导和宣传，这个问题甚至已经困扰到了一些国家的立法者。尽管有无数种方法整明技术是无害的，但它确实已经造成了真正的伤害，尤其是对女性而言。

而合成技术产生的“合成数据”也有着不小的商业价值。合成数据可以减少对生成和捕获数据的依赖，可以做到比手工标记数据更便宜、更快速，还可以最大限度减少公司对第三方数据源的需求等等。

“技术是一把双刃剑”，这句话已经被无数次的提起。目前尚不知道本文提到的合成技术研究团队未来会将这项技术用在哪里，这项技术暂时也还没有开源，不论今后它的命运如何，只希望不再有更多无辜的人受到影响，相信各个国家也会加快对这类层出不穷的新技术的立法管理，技术无罪，但是掌握技术的人应该守好底线。

参考链接：

https://www.theverge.com/2019/6/20/18692671/deepfake-technology-singing-talking-video-portrait-from-a-single-image-imperial-college-samsung

发布

暂无评论

促进软件开发及相关领域知识与创新的传播
InfoQ
关于我们
我要投稿
合作伙伴
加入我们
关注我们
联系我们
内容投稿：editors@geekbang.com
业务合作：hezuo@geekbang.com
反馈投诉：feedback@geekbang.com
加入我们：zhaopin@geekbang.com
联系电话：010-64738142
地址：北京市朝阳区叶青大厦北园
InfoQ 近期会议
ArchSummit全球架构师峰会 3月24-25日
PCon全球产品创新大会 3月25-26日
DIVE全球基础软件创新大会 3月25-26日
ArchSummit全球架构师峰会 4月24-25日
QCon全球软件开发大会 5月12-14日
GMTC全球大前端技术大会 6月10-11日
ArchSummit全球架构师峰会 7月15-16日
PCon全球产品创新大会 8月19-20日
全球 InfoQ
InfoQ En
InfoQ Jp
InfoQ Fr
InfoQ Br

创作场景

Deepfake 再升级！一张照片 + 音频“复活”爱因斯坦

一张照片+一段音频=合成视频

技术原理

Deepfake 技术会走向何方？

评论

一个程序员应怀揣武侠梦

如何让别人访问到你的本地项目？ Ngrok免费实现内网穿透

SpringBoot启用HTTPS

学大数据应该怎么入门--大数据学习之路

laravel的生命周期

springboot 2.4.0 knife4j 3.0.1接口文档框架

中台建设落地浅谈

Vue3源码 | 深入理解响应式系统上篇-reactive

SICP 习题解答 1.7

翻译：《实用的Python编程》04_01_Class

浅淡python中with的用法，上下文管理器

开课啦基于 dubbo-go 的服务端技术升级实战

Linux时间同步-NTP服务器

ARTS - week 1

设计模式的5个常见问题及解决办法

人生如戏，戏如人生——敏捷剧本杀玩后感

SICP 习题解答 1.9

JVM笔记 -- JVM的发展以及基于栈的指令集架构

产品经理是个很务虚的岗位吗？

《撬动星球的头部效应-绝非偶然》读书笔记

SICP 习题解答 1.8

HBase分布式部署

Hbase详解

浅谈微服务架构

Centos7 systemctl 启动Java应用

Dubbo 进行一次微服务调用的时序图

需要深入的技术领域，方向正确是成功的关键

第五次作业&总结

使用Android版VMware Horizon Client连接到云桌面

正则表达式.02 - 量词与贪婪

微服务实践之分布式定时任务

创作场景

Deepfake 再升级！一张照片 + 音频“复活”爱因斯坦

一张照片+一段音频=合成视频

技术原理

Deepfake 技术会走向何方？

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载