写点什么

Deepfake 再升级!一张照片 + 音频“复活”爱因斯坦

  • 2019 年 6 月 22 日
  • 本文字数:0 字

    阅读完需:约 1 分钟

Deepfake再升级!一张照片+音频“复活”爱因斯坦


Deepfake 自诞生以来,就与造假、伪造等词语紧紧捆绑在一起,只要出现在人们的视野中,就一定与新的造假方法有关。虽然遭到了公众的联合抵制,但是这并不能削减研究人员对相关技术探索的热情,就在今天,一种新的“Deepfake”技术又出现了。


据国外科技媒体 The Verge 报道,近日三星人工智能研究中心和伦敦帝国理工学院的研究人员提出一种新型端到端系统,只需要一张照片,加上一段音频,就能让爱因斯坦张嘴演讲,让百年以前就去世的人大唱歌手碧昂斯的歌曲,甚至还可以为合成视频里的人物配上对应的表情。


一张照片+一段音频=合成视频

先来看看通过照片+音频合成的视频到底效果如何?


通过著名科学家爱因斯坦的一张照片,再配合上他本人之前的演讲,就能合成出这样一段视频:


00:00 / 00:00
    1.0x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.5x
    网页全屏
    全屏
    00:00


    被称为“俄国妖僧”的拉斯普京早在百年以前就去世了,但是通过这项技术,他竟然能在视频里大唱著名歌手碧昂斯的热单《Halo》:


    00:00 / 00:00
      1.0x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.5x
      网页全屏
      全屏
      00:00


      虽然声音仍然是碧昂斯的,但是通过视频能够看到,照片中人物的口型几乎和歌词是一模一样的。


      如果说之前的两个案例还算是正常发挥,那么下面这段视频就有些“放大招”的意思了:


      00:00 / 00:00
        1.0x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.5x
        网页全屏
        全屏
        00:00


        不仅合成了与输入音频匹配的视频,而且还可以通过调整表情以传达特定情感。请记住,创建这些视频所需的只是一张图片和一个音频文件,算法完成了其余所有工作。


        这几个案例虽然看上去有些唬人,而且合成的视频并非是 100%完美无缺的,但它是这项技术发展速度之快的最新例证,其背后的原理值得探索。


        技术原理

        据介绍,这是一套端到端系统,生成的视频拥有与音频同步的唇部运动和自然的面部表情,例如眨眼和皱眉。这项研究的相关论文也入选了 CVPR 2019。


        论文地址:https://arxiv.org/pdf/1906.06337.pdf



        图 1:论文提出的端到端人脸合成模型,能够使用一个静止图像和一个包含语音的音轨生成逼真的人脸序列。


        这篇论文所提出的语音驱动人脸合成体系结构如图2所示。该系统由时序生成器和多个鉴别器组成,每一个鉴别器都从不同的角度对生成的序列进行评估。生成器捕获自然序列的各个方面的能力与每个识别器根据它们辨别视频的能力成正比。



        图 2:语音驱动面部合成的深层模型"


        时序生成器网络具有编解码器结构,可以从概念上划分为子网络,如图3所示。假设一个潜在的表征是由三个部分组成的,这三个部分包括说话人的身份、音频内容和自然的面部表情。这些组件由不同的模块生成,结合在一起形成一个嵌入,就可以通过解码网络转换成帧。



        图 3:生成器网络结构


        每个帧的潜在表征是通过连接标识、内容和噪声组件来构造的。帧解码器是一种CNN,它使用步长转置卷积从潜在的表征生成视频帧。使用U-Net架构,在标识编码器和帧解码器之间进行残差连接,以保存主体的标识,如图4所示。



        图 4:向生成器网络添加残差连接的影响。


        而同步鉴别器给出原始视频和音频的固定长度片段(误差0.2s),并确定它们是否同步。鉴别器使用两种流架构来计算音频和视频的嵌入,通过计算两个嵌入点之间的欧几里德距离,并将其输入单层感知器进行分类。鉴别器的结构如图5所示。



        图 5:同步鉴别器决定视听对是否同步。 它使用 2 个编码器来获取音频和视频的嵌入,并根据它们的欧几里德距离决定它们是否同步。


        论文团队最后通过PyTorch+GTX 1080 Ti进行了实验,而实验的最终成果就像前文里视频中展示的那样,虽然不甚完美,但是已经相当成功了。


        与 Speech2Vid 模型相比,这一方法在最终呈现效果上提升了不少:



        从上图可以看出:Speech2Vid 模型虽然也做到了让人物开口讲话,但是除了嘴部动作几乎没有表情,而新方法的效果让人物的表情、动作更加自然,虽然会显得有些夸张,但是比起直勾勾瞪着人的表情已经进步了不少。


        Speech2Vid 模型是另一种仅使用音频语音段和目标身份的面部图像来生成说话人脸的视频的方法,可通过该篇论文了解:https://link.springer.com/content/pdf/10.1007%2Fs11263-019-01150-y.pdf


        Deepfake 技术会走向何方?

        制作类似 Deepfake 的技术正在变得越来越容易,尽管像这样的研究还没有大规模商业化,但最初的 Deepfake 制造者很快就把他们的技术捆绑到易于使用的软件中,同样的情况也会发生在后来出现的这些新方法上。


        注:Deepfake 技术已经被一些公司进行了小范围的商业化,AI 前线也曾经进行过报道,感兴趣的读者可以点此回顾


        类似的研究层出不穷,让人们担心它们可能被用于误导和宣传,这个问题甚至已经困扰到了一些国家的立法者。尽管有无数种方法整明技术是无害的,但它确实已经造成了真正的伤害,尤其是对女性而言。


        而合成技术产生的“合成数据”也有着不小的商业价值。合成数据可以减少对生成和捕获数据的依赖,可以做到比手工标记数据更便宜、更快速,还可以最大限度减少公司对第三方数据源的需求等等。


        “技术是一把双刃剑”,这句话已经被无数次的提起。目前尚不知道本文提到的合成技术研究团队未来会将这项技术用在哪里,这项技术暂时也还没有开源,不论今后它的命运如何,只希望不再有更多无辜的人受到影响,相信各个国家也会加快对这类层出不穷的新技术的立法管理,技术无罪,但是掌握技术的人应该守好底线。


        参考链接:


        https://www.theverge.com/2019/6/20/18692671/deepfake-technology-singing-talking-video-portrait-from-a-single-image-imperial-college-samsung


        2019 年 6 月 22 日 10:007357
        用户头像
        陈思 InfoQ编辑

        发布了 576 篇内容, 共 220.9 次阅读, 收获喜欢 1238 次。

        关注

        评论

        发布
        暂无评论
        发现更多内容

        一个程序员应怀揣武侠梦

        DisonTangor

        程序员

        如何让别人访问到你的本地项目? Ngrok免费实现内网穿透

        xiezhr

        ngrok 内网穿透 3月日更

        SpringBoot启用HTTPS

        黄敏

        jdk https openssh springboot

        学大数据应该怎么入门--大数据学习之路

        大数据技术指南

        大数据 3月日更

        laravel的生命周期

        一个大红包

        28天写作 3月日更

        springboot 2.4.0 knife4j 3.0.1接口文档框架

        黄敏

        springboot SpringBoot 2 Knife4j

        中台建设落地浅谈

        Man

        中台 数字化转型

        Vue3源码 | 深入理解响应式系统上篇-reactive

        梁龙先森

        大前端 Vue3 源码解析

        SICP 习题解答 1.7

        十元

        翻译:《实用的Python编程》04_01_Class

        codists

        Python

        浅淡python中with的用法,上下文管理器

        极客新人

        开课啦基于 dubbo-go 的服务端技术升级实战

        apache/dubbo-go

        微服务 云原生 dubbo dubbo-go dubbogo

        Linux时间同步-NTP服务器

        黄敏

        Linux ntp

        ARTS - week 1

        steve_lee

        设计模式的5个常见问题及解决办法

        乐天

        设计模式

        人生如戏,戏如人生——敏捷剧本杀玩后感

        Bruce Talk

        敏捷 Agile

        SICP 习题解答 1.9

        十元

        JVM笔记 -- JVM的发展以及基于栈的指令集架构

        秦怀杂货店

        JVM JVM笔记

        产品经理是个很务虚的岗位吗?

        涛哥

        产品经理

        《撬动星球的头部效应-绝非偶然》读书笔记

        SilentMacUser

        极客时间 读书笔记 产品经理 知识星球 极客大学产品经理训练营

        SICP 习题解答 1.8

        十元

        HBase分布式部署

        Fong

        大数据 运维 部署

        Hbase详解

        Fong

        大数据 运维 概念

        浅谈微服务架构

        跳蚤

        Centos7 systemctl 启动Java应用

        黄敏

        Java Linux Centos 7 部署

        Dubbo 进行一次微服务调用的时序图

        跳蚤

        需要深入的技术领域,方向正确是成功的关键

        杨明越

        第五次作业&总结

        青葵

        学习

        使用Android版VMware Horizon Client连接到云桌面

        梅花鹿鹿

        正则表达式.02 - 量词与贪婪

        insight

        正则表达式 3月日更

        微服务实践之分布式定时任务

        万俊峰Kevin

        微服务 定时任务 延迟任务 Go 语言

        Deepfake再升级!一张照片+音频“复活”爱因斯坦-InfoQ