QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

Deepfake 盛行背后:合成数据到底有什么用?

  • 2019-05-29
  • 本文字数:3778 字

    阅读完需:约 12 分钟

Deepfake盛行背后:合成数据到底有什么用?

我们曾在本月 4 日发布过《那些竞相将 Deepfake 商业化的 AI 初创公司》, 相信读者们已经通过这篇文章认识到了 Deepfake 就是一把剑,用好了就是造福社会,没用好就会让全社会陷入失控,引起公众恐慌。由于 Deepfake 关系到合成数据,这涉及到合成数据到底有什么用途,为了更好理解合成数据的方方面面,我们翻译并分享了 Astasia Myers 的文章


在即将召开的 CVPR 会议上,我们认为,强调计算机视觉与合成数据的新趋势,应该会很有用。合成数据(synthetic data)是人工制造的信息,而不是由实际事件生成的信息。合成数据并不局限于视觉数据,还存在于语音、实体和传感器(如光学雷达、雷达和 GPS 等)中。我们将在本文阐述合成数据的价值,并对 45 种产品进行了分类。


AI 前线注:CVPR,英文全称 Conference on Computer Vision and Pattern Recognition,中文全称是国际计算机视觉与模式识别会议。这个会议是由 IEEE 主办的一年一度的全球学术性顶级会议,会议的主要内容是计算机视觉与模式识别技术,每年 CVPR 都会有一个固定的研讨主题。会议一般在每年六月举行,大部分情况下会议都在美国西部地区举办,也会在美国中部和东部地区之间循环举办。


随着 TensorFlow 和 PyTorch 等现成的训练框架的发展,构建机器学习模型比以往任何时候都要容易得多。然而不幸的是,数据仍然是机器学习的“冷启动”问题。通常,公司无法在给定的时间范围内获得足够的数据来构建高准确度的模型。此外,像 Google 这样的大公司拥有大量难以突破的数据护城河。今天,正在捕获数据的公司正在以手工的方式标记数据,这可能是缓慢的、昂贵的和低质的方式。如果使用合成数据的话,就可以帮助公司绕过这些限制,使数据民主化。


AI 前线注:数据民主化是指将政府、企业、机构等所拥有的各类公共数据推上互联网,允许任何人访问和下载。公民有权使用他们自己认为合适的数据,自己选择帮忙的专家和应用,而且只在任务需要帮手时。也就是说,公民拥有数据的知情权、发言权和决策权。


合成数据有诸多好处:


  1. 可以减少对生成和捕获数据的依赖。

  2. 若公司选择自己生成合成数据,则最大限度减少对第三方数据源的需求。

  3. 可以做到比手工标记数据更便宜、更快速。

  4. 可以生成难以在现实世界捕获的数据(如水下或军事冲突区的视觉内容)。

  5. 可以生成在自然中不常发生但对训练至关重要的数据(如边缘情况)。

  6. 可以生成大量数据。

  7. 可以提供完美标记的数据。

  8. 可以支持更快的标记迭代。

  9. 可以减少隐私问题。


本文主要关注视觉方面的合成数据,主要有两种形式:


1)照片级真实感数据;


2)以编程方式创建的数据。


照片级真实感数据是由艺术家创作的,目的是尽可能看起来像现实的事物。生成照片级真实感数据的过程,要比以编程方式创建的数据还要长。


可以使用 Unreal、Blender 和 Unity 等游戏引擎以编程方式来创建合成数据。然后,像 Houdini 这样的程序系统用来加速资产的创建。下一个团队可以使用一些技术,如使用生成式对抗网络(GAN)进行领域自适应,或进行域随机化以增加数据的排列。


领域自适应是使用相关领域中的标记数据集(源)对未标记数据集(目标)进行分类的任务。它允许团队获取低质的合成数据和真实数据,从而使合成数据更好。


AI 前线注:领域自适应,英文 Domain adaption,是迁移学习中很重要的一部分内容,目的是把分布不同的源域和目标域的数据,映射到一个特征空间中,使其在该空间中的距离尽可能近。于是在特征空间中对源域 (source domain) 训练的目标函数,就可以迁移到 target domain 上,提高目标域 (target domain) 上的正确率。


域随机化也有助于减少现实差距。根据 Nvidia 的论文,“域随机化通过以非真实感的方式,随机干扰环境,有意放弃照片级的真实感,迫使网络学会专注于图像的基本特征。”对数据的调整,可以包括图像场景、照明位置和强度、纹理、比例和位置。这种算法不是在一个模拟数据集上来训练一个模型,而是以团队的方式随机化模拟器,将模型暴露于各种各样的排列数据(如下图所示)。由于门槛较低,这种技术很快就成为最流行的技术。


AI 前线注:Nvidia 论文见《使用合成数据训练深度网络:通过域随机化弥合现实差距》(《Training Deep Networks with Synthetic Data:Bridging the Reality Gap by Domain Randomization》) https://arxiv.org/pdf/1804.06516.pdf


来源:《将深度神经网络从模拟转移到现实世界的域随机化》(《Domain randomization for transferring deep neural networks from simulation to the real world.》),Tobin、Joshua 等著。2017 IEEE/RSJ 国际智能机器人与系统会议(IROS)(2017):23-30


域随机化是一个子类,称为引导域随机化。该研究领域侧重于自动创建随机化,而不是手工设计它们,这可能是既繁琐又乏味的过程。以编程方式创建合成数据的能力进一步加快了价值实现的速度。


公司可以选择使用提供合成数据的第三方厂商,或者建立自己的内部团队。我们知道,很难找到并雇佣那些拥有技术艺术、游戏开发和机器学习专业知识的人才。当团队决定利用合成数据时,我们听说,他们将合成数据和实际数据混合在一起用于训练。通常这一比例是 80%~90% 的合成比例,10%~20% 的真实比例。


学术研究正在致力于创建能够代表 100% 训练数据的合成数据的技术,并创建于实际数据训练模型具有相同准确度水平的模型。目前,跨域应用程序是合成数据的亮点。例如,如果你经营一家自动驾驶汽车公司,制造的汽车将在旧金山和东京行驶,你就需要来自这两个地点的训练数据。也许你没有东京数据的权限。但如果你只根据旧金山的数据进行训练,然后在东京驾驶汽车,那么它的表现将比你用合成的东京数据以及真实的旧金山训练的数据更槽糕。


目前大多数合成数据都存在“现实差距”,也就是说看起来不太真实。反过来,应用于域训练的合成数据很少能媲美域中实际数据的表现。在一个领域内,合成数据可能会受到挑战,因为它通常需要包含物理行为,如重力、惯性等。要想正确地反映出物理原理很难,但游戏引擎正在进步。


Berkeley、OpenAI 和 Nvidia 的先进学术研究,推动了仅使用 100% 合成数据生成高正确度模型的能力。例如,OpenAI 的一篇论文,使用域随机化来构建一个数据生成管道来合成对象。由 100% 合成数据生成的机器人抓取模型,在抓取以前从未见过的真实物体时,获得了 90% 以上的成功率。


AI 前线注:OpenAI 的论文见:《用于机器人抓取的域随机化和模型生成》(《Domain Randomization and Generative Models for Robotic Grasping》) https://arxiv.org/pdf/1710.06425.pdf


即使将不同类型的合成数据混合在一起进行训练,也会产生积极的影响。Nvidia 的一篇论文发现,使用混合域随机化和照片级真实感数据生成一个物体姿态估计模型,该模型能够与由真实和合成数据组合进行训练的最先进的网络进行竞争。我们还没有见过有哪家公司能够成功地使用 100% 合成数据来构建在生产中运行的高准确度的模型。


AI 前线注:Nvidia 论文见《用于抓取家居物品的语义机器人抓取的深度物体姿态估计算法》(《Deep Object Pose Estimation for Semantic Robotic Grasping of Household Objects》)https://arxiv.org/pdf/1809.10790.pdf


合成数据的用例范围很广。对于计算机视觉应用来说,合成数据额数据的最常见用例是自主系统(如视频输出、机器人和无人机)、农业科技、房地产、视频监控、中枢模式发生器、零售业和国防。由于合成实体数据可以删除姓名、电子邮件、社会安全号码等信息,但仍然能够反映出基础数据集,因此受到了隐私问题的推动。这有助于数据科学家在不访问敏感信息的情况下进行实验。我们已经看到合成语音数据在媒体制作的应用案例。


AI 前线注:中枢模式发生器 Central pattern generators (CPG) 是一种不需要传感器反馈就能产生节律模式输出的神经网络。研究表明,即便缺少运动和传感器反馈,CPG 仍能产生有节律的输出并形成"节律运动模式"。


我们将 45 种合成数据解决方案分为六类:


  1. 工具

  2. 传感器(相机、光学雷达、雷达和 GPS)

  3. 实体

  4. 语音

  5. 取证

  6. 利用合成数据的产品 / 虚拟形象


下图的展示并不全面,但突出了该领域中更为知名的一些产品。



上图的展示,包括利用合成数据的产品,如媒体制作。在过去的几个月里,出现了一波“Deepfake”热潮,即一种视频或音频,它们呈现的都是一些实际上并没有发生的事情。例如,Lyrebird 可以复制美国总统特朗普的声音。音乐游戏 Synthesia 最近发布了一段大卫·贝克汉姆抗击疟疾的视频,其中就是利用了机器学习来生成内容。现在网上还出现了伊隆·马斯克、萨尔瓦多·达利和巴拉克·奥巴马的 Deepfake。


AI 前线注:萨尔瓦多·达利(1904 年 5 月 11 日~1989 年 1 月 23 日),西班牙加泰罗尼亚画家,因其超现实主义作品而闻名,与毕加索、马蒂斯一同被认为是 20 世纪最有代表名的三位画家。


Deepfake 是一个日益引起关注的问题,因为它们往往与现实几乎无法区分。McAfee、Symantec 和学术界正在研究用于检测 Deepfake 的取证技术。Synmantec 在 Black Hat 2018 发表的一篇论文,描述了如何辨认出基于 Google FaceNet 的虚假视频。奥尔巴尼大学推出了一种软件,可以通过分析模拟人脸眨眼的频率,来识别出是否 Deepfake 视频。我们相信在未来,为了避免混淆,合成的音频和视频内容将会被添加水印。


合成数据是机器学习和数据科学领域的一个上升趋势。合成数据存在于语音、传感器和实体数据之间。与数据标记技术相比,合成数据带来了许多好处,包括速度、成本、规模和多样性。有一些厂商提供合成数据即服务(Synthetic data as a service),其他厂商则利用它来改进媒体制作。随着 Deepfake 的出现,人们需要对真实内容和合成内容进行验证。这一领域刚刚起步,但发展迅速。



2019-05-29 08:006354
用户头像

发布了 536 篇内容, 共 277.4 次阅读, 收获喜欢 1562 次。

关注

评论

发布
暂无评论
发现更多内容

在《比特与瓦特》的交点,藏着未来能源的一些真相

脑极体

新能源

共筑信创生态!亚信科技AntDB数据库与用友、东方通、星辰天合达成兼容互认

亚信AntDB数据库

数据库 AntDB AntDB数据库

先楫半导体与华秋达成生态共创合作,共建技术生态社区

华秋电子

向量检索在大模型应用场景的技术和实践

Baidu AICLOUD

向量检索 大模型

应对突发流量,如何快速为自建 K8s 添加云上弹性能力

阿里巴巴云原生

阿里云 Kubernetes 云原生

将DAST集成到CI/CD管道中的优势和实施步骤

互联网工科生

CI/CD DAST web 服务

在云计算环境中,保护Java应用程序可用的有效措施和工具

高端章鱼哥

Java 云计算

MES1.0.0正式发布|万界星空推出免费的MES系统

万界星空科技

开源 MES系统 制造业生产管理系统

有哪些好用的远程传输大文件的软件

镭速

远程传输大文件

实现大文件远程传输、备份和共享的小秘诀

镭速

大文件远程传输

软件测试/测试开发丨Python 数据类 dataclass 学习笔记

测试人

Python 软件测试 dataclass

HashData:让大模型“飞入寻常百姓家”

酷克数据HashData

Java基础入门——Java语言介绍

java易二三

Java

软件测试/测试开发丨Linux常用命令之性能统计

测试人

Python Linux 程序员 性能 软件测试

润和软件与华秋达成生态共创合作,共同推动物联网硬件创新

华秋电子

低代码技术分享官丨BPMN 2.0简介

inBuilder低代码平台

流程 低代码平台

IBM收购数据可观测性厂商 Databand.ai

乘云数字DataBuff

开发微信公众号本地调试+-+cpolar内网穿透

程思扬

微信公众号 网络穿透

不懂代码也不用怕!10款无代码网站搭建平台

高端章鱼哥

前端 工具 开发工具 设计师

华秋慕尼黑上海电子展圆满收官,数字化赋能智能制造!

华秋电子

点云标注在自动驾驶中的实践应用与挑战

来自四九城儿

aspera替代方案:可靠和高效的企业文件传输工具

镭速

aspera替代方案 企业文件传输工具

软通动力与华秋达成生态共创合作,共同推动物联网硬件创新

华秋电子

Karmada:让跨集群弹性伸缩FederatedHPA突破新边界

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

深开鸿与华秋达成生态共创合作,共同打造硬件生态

华秋电子

开鸿智谷与华秋达成生态共创合作,共同打造硬件生态

华秋电子

LeetCode题解:2618. 检查是否是类的对象实例,迭代和递归

Lee Chen

JavaScript LeetCode

直播预告 | 博睿学院:让Arthas带你玩转jvm

博睿数据

JVM 可观测性 智能运维 博睿数据 博睿学院

国内市场知名的数据可视化工具

2D3D前端可视化开发

数据分析 数据可视化 商业智能 数据可视化工具 可视化大屏

Deepfake盛行背后:合成数据到底有什么用?_AI&大模型_Astasia Myers_InfoQ精选文章