写点什么

Deepfake 盛行背后:合成数据到底有什么用?

  • 2019-05-29
  • 本文字数:3778 字

    阅读完需:约 12 分钟

Deepfake盛行背后:合成数据到底有什么用?

我们曾在本月 4 日发布过《那些竞相将 Deepfake 商业化的 AI 初创公司》, 相信读者们已经通过这篇文章认识到了 Deepfake 就是一把剑,用好了就是造福社会,没用好就会让全社会陷入失控,引起公众恐慌。由于 Deepfake 关系到合成数据,这涉及到合成数据到底有什么用途,为了更好理解合成数据的方方面面,我们翻译并分享了 Astasia Myers 的文章


在即将召开的 CVPR 会议上,我们认为,强调计算机视觉与合成数据的新趋势,应该会很有用。合成数据(synthetic data)是人工制造的信息,而不是由实际事件生成的信息。合成数据并不局限于视觉数据,还存在于语音、实体和传感器(如光学雷达、雷达和 GPS 等)中。我们将在本文阐述合成数据的价值,并对 45 种产品进行了分类。


AI 前线注:CVPR,英文全称 Conference on Computer Vision and Pattern Recognition,中文全称是国际计算机视觉与模式识别会议。这个会议是由 IEEE 主办的一年一度的全球学术性顶级会议,会议的主要内容是计算机视觉与模式识别技术,每年 CVPR 都会有一个固定的研讨主题。会议一般在每年六月举行,大部分情况下会议都在美国西部地区举办,也会在美国中部和东部地区之间循环举办。


随着 TensorFlow 和 PyTorch 等现成的训练框架的发展,构建机器学习模型比以往任何时候都要容易得多。然而不幸的是,数据仍然是机器学习的“冷启动”问题。通常,公司无法在给定的时间范围内获得足够的数据来构建高准确度的模型。此外,像 Google 这样的大公司拥有大量难以突破的数据护城河。今天,正在捕获数据的公司正在以手工的方式标记数据,这可能是缓慢的、昂贵的和低质的方式。如果使用合成数据的话,就可以帮助公司绕过这些限制,使数据民主化。


AI 前线注:数据民主化是指将政府、企业、机构等所拥有的各类公共数据推上互联网,允许任何人访问和下载。公民有权使用他们自己认为合适的数据,自己选择帮忙的专家和应用,而且只在任务需要帮手时。也就是说,公民拥有数据的知情权、发言权和决策权。


合成数据有诸多好处:


  1. 可以减少对生成和捕获数据的依赖。

  2. 若公司选择自己生成合成数据,则最大限度减少对第三方数据源的需求。

  3. 可以做到比手工标记数据更便宜、更快速。

  4. 可以生成难以在现实世界捕获的数据(如水下或军事冲突区的视觉内容)。

  5. 可以生成在自然中不常发生但对训练至关重要的数据(如边缘情况)。

  6. 可以生成大量数据。

  7. 可以提供完美标记的数据。

  8. 可以支持更快的标记迭代。

  9. 可以减少隐私问题。


本文主要关注视觉方面的合成数据,主要有两种形式:


1)照片级真实感数据;


2)以编程方式创建的数据。


照片级真实感数据是由艺术家创作的,目的是尽可能看起来像现实的事物。生成照片级真实感数据的过程,要比以编程方式创建的数据还要长。


可以使用 Unreal、Blender 和 Unity 等游戏引擎以编程方式来创建合成数据。然后,像 Houdini 这样的程序系统用来加速资产的创建。下一个团队可以使用一些技术,如使用生成式对抗网络(GAN)进行领域自适应,或进行域随机化以增加数据的排列。


领域自适应是使用相关领域中的标记数据集(源)对未标记数据集(目标)进行分类的任务。它允许团队获取低质的合成数据和真实数据,从而使合成数据更好。


AI 前线注:领域自适应,英文 Domain adaption,是迁移学习中很重要的一部分内容,目的是把分布不同的源域和目标域的数据,映射到一个特征空间中,使其在该空间中的距离尽可能近。于是在特征空间中对源域 (source domain) 训练的目标函数,就可以迁移到 target domain 上,提高目标域 (target domain) 上的正确率。


域随机化也有助于减少现实差距。根据 Nvidia 的论文,“域随机化通过以非真实感的方式,随机干扰环境,有意放弃照片级的真实感,迫使网络学会专注于图像的基本特征。”对数据的调整,可以包括图像场景、照明位置和强度、纹理、比例和位置。这种算法不是在一个模拟数据集上来训练一个模型,而是以团队的方式随机化模拟器,将模型暴露于各种各样的排列数据(如下图所示)。由于门槛较低,这种技术很快就成为最流行的技术。


AI 前线注:Nvidia 论文见《使用合成数据训练深度网络:通过域随机化弥合现实差距》(《Training Deep Networks with Synthetic Data:Bridging the Reality Gap by Domain Randomization》) https://arxiv.org/pdf/1804.06516.pdf


来源:《将深度神经网络从模拟转移到现实世界的域随机化》(《Domain randomization for transferring deep neural networks from simulation to the real world.》),Tobin、Joshua 等著。2017 IEEE/RSJ 国际智能机器人与系统会议(IROS)(2017):23-30


域随机化是一个子类,称为引导域随机化。该研究领域侧重于自动创建随机化,而不是手工设计它们,这可能是既繁琐又乏味的过程。以编程方式创建合成数据的能力进一步加快了价值实现的速度。


公司可以选择使用提供合成数据的第三方厂商,或者建立自己的内部团队。我们知道,很难找到并雇佣那些拥有技术艺术、游戏开发和机器学习专业知识的人才。当团队决定利用合成数据时,我们听说,他们将合成数据和实际数据混合在一起用于训练。通常这一比例是 80%~90% 的合成比例,10%~20% 的真实比例。


学术研究正在致力于创建能够代表 100% 训练数据的合成数据的技术,并创建于实际数据训练模型具有相同准确度水平的模型。目前,跨域应用程序是合成数据的亮点。例如,如果你经营一家自动驾驶汽车公司,制造的汽车将在旧金山和东京行驶,你就需要来自这两个地点的训练数据。也许你没有东京数据的权限。但如果你只根据旧金山的数据进行训练,然后在东京驾驶汽车,那么它的表现将比你用合成的东京数据以及真实的旧金山训练的数据更槽糕。


目前大多数合成数据都存在“现实差距”,也就是说看起来不太真实。反过来,应用于域训练的合成数据很少能媲美域中实际数据的表现。在一个领域内,合成数据可能会受到挑战,因为它通常需要包含物理行为,如重力、惯性等。要想正确地反映出物理原理很难,但游戏引擎正在进步。


Berkeley、OpenAI 和 Nvidia 的先进学术研究,推动了仅使用 100% 合成数据生成高正确度模型的能力。例如,OpenAI 的一篇论文,使用域随机化来构建一个数据生成管道来合成对象。由 100% 合成数据生成的机器人抓取模型,在抓取以前从未见过的真实物体时,获得了 90% 以上的成功率。


AI 前线注:OpenAI 的论文见:《用于机器人抓取的域随机化和模型生成》(《Domain Randomization and Generative Models for Robotic Grasping》) https://arxiv.org/pdf/1710.06425.pdf


即使将不同类型的合成数据混合在一起进行训练,也会产生积极的影响。Nvidia 的一篇论文发现,使用混合域随机化和照片级真实感数据生成一个物体姿态估计模型,该模型能够与由真实和合成数据组合进行训练的最先进的网络进行竞争。我们还没有见过有哪家公司能够成功地使用 100% 合成数据来构建在生产中运行的高准确度的模型。


AI 前线注:Nvidia 论文见《用于抓取家居物品的语义机器人抓取的深度物体姿态估计算法》(《Deep Object Pose Estimation for Semantic Robotic Grasping of Household Objects》)https://arxiv.org/pdf/1809.10790.pdf


合成数据的用例范围很广。对于计算机视觉应用来说,合成数据额数据的最常见用例是自主系统(如视频输出、机器人和无人机)、农业科技、房地产、视频监控、中枢模式发生器、零售业和国防。由于合成实体数据可以删除姓名、电子邮件、社会安全号码等信息,但仍然能够反映出基础数据集,因此受到了隐私问题的推动。这有助于数据科学家在不访问敏感信息的情况下进行实验。我们已经看到合成语音数据在媒体制作的应用案例。


AI 前线注:中枢模式发生器 Central pattern generators (CPG) 是一种不需要传感器反馈就能产生节律模式输出的神经网络。研究表明,即便缺少运动和传感器反馈,CPG 仍能产生有节律的输出并形成"节律运动模式"。


我们将 45 种合成数据解决方案分为六类:


  1. 工具

  2. 传感器(相机、光学雷达、雷达和 GPS)

  3. 实体

  4. 语音

  5. 取证

  6. 利用合成数据的产品 / 虚拟形象


下图的展示并不全面,但突出了该领域中更为知名的一些产品。



上图的展示,包括利用合成数据的产品,如媒体制作。在过去的几个月里,出现了一波“Deepfake”热潮,即一种视频或音频,它们呈现的都是一些实际上并没有发生的事情。例如,Lyrebird 可以复制美国总统特朗普的声音。音乐游戏 Synthesia 最近发布了一段大卫·贝克汉姆抗击疟疾的视频,其中就是利用了机器学习来生成内容。现在网上还出现了伊隆·马斯克、萨尔瓦多·达利和巴拉克·奥巴马的 Deepfake。


AI 前线注:萨尔瓦多·达利(1904 年 5 月 11 日~1989 年 1 月 23 日),西班牙加泰罗尼亚画家,因其超现实主义作品而闻名,与毕加索、马蒂斯一同被认为是 20 世纪最有代表名的三位画家。


Deepfake 是一个日益引起关注的问题,因为它们往往与现实几乎无法区分。McAfee、Symantec 和学术界正在研究用于检测 Deepfake 的取证技术。Synmantec 在 Black Hat 2018 发表的一篇论文,描述了如何辨认出基于 Google FaceNet 的虚假视频。奥尔巴尼大学推出了一种软件,可以通过分析模拟人脸眨眼的频率,来识别出是否 Deepfake 视频。我们相信在未来,为了避免混淆,合成的音频和视频内容将会被添加水印。


合成数据是机器学习和数据科学领域的一个上升趋势。合成数据存在于语音、传感器和实体数据之间。与数据标记技术相比,合成数据带来了许多好处,包括速度、成本、规模和多样性。有一些厂商提供合成数据即服务(Synthetic data as a service),其他厂商则利用它来改进媒体制作。随着 Deepfake 的出现,人们需要对真实内容和合成内容进行验证。这一领域刚刚起步,但发展迅速。



2019-05-29 08:006644
用户头像

发布了 540 篇内容, 共 293.3 次阅读, 收获喜欢 1572 次。

关注

评论

发布
暂无评论
发现更多内容

面试突击50:单例模式有几种写法?

王磊

Java java面试

VIT实战总结:非常简单的VIT入门教程,一定不要错过

AI浩

数字孪生智慧物流之 Web GIS 地图应用

一只数据鲸鱼

GIS 数据可视化 智慧物流 数字孪生 三维仿真

web前端培训创建 NPX 工具

@零度

web前端开发

Swin Transformer实战: timm使用、Mixup、Cutout和评分一网打尽,图像分类任务

AI浩

图像分类实战:mobilenetv2从训练到TensorRT部署(pytorch)

AI浩

如何为服务网格做端到端测试

Flomesh

测试 Service Mesh 服务网格

实例讲解FusionInsight MRS RTD 实时决策引擎在医保行业应用

华为云开发者联盟

数据湖 风控 医保 FusionInsight RTD 实时决策

中国信通院发布“可信开源”全景观察 成立三大开源产业组织

中国IDC圈

开源 开源治理

数字化转型背景下,企业如何做好知识管理?

小炮

企业知识管理

BladeDISC 0.2.0更新发布

阿里云大数据AI技术

深度学习 存储 并行计算 异构计算 算法框架/工具

聊武侠、讲段子,为了帮小白入门Spring Boot,这书有多拼!

博文视点Broadview

ABAP Code Inspector 的一些高级功能分享

汪子熙

编程语言 代码扫描 SAP abap 5月月更

深度探索通过数据共享(data sharing)优化 Amazon Redshift 工作负载分解

亚马逊云科技 (Amazon Web Services)

数据 负载

如何写好产品手册?

小炮

鸿蒙生态 | 从开发到运营,如何步步为“赢”?

最新动态

如何通过 Amazon Textract 改善新冠疫情期间的 PPP 贷款效率

亚马逊云科技 (Amazon Web Services)

效率 Amazon

你想学Python爬虫?看看这篇关于开发者工具神器的博客吧

梦想橡皮擦

5月月更

大数据课程培训到离职转行这个过程你知道经历了什么吗

@零度

大数据开发

一文看懂博睿数据AIOps场景、算法和能力

博睿数据

AIOPS 智能运维 博睿数据

亚马逊云科技 2022 年 3 月新服务新功能强势来袭

亚马逊云科技 (Amazon Web Services)

服务 亚马逊

如何评估服务是否内存泄漏了?

BUG侦探

缓存 容器 内存泄漏

Wallys-Waterproof Enclosure Metal Outdoor

wallys-wifi6

IPQ4019 802.11ac

java培训学习后找不到工作的原因你占了几条

@零度

JAVA开发

还在为模型加速推理发愁吗?不如看看这篇吧。手把手教你把pytorch模型转化为TensorRT,加速推理

AI浩

开源集结令!参与开源之夏 EMQ 项目开发,赢最高 12000 元奖金

EMQ映云科技

开源 物联网 emq 开源之夏 5月月更

OpenHarmony 3.1 Release版本特性解析——OpenHarmony硬件资源池化架构介绍

OpenHarmony开发者

OpenHarmony 多设备协同

Wallys-QCN9074 /802.11ax/4x4 MU-MIMO /6GHz wifi6E

wallys-wifi6

官宣|秒云与极狐(GitLab)达成战略合作,打造云原生DevOps一体化解决方案

MIAOYUN

DevOps 运维 云原生

ResNet实战:单机多卡DDP方式、混合精度训练

AI浩

EfficientNet实战:tensorflow2.X版本,EfficientNetB0图像分类任务(小数据集)

AI浩

图像分类

Deepfake盛行背后:合成数据到底有什么用?_AI&大模型_Astasia Myers_InfoQ精选文章