写点什么

Deepfake 盛行背后:合成数据到底有什么用?

  • 2019-05-29
  • 本文字数:3778 字

    阅读完需:约 12 分钟

Deepfake盛行背后:合成数据到底有什么用?

我们曾在本月 4 日发布过《那些竞相将 Deepfake 商业化的 AI 初创公司》, 相信读者们已经通过这篇文章认识到了 Deepfake 就是一把剑,用好了就是造福社会,没用好就会让全社会陷入失控,引起公众恐慌。由于 Deepfake 关系到合成数据,这涉及到合成数据到底有什么用途,为了更好理解合成数据的方方面面,我们翻译并分享了 Astasia Myers 的文章


在即将召开的 CVPR 会议上,我们认为,强调计算机视觉与合成数据的新趋势,应该会很有用。合成数据(synthetic data)是人工制造的信息,而不是由实际事件生成的信息。合成数据并不局限于视觉数据,还存在于语音、实体和传感器(如光学雷达、雷达和 GPS 等)中。我们将在本文阐述合成数据的价值,并对 45 种产品进行了分类。


AI 前线注:CVPR,英文全称 Conference on Computer Vision and Pattern Recognition,中文全称是国际计算机视觉与模式识别会议。这个会议是由 IEEE 主办的一年一度的全球学术性顶级会议,会议的主要内容是计算机视觉与模式识别技术,每年 CVPR 都会有一个固定的研讨主题。会议一般在每年六月举行,大部分情况下会议都在美国西部地区举办,也会在美国中部和东部地区之间循环举办。


随着 TensorFlow 和 PyTorch 等现成的训练框架的发展,构建机器学习模型比以往任何时候都要容易得多。然而不幸的是,数据仍然是机器学习的“冷启动”问题。通常,公司无法在给定的时间范围内获得足够的数据来构建高准确度的模型。此外,像 Google 这样的大公司拥有大量难以突破的数据护城河。今天,正在捕获数据的公司正在以手工的方式标记数据,这可能是缓慢的、昂贵的和低质的方式。如果使用合成数据的话,就可以帮助公司绕过这些限制,使数据民主化。


AI 前线注:数据民主化是指将政府、企业、机构等所拥有的各类公共数据推上互联网,允许任何人访问和下载。公民有权使用他们自己认为合适的数据,自己选择帮忙的专家和应用,而且只在任务需要帮手时。也就是说,公民拥有数据的知情权、发言权和决策权。


合成数据有诸多好处:


  1. 可以减少对生成和捕获数据的依赖。

  2. 若公司选择自己生成合成数据,则最大限度减少对第三方数据源的需求。

  3. 可以做到比手工标记数据更便宜、更快速。

  4. 可以生成难以在现实世界捕获的数据(如水下或军事冲突区的视觉内容)。

  5. 可以生成在自然中不常发生但对训练至关重要的数据(如边缘情况)。

  6. 可以生成大量数据。

  7. 可以提供完美标记的数据。

  8. 可以支持更快的标记迭代。

  9. 可以减少隐私问题。


本文主要关注视觉方面的合成数据,主要有两种形式:


1)照片级真实感数据;


2)以编程方式创建的数据。


照片级真实感数据是由艺术家创作的,目的是尽可能看起来像现实的事物。生成照片级真实感数据的过程,要比以编程方式创建的数据还要长。


可以使用 Unreal、Blender 和 Unity 等游戏引擎以编程方式来创建合成数据。然后,像 Houdini 这样的程序系统用来加速资产的创建。下一个团队可以使用一些技术,如使用生成式对抗网络(GAN)进行领域自适应,或进行域随机化以增加数据的排列。


领域自适应是使用相关领域中的标记数据集(源)对未标记数据集(目标)进行分类的任务。它允许团队获取低质的合成数据和真实数据,从而使合成数据更好。


AI 前线注:领域自适应,英文 Domain adaption,是迁移学习中很重要的一部分内容,目的是把分布不同的源域和目标域的数据,映射到一个特征空间中,使其在该空间中的距离尽可能近。于是在特征空间中对源域 (source domain) 训练的目标函数,就可以迁移到 target domain 上,提高目标域 (target domain) 上的正确率。


域随机化也有助于减少现实差距。根据 Nvidia 的论文,“域随机化通过以非真实感的方式,随机干扰环境,有意放弃照片级的真实感,迫使网络学会专注于图像的基本特征。”对数据的调整,可以包括图像场景、照明位置和强度、纹理、比例和位置。这种算法不是在一个模拟数据集上来训练一个模型,而是以团队的方式随机化模拟器,将模型暴露于各种各样的排列数据(如下图所示)。由于门槛较低,这种技术很快就成为最流行的技术。


AI 前线注:Nvidia 论文见《使用合成数据训练深度网络:通过域随机化弥合现实差距》(《Training Deep Networks with Synthetic Data:Bridging the Reality Gap by Domain Randomization》) https://arxiv.org/pdf/1804.06516.pdf


来源:《将深度神经网络从模拟转移到现实世界的域随机化》(《Domain randomization for transferring deep neural networks from simulation to the real world.》),Tobin、Joshua 等著。2017 IEEE/RSJ 国际智能机器人与系统会议(IROS)(2017):23-30


域随机化是一个子类,称为引导域随机化。该研究领域侧重于自动创建随机化,而不是手工设计它们,这可能是既繁琐又乏味的过程。以编程方式创建合成数据的能力进一步加快了价值实现的速度。


公司可以选择使用提供合成数据的第三方厂商,或者建立自己的内部团队。我们知道,很难找到并雇佣那些拥有技术艺术、游戏开发和机器学习专业知识的人才。当团队决定利用合成数据时,我们听说,他们将合成数据和实际数据混合在一起用于训练。通常这一比例是 80%~90% 的合成比例,10%~20% 的真实比例。


学术研究正在致力于创建能够代表 100% 训练数据的合成数据的技术,并创建于实际数据训练模型具有相同准确度水平的模型。目前,跨域应用程序是合成数据的亮点。例如,如果你经营一家自动驾驶汽车公司,制造的汽车将在旧金山和东京行驶,你就需要来自这两个地点的训练数据。也许你没有东京数据的权限。但如果你只根据旧金山的数据进行训练,然后在东京驾驶汽车,那么它的表现将比你用合成的东京数据以及真实的旧金山训练的数据更槽糕。


目前大多数合成数据都存在“现实差距”,也就是说看起来不太真实。反过来,应用于域训练的合成数据很少能媲美域中实际数据的表现。在一个领域内,合成数据可能会受到挑战,因为它通常需要包含物理行为,如重力、惯性等。要想正确地反映出物理原理很难,但游戏引擎正在进步。


Berkeley、OpenAI 和 Nvidia 的先进学术研究,推动了仅使用 100% 合成数据生成高正确度模型的能力。例如,OpenAI 的一篇论文,使用域随机化来构建一个数据生成管道来合成对象。由 100% 合成数据生成的机器人抓取模型,在抓取以前从未见过的真实物体时,获得了 90% 以上的成功率。


AI 前线注:OpenAI 的论文见:《用于机器人抓取的域随机化和模型生成》(《Domain Randomization and Generative Models for Robotic Grasping》) https://arxiv.org/pdf/1710.06425.pdf


即使将不同类型的合成数据混合在一起进行训练,也会产生积极的影响。Nvidia 的一篇论文发现,使用混合域随机化和照片级真实感数据生成一个物体姿态估计模型,该模型能够与由真实和合成数据组合进行训练的最先进的网络进行竞争。我们还没有见过有哪家公司能够成功地使用 100% 合成数据来构建在生产中运行的高准确度的模型。


AI 前线注:Nvidia 论文见《用于抓取家居物品的语义机器人抓取的深度物体姿态估计算法》(《Deep Object Pose Estimation for Semantic Robotic Grasping of Household Objects》)https://arxiv.org/pdf/1809.10790.pdf


合成数据的用例范围很广。对于计算机视觉应用来说,合成数据额数据的最常见用例是自主系统(如视频输出、机器人和无人机)、农业科技、房地产、视频监控、中枢模式发生器、零售业和国防。由于合成实体数据可以删除姓名、电子邮件、社会安全号码等信息,但仍然能够反映出基础数据集,因此受到了隐私问题的推动。这有助于数据科学家在不访问敏感信息的情况下进行实验。我们已经看到合成语音数据在媒体制作的应用案例。


AI 前线注:中枢模式发生器 Central pattern generators (CPG) 是一种不需要传感器反馈就能产生节律模式输出的神经网络。研究表明,即便缺少运动和传感器反馈,CPG 仍能产生有节律的输出并形成"节律运动模式"。


我们将 45 种合成数据解决方案分为六类:


  1. 工具

  2. 传感器(相机、光学雷达、雷达和 GPS)

  3. 实体

  4. 语音

  5. 取证

  6. 利用合成数据的产品 / 虚拟形象


下图的展示并不全面,但突出了该领域中更为知名的一些产品。



上图的展示,包括利用合成数据的产品,如媒体制作。在过去的几个月里,出现了一波“Deepfake”热潮,即一种视频或音频,它们呈现的都是一些实际上并没有发生的事情。例如,Lyrebird 可以复制美国总统特朗普的声音。音乐游戏 Synthesia 最近发布了一段大卫·贝克汉姆抗击疟疾的视频,其中就是利用了机器学习来生成内容。现在网上还出现了伊隆·马斯克、萨尔瓦多·达利和巴拉克·奥巴马的 Deepfake。


AI 前线注:萨尔瓦多·达利(1904 年 5 月 11 日~1989 年 1 月 23 日),西班牙加泰罗尼亚画家,因其超现实主义作品而闻名,与毕加索、马蒂斯一同被认为是 20 世纪最有代表名的三位画家。


Deepfake 是一个日益引起关注的问题,因为它们往往与现实几乎无法区分。McAfee、Symantec 和学术界正在研究用于检测 Deepfake 的取证技术。Synmantec 在 Black Hat 2018 发表的一篇论文,描述了如何辨认出基于 Google FaceNet 的虚假视频。奥尔巴尼大学推出了一种软件,可以通过分析模拟人脸眨眼的频率,来识别出是否 Deepfake 视频。我们相信在未来,为了避免混淆,合成的音频和视频内容将会被添加水印。


合成数据是机器学习和数据科学领域的一个上升趋势。合成数据存在于语音、传感器和实体数据之间。与数据标记技术相比,合成数据带来了许多好处,包括速度、成本、规模和多样性。有一些厂商提供合成数据即服务(Synthetic data as a service),其他厂商则利用它来改进媒体制作。随着 Deepfake 的出现,人们需要对真实内容和合成内容进行验证。这一领域刚刚起步,但发展迅速。



2019-05-29 08:006777
用户头像

发布了 540 篇内容, 共 298.2 次阅读, 收获喜欢 1573 次。

关注

评论

发布
暂无评论
发现更多内容

一个有生命力的开源社区应该是怎么样?

科技热闻

从MongoDB迁移到TDengine后,成本显著下降

TDengine

数据库 tdengine 时序数据库 后端技术

技术教程 | 在线 KTV 实现过程(内附demo体验)

ZEGO即构

Java 音视频 在线KTV实现教程

Zilliz 上榜「中国科创好公司」

Zilliz

【堡垒机】云堡垒机价格是多少?有几种计费模式?

行云管家

云计算 网络安全 等级保护 过等保

开源投资回报率高达4倍!欧盟委员会全力推动开源软件发展

腾源会

开源

超大超详细图解,让你掌握Spark memeoryStore内存管理的精髓

华为云开发者联盟

Java spark 内存管理 Spark memeory Store memory Store

小程序下一破局点?钉钉小程序卡片,应用与平台的深度集成

蚂蚁集团移动开发平台 mPaaS

前端 钉钉 移动开发 卡片技术

国家质量基础设施NQI一站式服务平台系统开发建设方案

a13823115807

系统开发 质量基础设施“一站式” 平台建设

KubeCube 用户管理与身份认证

网易数帆

GitHub Kubernetes JWT Oauth kube

浅谈大型商城的订单系统设计方案

北游学Java

Spring Boot 订单管理 Java、 项目 商城项目

如何提升软件测试思维?

和牛

软件测试 测试 测试右移

为什么需要会计CRM系统?

低代码小观

低代码 企业管理系统 ERP CRM系统

郭炜:就算倒在离开源成功最近的五米,也要让下一代开源人坚定前行

腾源会

开源 WeOpen Talk

如何满足大数据集群服务功能真实需求?

星环科技

我是如何把vue项目启动时间从70s优化到7秒的

CRMEB

【签约计划第二季】正式评审环节入选名单公布

InfoQ写作社区官方

签约计划第二季 热门活动

查询优化技术解读:以分布式搜索引擎 Transwarp Scope为例

星环科技

Linux之cp命令

入门小站

Linux

【docker 总结】第五篇 - 制作镜像、数据盘

Brave

Docker 12月日更

Linux网络管理技术-OSI七层模型和TCP四层模型

学神来啦

Linux 运维 TCP/IP syn OSI七层协议

【日常工作】配置中心JVM堆外内存异常增长

MindController

人和人差距是如何产生的

卢卡多多

28天写作 12月日更

netty系列之:从零到壹,搭建一个SOCKS代理服务器

程序那些事

Java Netty 程序那些事 SOCKS 12月日更

一图看懂软件缺陷检查涉及的内容

华为云开发者联盟

安全 软件开发 软件缺陷 缺陷漏洞 防护

技术揭秘!百度Geek说年度优质技术干货合集

百度Geek说

技术专题合集

【云计算】私有云是什么?主要集中在哪些行业?与公有云有什么区别?

行云管家

云计算 公有云 私有云

ONES 解码:为何数字化是“超级工程”

万事ONES

数字化 ONES

开源公司IPO热潮已到来?市值153亿美元的HashiCorp带来了哪些启示?

腾源会

开源 开源商业化

Linux学习分享之标准大页和透明大页

@零度

Linux

星环云原生数据湖,为企业精准决策提供全方位技术支撑

星环科技

Deepfake盛行背后:合成数据到底有什么用?_AI&大模型_Astasia Myers_InfoQ精选文章