发布在即!企业 AIGC 应用程度测评,3 步定制专属评估报告。抢首批测评权益>>> 了解详情
写点什么

Deepfake 盛行背后:合成数据到底有什么用?

  • 2019-05-29
  • 本文字数:3778 字

    阅读完需:约 12 分钟

Deepfake盛行背后:合成数据到底有什么用?

我们曾在本月 4 日发布过《那些竞相将 Deepfake 商业化的 AI 初创公司》, 相信读者们已经通过这篇文章认识到了 Deepfake 就是一把剑,用好了就是造福社会,没用好就会让全社会陷入失控,引起公众恐慌。由于 Deepfake 关系到合成数据,这涉及到合成数据到底有什么用途,为了更好理解合成数据的方方面面,我们翻译并分享了 Astasia Myers 的文章


在即将召开的 CVPR 会议上,我们认为,强调计算机视觉与合成数据的新趋势,应该会很有用。合成数据(synthetic data)是人工制造的信息,而不是由实际事件生成的信息。合成数据并不局限于视觉数据,还存在于语音、实体和传感器(如光学雷达、雷达和 GPS 等)中。我们将在本文阐述合成数据的价值,并对 45 种产品进行了分类。


AI 前线注:CVPR,英文全称 Conference on Computer Vision and Pattern Recognition,中文全称是国际计算机视觉与模式识别会议。这个会议是由 IEEE 主办的一年一度的全球学术性顶级会议,会议的主要内容是计算机视觉与模式识别技术,每年 CVPR 都会有一个固定的研讨主题。会议一般在每年六月举行,大部分情况下会议都在美国西部地区举办,也会在美国中部和东部地区之间循环举办。


随着 TensorFlow 和 PyTorch 等现成的训练框架的发展,构建机器学习模型比以往任何时候都要容易得多。然而不幸的是,数据仍然是机器学习的“冷启动”问题。通常,公司无法在给定的时间范围内获得足够的数据来构建高准确度的模型。此外,像 Google 这样的大公司拥有大量难以突破的数据护城河。今天,正在捕获数据的公司正在以手工的方式标记数据,这可能是缓慢的、昂贵的和低质的方式。如果使用合成数据的话,就可以帮助公司绕过这些限制,使数据民主化。


AI 前线注:数据民主化是指将政府、企业、机构等所拥有的各类公共数据推上互联网,允许任何人访问和下载。公民有权使用他们自己认为合适的数据,自己选择帮忙的专家和应用,而且只在任务需要帮手时。也就是说,公民拥有数据的知情权、发言权和决策权。


合成数据有诸多好处:


  1. 可以减少对生成和捕获数据的依赖。

  2. 若公司选择自己生成合成数据,则最大限度减少对第三方数据源的需求。

  3. 可以做到比手工标记数据更便宜、更快速。

  4. 可以生成难以在现实世界捕获的数据(如水下或军事冲突区的视觉内容)。

  5. 可以生成在自然中不常发生但对训练至关重要的数据(如边缘情况)。

  6. 可以生成大量数据。

  7. 可以提供完美标记的数据。

  8. 可以支持更快的标记迭代。

  9. 可以减少隐私问题。


本文主要关注视觉方面的合成数据,主要有两种形式:


1)照片级真实感数据;


2)以编程方式创建的数据。


照片级真实感数据是由艺术家创作的,目的是尽可能看起来像现实的事物。生成照片级真实感数据的过程,要比以编程方式创建的数据还要长。


可以使用 Unreal、Blender 和 Unity 等游戏引擎以编程方式来创建合成数据。然后,像 Houdini 这样的程序系统用来加速资产的创建。下一个团队可以使用一些技术,如使用生成式对抗网络(GAN)进行领域自适应,或进行域随机化以增加数据的排列。


领域自适应是使用相关领域中的标记数据集(源)对未标记数据集(目标)进行分类的任务。它允许团队获取低质的合成数据和真实数据,从而使合成数据更好。


AI 前线注:领域自适应,英文 Domain adaption,是迁移学习中很重要的一部分内容,目的是把分布不同的源域和目标域的数据,映射到一个特征空间中,使其在该空间中的距离尽可能近。于是在特征空间中对源域 (source domain) 训练的目标函数,就可以迁移到 target domain 上,提高目标域 (target domain) 上的正确率。


域随机化也有助于减少现实差距。根据 Nvidia 的论文,“域随机化通过以非真实感的方式,随机干扰环境,有意放弃照片级的真实感,迫使网络学会专注于图像的基本特征。”对数据的调整,可以包括图像场景、照明位置和强度、纹理、比例和位置。这种算法不是在一个模拟数据集上来训练一个模型,而是以团队的方式随机化模拟器,将模型暴露于各种各样的排列数据(如下图所示)。由于门槛较低,这种技术很快就成为最流行的技术。


AI 前线注:Nvidia 论文见《使用合成数据训练深度网络:通过域随机化弥合现实差距》(《Training Deep Networks with Synthetic Data:Bridging the Reality Gap by Domain Randomization》) https://arxiv.org/pdf/1804.06516.pdf


来源:《将深度神经网络从模拟转移到现实世界的域随机化》(《Domain randomization for transferring deep neural networks from simulation to the real world.》),Tobin、Joshua 等著。2017 IEEE/RSJ 国际智能机器人与系统会议(IROS)(2017):23-30


域随机化是一个子类,称为引导域随机化。该研究领域侧重于自动创建随机化,而不是手工设计它们,这可能是既繁琐又乏味的过程。以编程方式创建合成数据的能力进一步加快了价值实现的速度。


公司可以选择使用提供合成数据的第三方厂商,或者建立自己的内部团队。我们知道,很难找到并雇佣那些拥有技术艺术、游戏开发和机器学习专业知识的人才。当团队决定利用合成数据时,我们听说,他们将合成数据和实际数据混合在一起用于训练。通常这一比例是 80%~90% 的合成比例,10%~20% 的真实比例。


学术研究正在致力于创建能够代表 100% 训练数据的合成数据的技术,并创建于实际数据训练模型具有相同准确度水平的模型。目前,跨域应用程序是合成数据的亮点。例如,如果你经营一家自动驾驶汽车公司,制造的汽车将在旧金山和东京行驶,你就需要来自这两个地点的训练数据。也许你没有东京数据的权限。但如果你只根据旧金山的数据进行训练,然后在东京驾驶汽车,那么它的表现将比你用合成的东京数据以及真实的旧金山训练的数据更槽糕。


目前大多数合成数据都存在“现实差距”,也就是说看起来不太真实。反过来,应用于域训练的合成数据很少能媲美域中实际数据的表现。在一个领域内,合成数据可能会受到挑战,因为它通常需要包含物理行为,如重力、惯性等。要想正确地反映出物理原理很难,但游戏引擎正在进步。


Berkeley、OpenAI 和 Nvidia 的先进学术研究,推动了仅使用 100% 合成数据生成高正确度模型的能力。例如,OpenAI 的一篇论文,使用域随机化来构建一个数据生成管道来合成对象。由 100% 合成数据生成的机器人抓取模型,在抓取以前从未见过的真实物体时,获得了 90% 以上的成功率。


AI 前线注:OpenAI 的论文见:《用于机器人抓取的域随机化和模型生成》(《Domain Randomization and Generative Models for Robotic Grasping》) https://arxiv.org/pdf/1710.06425.pdf


即使将不同类型的合成数据混合在一起进行训练,也会产生积极的影响。Nvidia 的一篇论文发现,使用混合域随机化和照片级真实感数据生成一个物体姿态估计模型,该模型能够与由真实和合成数据组合进行训练的最先进的网络进行竞争。我们还没有见过有哪家公司能够成功地使用 100% 合成数据来构建在生产中运行的高准确度的模型。


AI 前线注:Nvidia 论文见《用于抓取家居物品的语义机器人抓取的深度物体姿态估计算法》(《Deep Object Pose Estimation for Semantic Robotic Grasping of Household Objects》)https://arxiv.org/pdf/1809.10790.pdf


合成数据的用例范围很广。对于计算机视觉应用来说,合成数据额数据的最常见用例是自主系统(如视频输出、机器人和无人机)、农业科技、房地产、视频监控、中枢模式发生器、零售业和国防。由于合成实体数据可以删除姓名、电子邮件、社会安全号码等信息,但仍然能够反映出基础数据集,因此受到了隐私问题的推动。这有助于数据科学家在不访问敏感信息的情况下进行实验。我们已经看到合成语音数据在媒体制作的应用案例。


AI 前线注:中枢模式发生器 Central pattern generators (CPG) 是一种不需要传感器反馈就能产生节律模式输出的神经网络。研究表明,即便缺少运动和传感器反馈,CPG 仍能产生有节律的输出并形成"节律运动模式"。


我们将 45 种合成数据解决方案分为六类:


  1. 工具

  2. 传感器(相机、光学雷达、雷达和 GPS)

  3. 实体

  4. 语音

  5. 取证

  6. 利用合成数据的产品 / 虚拟形象


下图的展示并不全面,但突出了该领域中更为知名的一些产品。



上图的展示,包括利用合成数据的产品,如媒体制作。在过去的几个月里,出现了一波“Deepfake”热潮,即一种视频或音频,它们呈现的都是一些实际上并没有发生的事情。例如,Lyrebird 可以复制美国总统特朗普的声音。音乐游戏 Synthesia 最近发布了一段大卫·贝克汉姆抗击疟疾的视频,其中就是利用了机器学习来生成内容。现在网上还出现了伊隆·马斯克、萨尔瓦多·达利和巴拉克·奥巴马的 Deepfake。


AI 前线注:萨尔瓦多·达利(1904 年 5 月 11 日~1989 年 1 月 23 日),西班牙加泰罗尼亚画家,因其超现实主义作品而闻名,与毕加索、马蒂斯一同被认为是 20 世纪最有代表名的三位画家。


Deepfake 是一个日益引起关注的问题,因为它们往往与现实几乎无法区分。McAfee、Symantec 和学术界正在研究用于检测 Deepfake 的取证技术。Synmantec 在 Black Hat 2018 发表的一篇论文,描述了如何辨认出基于 Google FaceNet 的虚假视频。奥尔巴尼大学推出了一种软件,可以通过分析模拟人脸眨眼的频率,来识别出是否 Deepfake 视频。我们相信在未来,为了避免混淆,合成的音频和视频内容将会被添加水印。


合成数据是机器学习和数据科学领域的一个上升趋势。合成数据存在于语音、传感器和实体数据之间。与数据标记技术相比,合成数据带来了许多好处,包括速度、成本、规模和多样性。有一些厂商提供合成数据即服务(Synthetic data as a service),其他厂商则利用它来改进媒体制作。随着 Deepfake 的出现,人们需要对真实内容和合成内容进行验证。这一领域刚刚起步,但发展迅速。



公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-05-29 08:005870
用户头像

发布了 520 篇内容, 共 236.7 次阅读, 收获喜欢 1543 次。

关注

评论

发布
暂无评论
发现更多内容

在 Python 中如何使用 format 函数?

海拥(haiyong.site)

三周年连更

OpenGL入门三:变换原理简介

轻口味

opengl 三周年连更

Mac M1 8G丐版尝试本地部署Stable Diffusion

IT蜗壳-Tango

三周年连更

区块链技术是什么?比特币又是什么?硕士是区块链研究方向,就业怎么办?

千与编程

区块链+ 研读版

如何用 python 设计一个兑奖程序?

海拥(haiyong.site)

三周年连更

【愚公系列】用友系列之YonBuilder低代码平台概论和基本使用

愚公搬代码

《写好README很重要》

后台技术汇

三周年连更

2023-05-01:给你一个整数 n , 请你在无限的整数序列 [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, ...] 中找出并返回第 n 位上的数字。 1 <= n <=

福大大架构师每日一题

golang 算法 rust 福大大

Go语言开发小技巧&易错点100例(六)

海风极客

三周年连更

Haproxy进阶管理:命令行控制后端节点上下线

乌龟哥哥

三周年连更

文心一言 VS chatgpt (13)-- 算法导论3.1 8题 3.2 1题

福大大架构师每日一题

福大大 ChatGPT 文心一言

《人生第一次》有感

后台技术汇

三周年连更

微信业务架构图

冲虚

Linux 文件与目录管理

鸿蒙之旅

Linux 三周年连更

Matlab凸优化算法

袁袁袁袁满

三周年连更

Java HashMap 的常用方法,Java工程师必知!

Java架构历程

Java hashmap 三周年连更

ssh 连接Linux确实很安全,这6种身份验证方法很强!

wljslmz

Linux SSH 三周年连更

通过ChatGPT来写论文

石云升

AIGC ChatGPT 三周年连更

信道的定义和分类

timerring

信息论

ChatGPT 将如何影响编程行业?程序员是被将被替代? | 社区征文

格斗家不爱在外太空沉思

ChatGPT 三周年征文

Go 为什么不支持可重入锁?

乌龟哥哥

三周年连更

云安全技术管理

阿泽🧸

云安全 三周年连更

高级视频编码器性能对比(H265、VP9、AV1)

轻口味

音视频 视频编解码 三周年连更

模块1-学生管理系统架构设计

冲虚

【Python实战】Python采集情感音频

BROKEN

三周年连更

徒手体验卷积运算的全过程 | 社区征文

迷彩

Python 深度学习 卷积 三周年征文 三周年连更

一文读懂Stable Diffusion教程,搭载高性能PC集群,实现生成式AI应用

蓝海大脑GPU

平凡而不凡,那些用键盘改变世界的“新型劳动者”

开放原子开源基金会

开放原子全球开源峰会

Intelligent Enterprise 和 企业数字化转型的关联关系

Jerry Wang

人工智能 数字化管理 三周年连更

光粒科技亮相AWE 2023展会,Holoswim2智能泳镜沉浸式领航

科技热闻

算法题每日一练:矩阵置零

知心宝贝

数据结构 算法 前端 后端 三周年连更

Deepfake盛行背后:合成数据到底有什么用?_AI&大模型_Astasia Myers_InfoQ精选文章