合成数据的前景与风险

AI 是否有可能只使用另一个 AI 生成的数据进行训练？这听起来可能很愚蠢。但这种想法已经存在了相当长一段时间了——因为真实的新数据越来越难以获得，所以这种想法也越来越受重视。

Anthropic 就使用一些合成数据来训练他们其中的一个旗舰模型Claude 3.5 Sonnet。Meta 也使用AI生成的数据对他们的Llama 3.1模型做了微调。据说，为了Orion，OpenAI 正在从其 “推理 ”模型o1中获取合成训练数据。

但是，为什么 AI 首先需要数据——它需要什么样的数据？这些数据真的能用合成数据代替吗？

标注的重要性

AI 系统是统计机器。在使用大量实例进行训练后，它们可以习得这些实例中的模式并据此做出预测，比如电子邮件中的 “to whom”通常会出现在 “it may concern”之前。

在这些示例中，标注是一个很关键的部分。这里的标注通常是指一些文本，用来说明系统所获取的数据的含义或部分内容。它们充当路标，“教会 ”模型如何区分事物、地点和想法。

考虑这样一个场景。向一个图片分类模型提供大量的标有 “厨房 ”字样的厨房图片。在训练过程中，模型会将 “厨房 ”与厨房的一般特征（如厨房里有冰箱和台面）联系起来。经过训练后，提供一张不在初始示例集中的厨房照片，模型应该就能识别出来。(当然，如果厨房的照片被标注为 “奶牛”，模型也会将其识别为奶牛，这就凸显了好标注的重要性）。

对 AI 的需求以及为 AI 发展提供标注数据的需求，使得标注服务市场急剧发展。据 Dimension 市场研究公司估计，目前标注服务市场的价值为 8.382 亿美元，未来 10 年将达到 103.4 亿美元。虽然对于有多少人从事标注工作没有一个精确的估计，但 2022 年的一份文件指出，这一数量为 “百万级”。

大大小小的公司都依赖数据标注公司雇佣的工人为他们的 AI 训练数据集创建标签。其中一些工作的薪酬还算不错，尤其是在标注工作需要专业知识（如数学专长）的情况下。另一些工作则很辛苦。在发展中国家，标注员的平均小时工资只有几美元，而且没有任何福利或未来工作保障。

正在干涸的数据井

因此，从人文角度出发，我们有理由为人工生成标签寻找一个替代方案。例如，Uber 正在扩大其临时工队伍，从事人工智能标注和数据标注工作。这样做还有一些务实的原因。

人类的标注速度有限。标注者也会有偏见。这些偏见可能会体现在他们的标注中，进而体现在使用这些标注进行训练的任何模型中。标注者会犯错，或被标注说明弄糊涂了。而且，花钱请人来做这件事的成本很高。

总的来说，数据是昂贵的。Shutterstock 向 AI 供应商收取了数千万美元的图片库使用费，而 Reddit 则通过向谷歌、OpenAI 和其他公司授权数据赚取了数亿美元。

最后，数据也越来越难获取。

大多数模型都是在大量公共数据集上训练出来的——由于担心数据会被剽窃或无法获得信用或署名，所以数据所有者越来越多地选择屏蔽这些数据。目前，在全球排名前 1000 位的网站中，超过35%的网站屏蔽了OpenAI的Web爬虫。最近的一项研究发现，在用于模型训练的主要数据集中，约有 25%的 “高质量”数据源被限制了。

据研究机构 Epoch AI预计，如果目前的访问封锁趋势继续下去，在 2026 年到 2032 年之间，开发人员将没有数据可以用于训练生成式 AI 模型。再加上对版权诉讼和开放数据集中出现不良内容的担忧，AI 供应商不得不进行反思。

用合成数据代替

乍一看，合成数据似乎可以解决所有这些问题。需要标注？生成它们。需要更多示例数据？没问题。可以说前途无量。

在某种程度上，这的确是事实。

Os Keyes 是华盛顿大学研究新兴技术伦理影响的一名博士生。他说，”如果说‘数据是新石油’，那么合成数据就是生物燃料，可以创造，而且没有真实事物的负外部性。开始时，你可以从一个小数据集入手，从中模拟和推断出新的数据条目“。

AI 行业已将这一概念付诸实践。

Writer 是一家专注于企业级生成式人工智能公司。本月，他们首次推出了一个模型 Palmyra X 004。该模型几乎完全是用合成数据训练出来的。Writer 声称，该模型的开发成本仅为 70 万美元，而相比之下，规模相当的 OpenAI 模型估计需要 460 万美元。

微软开放模型Phi的训练也部分地使用了合成数据。谷歌的Gemma模型也是如此。今年夏天，英伟达发布了一个旨在生成合成训练数据的模型系列，而 AI 初创公司 Hugging Face 则于最近发布了一个据称是最大的合成文本AI训练数据集。

合成数据生成本身已经成为一项业务——到 2030 年，其价值可达23.4亿美元。Gartner预测，今年，人工智能和分析项目中使用的数据将有 60%是合成的。

Allen 人工智能研究所高级研究科学家 Luca Soldaini 指出，合成数据技术可用于生成不易通过 Web 爬取（甚或内容许可）来获得的训练数据。例如，在训练其视频生成器Movie Gen时，Meta 就使用 Llama 3 为训练数据中的视频片段创建字幕，然后由人类进行改进及添加更多的细节，如灯光描述。

同样，OpenAI 也表示，他们使用合成数据对GPT-4o进行了微调，为 ChatGPT 构建了类似素描板的Canvas功能。亚马逊也表示，他们生成了一些合成数据，作为真实世界的数据的补充，用于训练语音识别模型 Alexa。

Soldaini 说："合成数据模型可以根据人类的直觉——实现特定模型行为需要哪些数据——快速扩展数据集“。

合成数据的风险

然而，合成数据并不是万能的。与所有 AI 一样，它也存在 “垃圾进垃圾出”的问题。模型会生成合成数据，但如果用于训练这些模型的数据存在偏差和局限性，那么它们的输出结果也会受到同样的影响。例如，在基础数据中没有得到很好体现的群体，在合成数据中也会如此。

在这一点上，2023 年，莱斯大学和斯坦福大学的研究人员在一项研究中发现，在训练过程中过度依赖合成数据会导致模型的 “质量或多样性逐渐下降”。研究人员表示，采样偏差——不能很好地体现真实世界——会导致模型的多样性在经过几代训练后恶化（不过他们也发现，混入一些真实世界的数据有助于缓解这一问题）。

Keyes 认为，对于像 OpenAI o1 这样的复杂模型，还存在其他风险。他认为，合成数据会导致这些模型产生更难发现的幻觉。反过来，这些幻觉又会降低使用这些数据训练出来的模型的准确性，尤其是在幻觉来源不容易识别的情况下。

Keyes 补充说：“复杂的模型会产生幻觉；复杂模型产生的数据也会包含幻觉。而对于像 o1 这样的模型，开发者自己都不一定能解释它为什么会出现幻觉。”

各种幻觉叠加会导致模型胡言乱语。《自然》杂志上曾发表过一项研究，揭示了使用错误百出的数据训练出来的模型是如何产生更多错误百出的数据的，以及这种反馈循环如何导致了后代模型的退化。研究人员发现，随着模型一代一代的训练，它们会失去一些比较深奥的知识——变得更加泛泛而谈，并经常生成与所提问题无关的答案。

图片来源：ILIA SHUMAILOV 等人

一项后续研究表明，其他类型的模型，如图像生成器，也不能幸免于这种崩溃：

图片来源：ILIA SHUMAILOV 等人

Soldaini 也认为，如果我们要避免训练出健忘的聊天机器人和同质化的图像生成器，那么 “原始 ”合成数据是不可信的。他说，要 “安全”地使用合成数据，就必须对其进行彻底地审查、整理和过滤，最好能与新获取的真实数据搭配使用，就像使用其他数据集一样。

如果做不到这一点，最终就可能导致模型崩溃，即模型的 “创造性 ”降低，输出结果更加偏颇，最终严重影响其功能。虽然可以在情况变得更糟糕之前识别和阻止这个问题，但这是一种风险。

Soldaini 说，“研究人员需要检查生成的数据，迭代生成过程，并采取一些保障措施去除低质量的数据点。合成数据管道不是一台自我完善的机器；在将其输出用于训练之前，必须对其进行仔细检查和改进。“

OpenAI 首席执行官 Sam Altman 曾经认为，AI总有一天会产生足以有效训练自身的合成数据。但是，即使这是可行的，这项技术也还不存在。目前，还没有一家大型 AI 实验室发布过仅使用合成数据训练的模型。

至少在可预见的未来，我们似乎还需要人类来确保模型的训练不会出错。

声明：本文为 InfoQ 翻译，未经许可禁止转载。

原文链接：https://techcrunch.com/2024/12/24/the-promise-and-perils-of-synthetic-dat

创作场景

合成数据的前景与风险

标注的重要性

正在干涸的数据井

用合成数据代替

合成数据的风险