合成数据及其在AI领域中的作用

什么是合成数据？

合成数据是由人工创建而非从现实生活中获得的数据，它从机器学习对数据的需求发展而来。最初，为了精确训练AI模型，必须获得涵盖所有可能场景的训练数据。如果某个场景没有发生或未被获得，就没有相应的数据，机器理解该场景的能力就会存在巨大的缺口。通过计算机程序创建相应的合成数据，就能弥补应用场景中的这些缺口。通过创建类别更广的数据集，就可以更自由地为众多行业的产品和服务训练涵盖更广的模型。虽然合成数据的概念听上去很新颖，但实际上它已出现了很久。据说，这一概念由Donald Rubin在1993年的一篇文章中提出，文章题为《讨论统计披露的限制》，发表在《官方统计》杂志上。该文章的重点是数据私有化，其中指出，“本文提供的建议是，不发布实际的微观数据，而只发布使用多重插补构建的合成微观数据，这样就可以使用标准统计软件对其进行有效的分析。”最终结果是数据不包含任何来自现实世界的数据，这点仍然是当今合成数据的主要优势。对合成数据的需求集中在多个行业，尤其是由自动驾驶驱动（双关语）的行业。自动驾驶行业已证明使用合成数据的诸多好处。合成数据现在已经推广到所有利用计算机视觉的行业，如无人机、监控摄像头、零售和消费电子产品。

合成数据如何助力AI？

随着对AI训练数据需求的增长，对合成数据的需求也在增长，其旨在帮助企业获得可靠的训练数据，以改善其产品和服务。现实世界的数据具有局限性，它基于已经发生的场景，并且包含个人身份信息（PII）。虽然，在用于训练目的之前，很容易就能从数据中删除PII。但是，在现实世界中，编排可用于训练目的的特定场景并不容易。这些场景（也称为边缘情况）是合成数据相较于人工采集的数据的真正优势所在。

合成数据如何帮助您？

使用合成数据的主要优势包括：

降低成本；
提高数据采集速度；
数据不受PII影响；
数据集具有包容性；
获取罕见事件的数据（边缘情况）；
先进、准确的标注。

所有这些因素都是采用合成数据的重要原因，但同样重要的是，我们需要认识到，人类仍然在AI生命周期的数据中发挥作用。现实世界的数据要与合成数据结合使用，才能确保模型的正常运行。现实世界的数据还包含合成数据无法自然解释的异常值。虽然您可以对合成数据进行编程，以说明某些场景或边缘情况，但它并不会包含那些自然产生的异常值。合成数据始终需要结合人为数据才能成功。人为数据是用于生成合成数据的计算机程序的起点。由于这些人为数据用于初始生成目的，因此需要确保其高质量，以便生成的数据具有相同的质量。创建数据后，需要实施质量监控，以确保没有错误。为此，需要根据高质量的人工标注数据对数据进行测试。结合使用人为数据与合成数据还有两个好处：能够以较少的资源和时间以及较低成本数据增加样本量。由于部分数据由计算机生成，因此成本较低，这就使公司能够将节约的资金投入进一步研究。快速完成的人工标注数据可以节省时间。同样值得注意的是，这样得到的数据集将更具包容性。使用合成数据可以确保生成的数据来自中立的统一观点，不受偏见和其他影响因素的影响，并包含适当的多样性。PII也不太会成为一个困扰，因为所有合成数据均包含模拟数字。合成数据还有一个不太明显但却非常重要的好处是安全性。除了保护隐私，使用合成数据还能保护人类的身份安全，生成的边缘情况也有利于安全。例如，这些场景可以帮助智能汽车在不需要司机的情况下提高驾驶和停车能力。这意味着通过年度测试，会减少道路上发生的事故。银行也可以对模拟欺诈程序进行测试，以确保其所有的安全设置能够防范任何潜在的攻击，让客户安心。

未来一片光明——合成AI预测

虽然目前合成数据的使用率很低，但Gartner预测，到2030年，它将变得更为普遍。目前，合成数据仅占所有市场数据的1%，到2025年，预计它将占到约10%。这一增长将扩大AI应用的用例，进而增加AI行业的就业机会。到2027年，数据市场预计将增长至11.5亿美元，即复合年增长率达到48%。正因为如此，在我们《关于AI和数据未来的5大趋势》中，合成数据的崛起成为其中一大趋势。综上所述，利用合成数据的主要市场是任何利用AI助力计算机视觉的市场。随着合成数据变得越来越普遍，它的用例将扩展到防止金融欺诈、医疗保健诊断模型和营销，帮助确保让客户获得正确的信息或产品。