合成数据能否成为快速培训人工智能（AI）算法的解决方案？

你可能错过的精选文章公众号: 新天域互联

合成数据能否成为快速培训人工智能（AI）算法的解决方案？合成数据有优点和缺点; 然而，许多技术专家认为，合成数据是机器学习民主化以及加速人工智能算法在我们日常生活中的测试和采用的关键。

什么是合成数据？

当计算机人为地制造数据而不是测量并从实际情况中收集数据时，它被称为合成数据。数据是匿名的，并根据用户指定的参数创建，以使其尽可能接近真实场景中的数据属性。

创建合成数据的一种方法是使用真实数据，但从数据集中删除名称，电子邮件，社会安全号码和地址等识别方面，以便对其进行匿名处理。可以从实际数据中学习的生成模型也可以创建与真实数据的属性非常相似的数据集。随着技术的进步，合成数据与实际数据之间的差距也在缩小。

合成数据在许多情况下都很有用。与研究科学家如何使用合成材料以低风险完成实验类似，数据科学家可以利用合成数据来最大限度地减少时间，成本和风险。在某些情况下，没有足够大的数据集可用于为每种可能的场景有效地训练机器学习算法，因此创建数据集可以确保全面的训练。在其他情况下，由于隐私问题，实际数据不能用于测试，培训或质量保证目的，因为数据敏感或者是受到高度监管的行业。

合成数据的优点

巨大的数据集是深度学习机和人工智能算法的动力，有望帮助解决非常具有挑战性的问题。Google，Facebook和亚马逊等公司因其每天创建的数据量作为其业务的一部分而具有竞争优势。综合数据使各种规模和资源水平的组织都有可能利用由深度数据集提供支持的学习，最终可以实现机器学习的民主化。

在许多情况下，创建合成数据比收集实际数据更有效，更具成本效益。它也可以根据规范按需创建，而不是一旦实际发生就需要等待收集数据。合成数据还可以补充现实世界的数据，因此即使在实际数据集中没有一个好的例子，也可以对每个可以想象的变量进行测试。这使组织能够加速系统性能测试和新系统的培训。

扫描二维码关注公众号，回复： 4246207 查看本文章

当使用伪造的数据集时，减少了使用实际数据进行学习和测试的限制。最近的研究表明，使用合成数据可以获得与使用真实数据集相同的结果。

合成数据的缺点

创建高质量的合成数据可能具有挑战性，尤其是在系统复杂的情况下。创建合成数据的生成模型非常好或者它生成的数据会受到影响，这一点很重要。如果合成数据与实际数据集几乎不相同，则可能会影响基于数据的决策质量。

即使合成数据确实很好，它仍然是真实数据集的特定属性的副本。模型寻找要复制的趋势，因此可能会遗漏一些随机行为。

合成数据的应用

每当隐私问题成为诸如金融和医疗保健行业的问题或者需要大量数据集来训练机器学习算法时，合成数据集可以推动进步。以下是合成数据的一些应用：

具有记录级数据的合成数据可以用于医疗保健组织，以在保护患者机密性的同时为护理协议提供信息。模拟的X射线与实际的X 射线相结合，以训练AI算法以识别条件。

可以在不暴露个人财务记录的情况下测试和训练欺诈活动检测系统。

DevOps团队使用合成数据来测试软件并确保质量。

机器学习算法通常用合成数据训练。

Waymo通过在真实道路上行驶800万英里以及在模拟道路上行驶50亿英里来测试其自动驾驶车辆。其他汽车制造商正在使用侠盗猎车手等视频游戏来辅助其自动驾驶技术。

虽然合成数据不是万无一失的，但是当真实数据太昂贵而无法收集，由于隐私问题或不完整而无法访问时，它是增强机器学习算法的重要工具。

合成数据能否成为快速培训人工智能（AI）算法的解决方案？

猜你喜欢