【论文速递】CSET - 小数据的大AI潜力

【论文原文】：Small Data’s Big AI Potential

【作者信息】：Husanjot Chahal，Helen Toner，Ilya Rahkovsky

获取地址：https://cset.georgetown.edu/publication/small-datas-big-ai-potential/

博主关键词： 小数据，应用分析

推荐相关论文：

- 无

概要：

本问题简介提供了“小数据”人工智能方法的介绍和概述，即帮助解决很少或没有标记数据可用的情况的方法，并减少我们对从现实世界收集的大量数据集的依赖。根据对人工智能的传统理解，数据是一种重要的战略资源，尖端人工智能技术的任何有意义的进展都需要大量的数据。这种对“大数据”的过度强调忽视了我们在本文中描述的方法的存在，并掩盖了其潜力，这些方法不需要大量的数据集进行训练。

我们分两部分进行分析。第一部分介绍并分类了主要的小数据方法，我们将其大致分为五个类别——迁移学习、数据标记、人工数据、贝叶斯方法和强化学习——并列出了它们重要的原因。在这样做的过程中，我们的目标不仅是指出使用小数据方法的潜在好处，而且还加深非技术读者对数据何时以及如何对人工智能有用的理解。第二部分利用原始CSET数据集，介绍了一些探索性发现，评估了小数据方法在科学研究中的当前和预计进展，概述了哪个国家处于领先地位，以及这项研究的主要资金来源。根据我们的研究结果，我们总结出以下四个关键要点:

a)人工智能并不是大数据的同义词，在不同的小数据设置中，有几种替代方法可以使用。

b)对迁移学习的研究正在迅速增长(甚至比更大、更知名的强化学习领域还要快)，这使得这种方法在未来可能比今天更好地工作，并得到更广泛的应用。

c)美国和中国在小数据方法上竞争激烈，美国在强化学习和贝叶斯方法这两个最大的类别上领先，而中国在迁移学习这一增长最快的类别上拥有较小但不断增长的领先优势。

d)暂时来说，迁移学习可能是获得更多美国政府资助的一个有希望的目标，因为相对于整个人工智能领域的投资模式，它在小数据方法上的投资份额较小。

简介：

传统观点认为，尖端人工智能依赖于大量数据。根据这一人工智能概念，数据是一种重要的战略资源，一个国家(或公司)能获得多少数据被视为人工智能进展的关键指标。这种对数据在人工智能中的作用的理解并非完全不准确——许多当前的人工智能系统确实使用了大量的数据。但**如果政策制定者认为这是所有人工智能系统的永恒真理，他们就会误入歧途**。过分强调数据忽略了几种人工智能方法的存在，并低估了其潜力，这些方法不需要大量标记的数据集或从现实世界的交互中收集的数据。在本文中，我们将这些方法称为“小数据”方法。

**我们所说的“小数据”不是一个明确的类别，因此没有一个单一的、正式的、一致的定义。**学术文章讨论与考虑的应用领域相关的小数据，通常将其与样本的大小联系起来，例如千字节或兆字节与tb的数据流行的媒体文章试图描述与各种因素相关的小数据，如其可用性和人类的理解，或作为数据的数量和格式，使其可访问，信息丰富，可操作，特别是对于商业决策许多对数据的引用往往最终将其视为通用资源。然而，数据是不可替代的，不同领域的人工智能系统需要不同类型的数据和不同类型的方法，这取决于手头的问题

这项研究从政策制定者的角度描述了小数据。政府角色通常被认为是人工智能领域潜在的强大参与者，因为他们可以接触到现实世界互动的性质，以及他们收集大量数据的能力——例如气候监测数据、地质调查、边境控制、社会安全、选民登记、车辆和司机记录等等。大多数国家人工智能竞争力的比较都认为，中国拥有独特的优势，因为它可以获得更多的数据，理由是中国人口众多，数据收集能力强，缺乏隐私保护我们写这篇论文的部分动机是阐明一系列技术，这些技术使这种情况不像通常假设的那样真实。

最后，有时有人认为，政府机构只有能够将大量数据数字化、清理和标记，才能从人工智能革命中受益。虽然这一建议是有道理的，但认为人工智能的所有进步都取决于这些条件是不准确的。这种信念掩盖了这样一种观点，即**人工智能的未来可能不仅与大数据有关，而且在没有对大数据基础设施进行大规模投资的情况下，政府领域(及其他领域)的人工智能创新仍然可以发生**。

在接下来的文章中，我们的目标不仅是指出使用小数据方法的潜在好处，而且还加深非技术读者对数据何时以及如何有用的理解。本简介可以被视为小数据方法或可以最大限度地减少对“大数据”依赖的方法的入门读物。本分析分为两部分。第一部分从技术上解释了什么是“小数据”方法，哪些类别构成了这些方法的一部分，以及为什么它们很重要。它为第二节中绘制的数据分析提供了概念基础。第二部分来自原始的CSET数据集，特别是我们合并的学术文献语料库，涵盖了世界上90%以上的学术产出，以展示我们在研究进展、国家竞争力和资金三个支柱上对小数据方法的发现。我们试图通过这些方法审查当前和预计的科学研究进展，并确定哪个国家处于领先地位，以及所研究的研究的主要资金来源。基于我们的研究结果，我们总结了四个关键要点。

在这里插入图片描述

关键要素：

本文介绍和概述了一系列人工智能的“小数据”方法。最后，根据我们的研究结果，我们提出以下要点:

**人工智能并不是大数据的同义词，尤其不是预先标记好的大型数据集。**大数据在过去十年的人工智能繁荣中所扮演的角色是不可否认的，但如果把大规模数据收集和标注作为人工智能进步的先决条件，就会让政策制定者误入歧途。可供选择的方法多种多样，可以在不同的情况下使用不同的方法:如果手头问题的数据稀缺，但相关问题的数据丰富，也许迁移学习是有用的;如果问题可以通过访问一个模拟或真实的环境来解决，在这个环境中，智能体可以通过试错而不是预先收集的数据来学习，那么强化学习可能是需要的;等等…

对迁移学习的研究发展尤其迅速——甚至比更大、更知名的强化学习领域还要快。言下之意是，这种方法在未来可能会比现在工作得更好，应用得更广泛。因此，如果政策制定者面临一个感兴趣的问题缺乏数据，那么寻求确定相关的数据集可能会作为基于迁移学习的方法的起点，这将是很有帮助的。

根据我们基于聚类的研究方法，美国和中国在小数据方法上竞争激烈，在我们考虑的五个类别中，美国和中国都是前两个国家(按研究论文数量计算)。虽然美国在两种最大的方法(强化学习和贝叶斯方法)上拥有很大的领先优势，但中国在迁移学习(增长最快的类别)上拥有较小但不断增长的领先优势。

暂时来说，迁移学习可能是获得美国政府更多资助的一个有希望的目标。相对于整个人工智能领域的投资模式，美国政府的资金在小数据方法的资金中所占的份额较小。这可能是因为这些领域的研究没有得到美国政府的优先考虑，也可能是因为美国私营部门的参与者倾向于在这些方法的研究中分配更高比例的资金。无论如何，考虑到迁移学习作为一个迅速崛起的领域，它可能代表着一个有希望的机会，可以增加美国政府来源的资金。

【论文速递 | 精选】

论坛地址：https://bbs.csdn.net/forums/paper