一、说明

在深度学习中，数据集、数据集的标注是AI项目中必不可少的环节，一般开发人士有必要系统地了解这一系列过程。针对以上开发人员，本文将专门向他们阐述数据标注的问题。

二、数据标记的类型

2.1 计算机视觉

开发和标记高质量数据使计算机视觉模型更容易处理图像和提取相关信息。可以训练模型根据像素大小、颜色或主题等因素组织图像。有了这种数据，机器学习算法可以识别人脸、检测物体、对图像进行分类并以其他方式分析数字图像。

2.2 自然语言处理

为了帮助自然语言处理模型查找和处理文本信息，可以通过标记整个文件或使用边界框标记文本的特定部分来标记数据。模型可以利用这些标记的数据来执行情感分析、精确定位专有名词并从图像中提取文本等功能。

2.3 音频处理

音频处理涉及获取特定的声音或背景噪声，并将此信息转换为机器学习模型可以研究和学习的数据。将音频转换为书面文本后，可以应用标签来标记数据。除了能够挑选出某些声音之外，机器学习模型还可以使用这些数据来检测单个声音的声音，甚至确定说话者的情绪。

三、数据标记用例

3.1 自动驾驶汽车

依靠物体检测来感知驾驶时前方或周围是否有汽车、行人、动物和其他非车辆物体。

3.2 对话式聊天机器人

许多聊天机器人都接受了NLP模型的培训，以维持与客户的在线文本对话。他们可能会寻找特定的关键字或短语来理解客户的问题并快速解决问题。

3.3 先进农业

农民可以使用机器学习模型来发现害虫和杂草等滋扰，而根据标记数据进行训练的自动拖拉机可以挑选出健康的农产品，同时避免损坏或腐烂的农产品。

3.4 文件组织

NLP 模型开发了对文件和文档进行分类的 AI 和机器学习模型，使工作人员无需手动对在线和物理文档进行分类。

3.5 零售体验

物体识别支持无收银员结账，在客户扫描商品时处理商品价格。计算机视觉可以监控货架并报告商品库存不足或产品需要更换的时间。

3.6 衡量客户满意度

在对大量标记数据进行训练后，机器学习模型可以实时进行情绪分析，以衡量电话期间的客户满意度水平，寻找特定的单词并感知说话者的语气以确定他们的情绪。

3.7 疾病检测

放射科医生可以使用标记数据训练机器，以在MRI，CT和X射线扫描期间识别疾病迹象。基于扫描及其预编程知识，机器学习模型可以准确预测患者是否包含疾病迹象。

3.8 虚拟助手

像亚马逊的Alexa和苹果的Siri这样的虚拟助手也依赖于人类对话形式的标记数据，这些数据被输入到他们的算法中。这些助手可以从这些数据中学习，不仅可以理解请求和陈述，还可以知道如何在提供口头响应时应用正确的语气和语音变化。

四、数据标记方法

由于数据标记对于开发良好的机器学习模型至关重要，因此公司和开发人员非常重视它。但是，数据标记可能很耗时，因此一些公司可能会使用工具或服务外包或自动化该过程。

我们可以使用各种方法来标记数据;这些方法之间的决策取决于数据的大小、项目的范围以及完成项目所需的时间。对不同标记方法进行分类的一种方法是是人还是计算机进行标记。如果人类正在做标签，它可以采取三种形式之一。

4.1 内部标签

这种方法用于拥有许多专家数据科学家的大型公司，他们可以从事标记数据的工作。内部标签比外包更安全、更准确，因为它是在内部完成的，无需将数据发送给外部承包商或供应商。如果外包代理不可靠，此方法可保护您的数据不被泄露或滥用。

4.2 外包

对于需要比公司多余的资源更多的大型高级项目，此选项可能是要走的路。也就是说，它需要管理自由职业者工作流程，这可能既昂贵又耗时，因为在这种情况下，公司会雇用不同的团队并行工作以按时完成工作。为了保持工作流程和质量，所有团队在交付结果时都需要使用类似的方法。否则，需要付出更多努力才能将结果放入相同的格式。

4.3 众包

在这种方法中，公司或开发人员使用服务以较低的成本快速标记数据。最著名的众包平台之一是reCAPTCHA，它基本上生成CAPTCHA并要求用户标记数据。然后程序比较来自不同用户的结果并生成标记数据。

但是，如果我们想自动化标记并使用计算机来完成，我们可以使用两种方法之一。

4.4 合成标签

在这种方法中，我们使用原始数据生成合成数据，以提高标记过程的质量。虽然这种方法比编程标记带来更好的结果，但它需要大量的计算能力，因为您需要更多功能来生成更多数据。如果公司可以使用超级计算机或可以在合理的时间内处理和生成大量数据的计算机，则此方法是一个不错的选择。

4.5 程序化标签

为了节省计算能力，此方法使用脚本来执行标记过程，而不是生成更多数据。但是，程序化标签通常需要一些人工注释来保证标签的质量。

来自内置机器学习专家的更多信息多项式回归：简介

五、数据标记的优势

数据标记使用户、团队和公司能够更好地了解数据及其用途。主要是，数据标记提供了一种提供更精确预测和提高数据可用性的方法。

5.1 更精确的预测

与使用未标记的数据相比，准确的数据标记可确保机器学习算法中更好的质量保证。这意味着您的模型将使用更高质量的数据进行训练并产生预期的输出。正确标记的数据为测试和迭代后续模型提供了基本事实（即标签如何反映真实场景）。

5.2 更好的数据可用性

数据标记还可以提高模型中数据变量的可用性。例如，可以将分类变量重新分类为二进制变量，以使其更易于模型使用。聚合数据可以通过减少模型变量的数量或启用控制变量的包含来优化模型。无论您是使用数据来构建计算机视觉还是 NLP 模型，使用高质量的数据都应该是您的首要任务。

六、数据标记的缺点

数据标记昂贵、耗时且容易出现人为错误。

6.1 昂贵且耗时

虽然数据标记对于机器学习模型至关重要，但从资源和时间的角度来看，它可能代价高昂。假设企业采用更加自动化的方法。在这种情况下，工程团队仍需要在数据处理之前设置数据管道。手动标记几乎总是昂贵且耗时的。

6.2 容易出现人为错误

这些标记方法也容易受到人为错误（例如，编码错误、手动输入错误）的影响，这可能会降低数据质量。即使是很小的错误也会导致不准确的数据处理和建模。质量保证检查对于保持数据质量至关重要。

七、数据标记最佳实践

无论为数据标记项目选择哪种标记方法，都有一组最佳做法可以提高数据标记过程的准确性和效率。例如，我们使用大量高质量的训练数据构建机器学习模型，这既昂贵又耗时。为了开发更好的训练数据，我们可以使用以下一种或多种方法：

贴标机共识有助于抵消单个贴标机的错误和无意识偏见。错误可能包括标记错误或重复标记数据。此外，机器学习的挑战之一是当数据不能完全代表所有可能的潜在标签时，从而导致训练数据本身的偏差。
标签审核使标签保持更新并确保其准确性。通常，在构建机器学习数据库时，会定期使用新数据进行更新，这些数据需要在我们存储和使用之前进行标记。审核数据可确保正确标记新数据，并重新标记旧数据以与这些新标签保持一致。
主动学习使用另一种机器学习方法来决定哪些少量数据需要由人工标记器标记或检查。在主动学习中，人类标记器首先标记少量数据，然后使用这些标记来训练如何标记未来数据的模型。

八、数据标记工具示例

您可以使用许多在线工具和软件包来使用我们上面提到的任何方法标记数据。

LabelMe是一个开源的在线工具，可帮助用户为计算机视觉应用和研究构建图像数据库。
树懒是用于标记图像和视频文件的免费工具。其著名的用例之一是面部识别。
贝拉是用于文本数据标记的工具。
Tagtog 是一家初创公司，为自动文本分类提供同名网络工具。
Praat是一款用于标记音频文件的免费软件。

【深度学习】数据标注的常识