贯穿AI生命周期各阶段的道德问题：数据标注部分

随着AI在市场上得到更广泛的采用并被作为各种用例中的工具实现，更多的挑战也应势而生。AI项目遇到了一个长期的关键问题，即合乎道德的AI以及数据中的偏见处理。在AI发展初期，这个问题并不明显。数据偏见是指数据集中某个元素的代表权重过大或不足。如果使用有偏见的数据来训练AI或机器学习模型，就会导致有偏差、不公正、不准确的结果。澳鹏正在深入研究AI生命周期各个阶段合乎道德的AI数据是什么样的。在数据旅程的每一步，都有可能出现导致数据偏见的常见错误。值得庆幸的是，有一些方法可以避免这些隐患。在本系列文章中，我们将探索AI生命周期以下四个阶段中的数据偏见：

数据获取
数据准备
模型训练和部署
人工模型评估

并非所有的数据集都是平等的，但我们希望帮助您驾驭AI生命周期中复杂的数据道德问题，这样您就可以为AI模型创建最好、最有用且最可靠的数据集。

数据准备中的偏见

在使用数据训练AI模型之前，必须保证这些数据可读并可用。AI数据生命周期的第二阶段是数据准备，即获取一组原始数据，对其进行排序、标注、清理和复核。澳鹏为客户提供人工标注、AI自动数据标注等数据准备服务。这两者结合应用，则能以尽可能低的偏见交付高质量的数据。在数据准备阶段，首先由标注员检查每条数据，并为其提供标签或标注。根据不同的数据类型，可能有以下标注方式：

在图像中的对象周围加边界框
转录音频文件
将书面文本从一种语言翻译成另一种语言
标注文本文件或图像文件

我们世界各地的人工标注员完成数据标注后，数据便进入数据准备的下一环节：质量保证。质量保证过程需要人工标注员和机器学习模型来检查数据的准确性。如果数据不适合项目或数据标注错误，则会从数据集中删除相应数据。在数据准备阶段的最后，数据集接着进入模型训练阶段。在数据集进入这个阶段之前，必须保证它一致、完整并且干净。高质量的数据造就高质量的AI模型。偏见可以通过多种方式引入数据准备过程，并产生道德问题，这些问题随后又被带进AI模型。数据准备中最常见的数据偏见类型包括：

数据缺口
数据标注员训练不当
标注不一致
个人偏见
数据过多或过少

数据中有缺口

AI数据集中潜入偏见的一种最常见情况是，数据缺口和数据代表性不足。如果数据集中缺少某些分组或类型的数据，就会导致在数据和生成的AI模型输出中出现偏见。常见的数据缺口包括少数群体代表性不足。数据缺口也可能是某类数据或罕见用例示例的代表性不足。数据缺口通常是无意造成的，因此在准备阶段检查数据，查出这些数据缺口非常必要。如果不能通过添加更多代表性数据来解决数据缺口问题，用于训练AI模型的数据就会存在数据缺口，模型随之就会生成不太准确的结果。

数据标注员没有经过良好的训练

数据准备阶段引入偏见的另一种常见情况是，使用未经训练的数据标注员标注数据。如果数据标注员训练不足，不了解其工作的重要性，则标注过程中更有可能出现标注错误或是偷工减料的情况。为数据标注员提供全面的训练和支持性监督，能够限制数据准备过程中出现的错误数。在数据标注过程中，未经训练的数据标注员可能通过几种方式引入偏见，其中包括标注不一致和个人偏见。

标注不一致

如果由多个标注员标注一个数据集，务必要训练所有标注员在标注每个数据点时保持一致性。当相似类型的数据标注不一致时，就会产生回忆偏见，导致AI模型的准确性降低。

个人偏见

在标注过程中，数据标注员引入偏见的另一种情况是，夹杂他们自己的个人偏见。我们每个人对周围的世界都有一套独特的偏见和理解。虽然标注员对世界的独特理解能够帮助其标注数据，但却可能会在数据中引入偏见。例如，如果标注员标注带有面部表情的、流露情绪的图像，则来自两个不同国家的标注员可能会提供不同的标注。这类偏见是数据准备中所固有的，但可以通过全面质量保证流程加以控制。此外，企业还可为数据标注员提供避免无意识偏见的训练，设法减少偏见对数据标注的影响。

只使用人工标注或只使用机器标注

过去，标注数据的唯一方法是，由人工检查每一条数据，并用标签标注。近来，机器学习程序已经能够标注数据并创建训练数据集。围绕两种标注方法的争论总是很激烈：哪个方法更好呢？我们想要双管齐下，既使用人工标注员标注数据，同时也使用机器学习程序对数据标注进行质量保证检查。这样做才能构建一流质量的数据集。

数据过多或过少

在准备阶段评估数据时，还需要考虑的重要一点是，要确保拥有适量的数据。训练数据可能太少，也可能太多。如果训练数据太少，算法将无法理解数据中的模式。这被称为欠拟合。如果训练数据太多，模型的输出会不准确，因为它不能确定哪些是噪声，哪些是真实数据。为模型提供的数据过多称为过拟合。为AI模型创建大小合适的数据集，将能提高模型输出的质量。排除“无关紧要的”数据在数据准备过程中，认真检查数据并从数据集中删除不适用于未来模型的数据很重要。在删除数据之前一定要反复检查，因为最初或对某人来说看似“无关紧要的”数据实际上可能并非如此。在这个阶段删除“无足轻重”的数据会导致排除方面的偏见。数据集的某个部分很小或是不常见，并不意味着它不重要。

数据准备中偏见问题的解决方案

虽然在数据准备过程中有多种方式可能会在数据集中引入偏见，但解决方案也有很多。下面介绍了一些可以在数据准备过程中避免偏见的方法。

雇佣多元化和有代表性的员工

在数据准备过程中消除偏见的一种最重要的方法是，确保决策者和参与者具有广泛的代表性。雇佣多元化的员工对减少AI训练数据集中的偏见大有帮助。雇佣多元化的员工才是第一步，我们还可以再进一步，为所有员工提供无意识偏见训练。无意识偏见训练能帮助员工更好地识别自己的个人偏见，并有意识地在所标注的数据中寻找偏见。

在质量保证流程中增加偏见检查环节

如果只能做一件事来减少数据准备中的偏见，那应该是在质量保证流程中增加偏见检查环节。大多数偏见都是无意的。这意味着因为没有人察觉，或是没有人想去查找，导致偏见潜入到数据中。通过在质量保证流程中增加偏见检查环节，可以有意识地进行偏见检查。这样有助于提醒员工明确查找数据中的偏见，批判性地思考数据中应该和不应该代表什么。为员工提供无意识偏见训练，将使他们更容易在数据准备过程中查找和消除偏见。

为标注员提供优厚的报酬和公平的待遇

偏见在AI数据中普遍存在。识别数据缺口需要敏锐的眼光和全面的训练。为解决AI训练数据集中的偏见问题，企业的一个简单做法是，确保其数据标注员获得优厚的报酬和公平的待遇。工作报酬优厚的员工更有可能关注生产高质量的内容。企业善待员工，员工就更有可能以高质量的工作作为回报。本质而言，合乎道德的AI始于那些为训练AI模型而标注数据和清理数据的人。这些人的工作报酬不令人满意，偏见扩散的可能性就更大。要为AI模型建立一个更合乎道德的美好世界，就应该回归起点：从数据开始。AI生命周期包括四个数据处理阶段，它们都有可能给训练数据集引入偏见。在数据准备阶段，至关重要的是要有训练有素、享有优厚报酬的员工，他们可以识别无意识的偏见，就能帮助尽可能多地消除偏见。