负责任的训练数据：三个重要方面

毫无疑问，人工智能（Artificial Intelligence）技术一定会在接下来的几年中持续快速发展，并与我们的日常生活愈发密切地联系在一起。现在，企业必须要承担起责任，实施负责任的AI，以最大限度地提高透明度，减少偏见，并指导AI技术的道德应用。毕竟，运行良好的AI应该公平地为每个人提供服务。有关负责任的政策和协议，当前制定的决策将决定AI的未来，进而决定AI将如何塑造我们的未来。数据是这些工作的基础；它是直接影响模型性能的各项AI技术的核心。模型的好坏取决于训练所使用的数据，这就是为什么数据是AI从业者在确定治理实践时可以真正有所作为的关键领域。在AI项目中，数据科学家将大部分时间花在数据采集和标注上。完成这些任务时，有三个最重要的方面：保护数据隐私，减少数据偏见，和合乎道德地获取数据。

数据隐私

作为一名AI从业者，最关心的应该是数据隐私和安全。在这一领域已有相关立法，组织的数据处理协议应符合相关规定。例如，有关个人信息保护存在国际公认的ISO标准，欧盟的《通用数据保护条例》（General Data Protection Regulation，简称GDPR）等，世界各地也存在其他要求。您的企业必须遵循与其客户所在的所有地区的数据标准。在全球某些地区，可能不存在数据保护法规，或有数据保护法规不统一的情况；无论如何，致力于负责任的AI意味着采取数据安全管理措施，并可保护您的数据供应商。在使用个人数据前，应先征求个人同意，并采取保护措施，防止任何个人身份信息的不正当使用。如果不清楚应将哪类安全协议纳入到数据管理实践中，则可考虑与第三方数据提供商合作进行数据采集。这些第三方数据供应商已具备安全协议，并从专业的角度出发，指导您安全地处理数据。

数据偏见

偏见的数据会导致偏见的结果，这是AI开发的一个简单事实。但仔细想想，所有方法都有可能会无意中将偏见引入AI模型，情况就变得复杂多了。举例来说，假如您正在构建一个语音识别模型，也许是用于汽车。语音本身就有不同的音调、口音、填充词和语法（更不用说不同的语言和方言）。假设您希望语音识别模型适用于不同人口特征和背景的驾驶员，那么您就需要能够代表每一个用例的数据。如果您收集的数据大多是男性声音，则语音识别模型通常会很难识别到女性声音。事实上，目前市场主流的基于语音的产品都存在这个问题，因为模型在训练期间并没有接触到足够多的数据类型。因此，我们面临的挑战是如何整理完整且公平的数据集，去涵盖所有用例和边缘用例。如果要创建对每个用户都有效的AI产品，首先要确保训练数据涵盖所有用户。

数据获取

提到数据获取，我们讨论的是与数据提供和准备人员待遇相关的合乎道德的方法。理想情况下，如果您提供了数据，那么您应该获得补偿（并且要意识到您是数据提供者）。补偿可以是金钱或服务的交换形式。事实上，很多数据都是在我们不知情的情况下获取的，而且数据所有权的界限也很模糊。例如，如果您正在为进行工作视频通话，那么谁将拥有该通话产生的语音数据的使用权？贵公司吗？视频通话提供商吗？通话参与者？数据所有权的界限很非常模糊。在任何情况下，致力于负责任的AI的公司都应该公开他们收集的数据对象、类型和时间，并尽可能给予提供数据的个人适当的补偿。不过，数据获取并不总是问题所在，让数据变得易于使用通常更加麻烦。您需要大量人员来清理和过滤数据，以确保数据对项目有价值，还需要更多的人使用准确的标签标注数据。这些人必须得到公平的待遇：包括公平的薪酬、开放的沟通渠道、隐私保护和舒适的工作条件。这一领域的立法主要是关于禁止现代奴隶制的法律和雇佣法，但企业还可以更进一步，确保其数据标注人员受到道德的待遇。