Rasa课程、Rasa培训、Rasa面试、Rasa实战系列之Bad Label Detection

Rasa课程、Rasa培训、Rasa面试、Rasa实战系列之Bad Label Detection

Bad Label Detection

Identifying Mislabeled Instances in Classification Datasets
Nicolas Michael Müller, Karla Markert

论文链接:https://arxiv.org/abs/1912.05283

在这里插入图片描述

监督机器学习的一个关键要求是标记的训练数据,它是通过用适当的类注释未标记的数据来创建的。因为这个过程在很多情况下不能由机器完成,所以标记需要由人类领域的专家来执行。这个过程往往在时间和金钱上都很昂贵,并且容易出错。此外,手动查看整个标记数据集的成本通常非常高,因此许多现实世界的数据集都包含错误标记的实例。
为了解决这个问题,我们在本文中提出了一种非参数端到端管道,用于在数字、图像和自然语言数据集中查找错误标记的实例。我们通过向 29 个数据集添加少量标签噪声来定量评估我们的系统,并表明在查看我们系统的前 1% 推荐时,我们发现平均精度超过 0.84 的错误标记实例。然后,我们将我们的系统应用于公开可用的数据集,并在 CIFAR-100、Fashion-MNIST 等中找到错误标记的实例。我们发

猜你喜欢

转载自blog.csdn.net/duan_zhihua/article/details/123932446