一、基本信息

论文题目：《SPGLAD: A Self-paced Learning-Based Crowdsourcing Classiﬁcation Model》

发表时间：PAKDD 2018

论文作者及单位：

论文地址：https://link.springer.com/chapter/10.1007/978-3-319-67274-8_17

二、摘要

像亚马逊的Mechanical Turk这样的众包平台为在图像分类、信息检索等领域执行任务收集海量数据集提供了快速有效的解决方案。众包质量控制在此类系统中发挥着至关重要的作用。然而，由于数据集定义不当，现有算法容易陷入局部最优解。为了克服上述缺点，我们提出了一种结合基于优先级的样本选取策略的自步调质量控制模型。所提出的模型确保了明显的样本在迭代过程中有更好的效果。我们还证明，所提出的自学习策略促进了常见的质量控制方法。

三、论文主要内容与工作

近年来，众包变得越来越流行，因为人们相信大众的智慧高于个人的智慧。众包平台，如 Amazon Mechanical Turk 和 CrowdFlower,，向那些为他们的答案付费的工人致敬。通过众包实现领域知识优势比聘请专家更方便、更便宜。
从多人的回答中提取真理是众包的一个重要问题。众包质量控制方法汇总了由冲突数据源提供的答案。特别是，众包质量控制方法应用于分类任务中，要求工人将对象分类到相应的类别。众包中有几个经典的分类任务，例如指示照片是否包含人、判URL和查询是否相关以及对网页进行排名。多数投票（mv）是一种启发式的直接解决方案。然而，MV方法没有考虑到不同工人和物品的可靠性。为了克服这个问题，Whitehill等人[11]提出了标签能力的生成模型和困难（glad）模型，强调工人和对象的差异。
然而，现实世界中的众包数据往往稀缺且不平衡，因为不同的员工和对象不同。贡献大量数据样本的工人的可靠性很容易学习。然而，对于模型来说，评估提供较少样本的工人是困难的。评估物体的不舒适性也有同样的问题。大多数概率模型在优化过程中处理具有相同优先级的样本，这会对后续迭代产生负面影响。自学习[6]将学习问题定义为一个简洁的双凸问题，并根据样本的易用性指导学习过程。在自定进度学习中，不同难度的数据样本以不同的速度学习，从而避免了传统众包模式的缺点，并获得更好的分类结果。
本文提出了一种新的self-paced probabilistic model ，简称为（SPGLAD）。该模型将基于优先级的样本选取策略与GLAD模型相结合，以确定容易学习的样本。此外，SPGLAD还提供了一种对自配速参数进行适当先验的方法。因此，SPGLAD能够顺利地引导学习过程，强调可靠样本的模式，而不是噪声和融合样本的模式，从而获得学习的鲁棒性。

我们将所提出的模型定义为在众包中进行完全纠正优化。本文的贡献总结如下：
1.我们提出了一种自步调众包算法（SPGLAD），它动态地将样本纳入从简单样本到困难样本的学习中。我们还定义了众包数据样本的概念简单性，并提出了一种获得适当参数先验分布的方法。
2.我们将SPGLAD解释为概率图模型，并说明我们的模型是生成模型的有效近似。
3.我们的实验表明，在合成数据集和真实数据集上，SPGLAD优于其他没有自我调整过程的模型。
本文的结构如下。第二节审查相关工作。第三节介绍了GLAD的初步符号和模型。第四节详细介绍了SPGLAD模型及其概率推理。第5节介绍了我们在实际数据集上的经验设置和方法的经验评估。第6节总结了本文，并提出了今后的工作方向。

四、总结

本文提出了一个自学习过程与传统的众包质量控制模型相结合的自学习过程自学习模型。为了避免陷入局部最优，自定步调的glad模型定义了样本的易用性，并用它们优化了模型。此外，我们还提供了作为正则化的先验，以帮助模型在迭代开始时跳过困难的样本。实验结果表明，与现有算法相比，SPGLAD模型提高了算法的性能，提高了样本选择的简便性。很容易找到排名或多个标签的模型，也可以用自定步调的方式学习。将我们的方法与这些算法相结合是未来研究的一个有前途的方向。

论文笔记：SPGLAD: A Self-paced Learning-Based Crowdsourcing Classiﬁcation Model

一、基本信息

二、摘要

三、论文主要内容与工作

四、总结

猜你喜欢