一、基本信息

论文题目：《Sensitive Task Assignments in Crowdsourcing Markets with Colluding Workers》

发表时间：ICDE 2018

论文作者及单位：

Haipei Sun （Department of Computer Science, Stevens Institute of Technology，Hoboken, New Jersey, USA）

Boxiang Dong （epartment of Computer Science, Montclair State University，Montclair, New Jersey, USA）

Bo Zhang （Department of Computer Science, Stevens Institute of Technology，Hoboken, New Jersey, USA）

Wendy Hui Wang （Department of Computer Science, Stevens Institute of Technology，Hoboken, New Jersey, USA）

Murat Kantarcioglu （Department of Computer Science, The University of Texas at Dallas，Richardson, Texas, USA）

论文地址：https://ieeexplore.ieee.org/document/8509263

二、摘要

众包已经引起了一些安全问题。其中一个问题是如何在众包市场中分配敏感任务，特别是当众包中存在共谋者时。在本文中，我们考虑了敌对的合作参与者，他们打算通过交换信息来提取敏感数据。我们设计了一个三步敏感任务作为签名方法：（1）根据工人的回答，通过估计答案的真实性来量化工人的成对合谋概率的合谋估计步骤；（2）执行启发式抽样方法的工人选择步骤，以选择合谋概率满足的最少工人。是给定的安全性要求；（3）任务划分步骤，该步骤将敏感信息在选定的工作人员之间进行划分。我们在现实和合成数据集上进行了大量的实验。结果表明，该方法具有准确性和有效性。

三、论文主要内容与工作

在过去的十年里，众包系统的出现是为了完成繁琐的任务和从人群中收集信息。AmazonMechanicalTurk（AMT）就是这样一个系统，它可以方便地接触到大量的人类工人。雇主（称为请求者）雇佣员工（称为工人）执行任务（称为点击，人力智能任务的缩写），以换取AMT的工资（称为奖励）。虽然众包已被证明有助于解决机器和人都无法单独解决的问题和科学挑战，这引起了任务请求者和参与者的严重隐私问题。例如，任务请求者如何从参与者那里获取私人信息（例如移动人群感知应用程序中的GPS位置）？任务请求者（如有兴趣识别医疗表单和保险索赔图像中的文本的公司）如何在不向人群透露私人信息的情况下执行任务？在本文中，我们主要关注后一个问题，即如何保护包含敏感信息的众包任务（如表单数字化和图像标记）的任务隐私？

在设计面向众包的任务隐私保护机制方面，存在一些挑战。首先，由于众包的使用者为人，传统的加密方法不能在众包环境中用于隐私保护，因为人类参与者可能无法解释加密数据。第二，应用某种形式的干扰来实现某种隐私保证的数据转换方法（例如，k-匿名性）可能会降低工人响应的质量。对于精度敏感的应用程序，隐私保护的费用可能会严重阻碍现有数据干扰解决方案的采用。
在本文中，我们考虑一种替代方法作为任务划分来保护敏感数据。已经显示[2]、[3]敏感众包任务可以拆分为多个分区；任何单个分区都不允许攻击者重建原始敏感数据。这些分区作为命中分配给各个工作人员。请求者收集这些点击的答案并将其作为最终结果合并。

任务划分方法的一个弱点是，当工作人员串通时，它很容易受到攻击。在众包平台上，员工之间的共谋并不困难。一个具有多个身份的单个工作人员成功地进行了协调攻击（所谓的“Sybil攻击”）[4]，[5]。最近对亚马逊机械土耳其人的分析发现，它很容易受到工人勾结的协同攻击[6]。最近的工作[7]、[8]表明，众包平台（包括Amazon Mechanical Turk（MTURK）和其他三个平台）上的工人确实不是独立的，而是在其他众包人员的社交网络内工作。
与现有工作[9]，[2]假定工人之间的共谋已从外部知识边缘识别出来不同的是，我们假设工人之间的潜在共谋不可用于任务分配。我们的目标是量化工人之间相互勾结的可能性，从而计算分配敏感任务部分给K>2工人的披露风险。我们的目标是找到一个任务分配方案，将敏感任务分区分配给一组披露风险从未超过用户指定阈值θ（定义为θ-安全任务分配）的工人。直观地说，敏感任务划分到的子任务越多，并且分配给不同的工作人员，这些工作人员就越不可能串通泄露敏感任务。然而，将任务分配给更多的工人会带来更高的众包成本。因此，我们的目标是找到能够满足θ-安全任务分配要求的最少工人。我们的θ-安全任务分配方法包括三个步骤：

步骤1（称为共谋估计）量化了员工根据他们的回答质量相互勾结的探测能力；
步骤2（称为工人选择）选择满足θ-安全分配要求的最少一组工人；
步骤3（称为任务分区）对敏感任务进行分区，并将分区分配给选定的工作人员。
我们做出以下贡献。首先，对于共谋评估步骤，我们发现了众包员工之间隐藏的敌对共谋。一些现有的工作[10]模拟层依赖于工人反应的相似性来检测共谋，这可能导致大量的假阳性[10]。我们对一个真实的众包评级数据集进行的分析也表明，仅仅通过比较其评级分布，就很难将共谋工人与独立工人区分开来。我们对真实数据集的关键观察是，勾结工人的答案始终偏离真实答案的同一面，而对于诚实工人，他们的偏差分布更为随机。基于这一观察，我们设计了一种新的算法，通过考虑答案的相似度和与真实答案的偏差，从答案中估计出工作人员的成对合谋概率。主要的挑战是如何发现真正的答案，假设它不可用。为了应对这一挑战，我们采用真相发现方法[11]来评估真实答案以及工人的素质。

其次，对于工人选择步骤，我们根据第一步计算出的成对合谋概率，选择任务满足θ-安全要求的工人。首先，我们证明对于任何k-子集（k>2），计算这些工人的合谋概率的问题是p-完全的。因此，我们设计了一种基于启发式抽样的方法，即MCS方法，能够有效地估计K工人的合谋概率。其次，我们设计了一个基于随机游走的有效算法，以选出θ-安全性最小的工作人员。
第三，对于任务划分步骤，我们考虑一个可以划分为多个组件的通用任务类，其中每个组件都可以由一个工作人员独立完成，而没有单个组件泄漏敏感信息。我们为关系和多媒体数据（如图像和视频）提供了各种任务划分方案。特别是对于关系数据，我们设计了一个基于众所周知的图着色问题的分区解决方案。
最后但并非最不重要的是，我们对真实和模拟设置执行了广泛的经验集。我们使用从一个大型电子商务组织获得的真实数据集（工人承认的共谋）。结果表明，该方法估计的合谋概率是准确的。此外，我们的方法是可扩展的。例如，它可以在45秒内为2000名工人和10000个任务确定一个安全的任务分配方案。
论文的组织结构如下。第二节介绍了准备工作。第三节介绍了如何计算成对合谋概率。第四部分和第五部分分别讨论了我们的员工选择策略和任务分配方案。第六节展示了实验结果。第七节讨论相关工作。第八节结束论文。

四、总结与将来可以做的工作

本文研究了群体众包中的共谋行为，即敌对的共谋者通过共享任务来获取敏感信息。为了保护数据隐私，我们设计了一种有效的方法：（1）选择一组共谋概率在阈值范围内的工作人员；（2）将敏感任务分成多个小部分，并将其分配给选定的工作人员。实验结果证明了该方法的有效性。未来，我们的目标是在选择任务分配的工人时，考虑工人的素质。

论文笔记：Sensitive Task Assignments in Crowdsourcing Markets with Colluding Workers

一、基本信息

二、摘要

三、论文主要内容与工作

四、总结与将来可以做的工作

猜你喜欢