Injector: Mining Background Knowledge for Data Anonymization

摘要

现有的保护隐私数据发布的工作无法令人满意地阻止具有背景知识的对手学习重要的敏感信息。主要挑战在于建模对手的背景知识。我们提出了一种应对此类攻击的新颖方法。从要发布的数据中挖掘知识,然后在匿名化数据时将挖掘结果用作背景知识。我们采用这种方法的理由是,如果存在某些事实或背景知识,则它们应该在数据中体现出来,我们应该能够使用数据挖掘技术找到它们。我们的方法同时改善了隐私和实用性,因为它既可以防止背景知识攻击,又可以更好地保留数据中的功能/特征。然后,我们介绍用于数据匿名化的Injector框架。注入器从要发布的数据中挖掘负面关联规则,并在匿名化过程中使用它们,合并这些负关联规则。我们还开发了一种高效的匿名算法来计算结合了背景知识的注入表。实验结果表明,Injector降低了针对背景知识攻击的隐私风险,同时提高了数据实用性。

引言

在背景知识攻击中,对手可能拥有背景信息,使她能够从等价类的敏感属性值集中消除某些值,然后以高精度推断出敏感值。对手拥有的背景知识可能是一些已知的事实,例如男性患者不能患有卵巢癌,或有关特定人群的一些公共人口统计学信息,例如某些种族的年轻患者不太可能患有心脏病。具有这些附加信息的强大对手可以对个人的敏感值做出更精确的推断。

l-diversity直接阻止同质性攻击,但不能令人满意地处理背景知识攻击。要求手动指定对手可能具有的背景知识是不合理的。

在本文中,我们提出了一种新颖的方法来对对手的背景知识进行建模。我们的方法是通过挖掘要发布的数据来生成此类知识。我们采用这种方法的理由是,如果存在某些事实或知识,它们应该在整个表格中显示出来,并且我们应该能够使用数据挖掘技术来找到它们

Injector仅使用否定关联规则作为对手的背景知识。

背景知识攻击

在这里插入图片描述
在这里插入图片描述

背景知识攻击。假设爱丽丝知道鲍勃的记录属于表II中第一组,其中两个敏感值是“前列腺癌”和“卵巢癌”,那么爱丽丝立即知道鲍勃患有“前列腺癌”。表面上的多样性并不能帮助提供任何隐私,因为可以轻易消除某些值。

从数据中挖掘背景知识

背景知识

由于背景知识攻击是由于对手拥有的其他信息所致,因此检查对手如何获得此额外的知识将很有帮助。在数据匿名化的传统设置中,假定对手除了已发布的数据外还知道某些知识,例如,数据中个人的准标识符值以及一些个人是否在数据中的知识。

对手可能拥有的其他知识的列表:

  • 首先,对手可能知道一些绝对事实。例如,男性永远不会患有卵巢癌。
  • 其次,对手可能对某些特定群体的人口统计信息有部分了解。例如,对手可能知道某些种族的年轻女性患心脏病的可能性非常低。该知识可以表示为数据中存在的模式或关联规则。
  • 第三,对手可能具有一些特定于个体的知识。例如,一个对手可能亲自认识了一些目标受害者,并且对该人的敏感值有部分了解(例如,爱丽丝可能知道他的朋友鲍勃没有呼吸困难,因为她知道鲍勃每天要跑两个小时)。
  • 对手可能会从其他来源获得其他信息(例如,鲍勃的儿子告诉爱丽丝鲍勃没有心脏病)。

我们的方法

处理背景知识攻击的主要问题是,我们不了解对手可能拥有的确切知识,并且我们认为要求将背景知识作为输入参数是不可行的,因为这会给用户带来太多负担。在本文中,我们提出了一种新颖的方法来对对手的背景知识进行建模。我们的方法是从要发布的数据中提取背景信息。例如,男性永远不会患有卵巢癌这一事实应该在要发布的数据中体现出来,因此我们应该有可能从数据中发现这一事实。

此外,通常情况下,对手可能会访问相似的数据,在这种情况下从一种数据中提取的模式或关联规则可能是对手对另一种数据的背景知识的重要来源。我们知道,我们不考虑特定于对手的知识。对手可能具有的特定知识很难预测。此外,由于对手无法系统地获得此类知识,因此对手不太可能了解有关大量个人的特定知识。利用从数据中提取的背景知识,我们可以对数据进行匿名处理,从而可以有效防止使用此背景知识进行推理攻击。例如,如果出于隐私目的将记录分组在一起,则应避免将男性患者与另一个患有卵巢癌的记录分组(或至少认识到这样做无助于满足属性披露隐私要求)。

可能有人会争辩说,这种方法高估了对手的背景知识,因为对手可能不拥有从数据中提取的所有知识。我们通过以下论据证明我们的方法是正确的。

  • 首先,由于我们很难准确地确定对手所知道的和她所不知道的,因此采用一种保守的方法来利用某种类型的所有提取知识是合适的。
  • 其次,通常情况下,对手可以访问相似的数据,并且从数据中提取的知识可以成为对手在其他数据上的背景知识。
  • 最后,在匿名化过程中利用这种提取的知识通常会导致(至少部分地)保留这种知识;这增加了数据效用。请注意,仍然可以满足隐私保证。

关于我们的方法的一个有趣的方面是,可以争论说它同时改善了隐私和数据实用性。将男性患者与另一个患有卵巢癌的记录分组在一起不利于隐私,因为它提供了错误的保护感;这也不利于数据实用性,因为它会污染数据。通过不这样做,可以避免引入错误的关联并提高数据实用性。这很有趣,因为在文献中,隐私和实用性被视为两个相对的属性。增加一个导致减少另一个

Injector框架

介​​绍用于数据匿名化的Injector框架。注入器专注于一种类型的背景知识,即,准标识符值的特定组合不能包含某些敏感值。这种类型的背景知识可以表示为“性别=M⇒疾病=卵巢癌”形式的负关联规则,我们可以使用数据挖掘技术从数据中发现它们。

注入器使用基于置换的存储桶作为从原始数据构造发布数据的方法,类似于“解剖”技术和基于置换的匿名方法。

桶化方法首先将表中的元组划分为多个桶,然后通过随机排列每个桶中的敏感属性值,将具有敏感属性的准标识符分离。匿名数据由一组带有排列的敏感属性值的存储桶组成。注入器框架包含两个组件:(1)从表中挖掘负关联规则,以及(2)在数据匿名化中使用这些规则。我们分别在以下两个部分中讨论这两个组件。

挖掘负关联规则

首先将问题形式化X⇒¬Y,s是支持度,c是置信度, s% = P(X ∪ ¬Y ),c% = P(X ∪ ¬Y )/P(X).
我们建议使用期望值而不是支持值来衡量否定关联规则的强度。

给定负关联规则X⇒¬Y,满足X的元组数为n * P(X),其中n是T中的元组总数。在这些元组中,Y的敏感值至少出现一次的概率为1-(1- P(Y))n * P(X)。我们将此概率定义为规则的期望。

更通用的方法将使我们能够概率性地模拟对手的知识。我们将在第八节中对此进行更多讨论

猜你喜欢

转载自blog.csdn.net/weixin_42253964/article/details/107567462
今日推荐