隐私保护——k-匿名模型及基本改进

隐私保护数据发布PPDP (Privacy Preserving Data Publishing)

数据发布是数据管理、数据挖掘、信息共享应用中的一个重要环节。
数据发布中的隐私保护技术有：数据扰乱、数据加密、数据匿名。
数据扰乱：是一种数据失真技术，主要通过添加噪声的方式对原始数据进行随机扰动，使敏感数据失真，但扰动的过程保持数据的统计不变性，以便可继续对其进行统计分析。
数据加密：通过数据加密的技术，通过隐藏敏感数据的方式保护隐私，虽能保证数据的准确性和安全性，但是加密计算量大且可用性能减少，甚少用于数据发布中的隐私保护。
数据匿名：以k-匿名为基础的数据匿名发布技术能保证发布数据的真实性和安全性而被广泛研究。

匿名隐私保护模型
基于关系型数据表，表是列属性和行元组的一系列数据元素的集合。对于数据表T，属性可分为以下4类。

显示标识符（ID）：能唯一确定一个元组（用户记录）的属性，发布前必须删除。
准标识符（QI）：能结合其他外部信息，较高概率的识别出目标所对应记录的最小属性集合。例如：Zipcode、Sex、Birth构成的属性集合就是准标识符。
敏感属性（SA）：需要保护的信息，如疾病、收入等。
非敏感属性（NSA）：不属于以上三类的其他属性，一般可直接发布。

何为隐私保护？
是指隐藏数据持有者的个人身份信息与敏感属性信息。但出于数据分析的需要，通常需要保留数据表中的敏感属性，因此一般只删除显示标识符。
然而，Sweeney在文献中提出，即使删除所有的显示标识符，也无法保护个人隐私。

连接攻击： 攻击者通过发布数据的准标识符（QI）与其他公开发布的数据表进行连接，从而准确识别出某一记录的显示标识符和敏感属性，从而导致隐私泄露。
为防止连接攻击，通常采用对数据表T中的QI进行匿名处理，得到匿名化的数据表T’（QI’,SA,NSA），使得T’中多条记录在QI‘上取值相同。

k-匿名模型

k匿名机制：要求表中的每一条记录至少和其他k-1条记录在准标识符QI上相一致。

令TT $_{QI }(T)$ 为表 $T(d)$ 在属性集合QI上的投影，表 $T(d)$ 在属性集合QI下满足k-匿名，当且仅当TT $_{QI }(T)$ 中的任意一条记录都至少出现k次。此时TT $_{QI }(T)$ 也为匿名表 $T'(d)$ 。

定义（等价类）：将匿名表中具有相同QI属性值的所有记录称为一个匿名组或等价类。
在这里插入图片描述

$l$ -多样性

由于k匿名存在两种类型的隐私泄露攻击：同质攻击和背景知识攻击。

同质攻击：在k匿名化的数据表中，某个k匿名组内所有记录对应的敏感属性值都相同，当攻击者攻击到该匿名组时，就会泄露某些记录的敏感属性，从而导致隐私泄露。
背景知识攻击：即使k匿名组内的敏感属性值都不同，但攻击者可利用其拥有的背景知识以较高的概率推测出某些记录所对应个体的隐私信息。

为克服k匿名模型缺陷，Machanavajjhala等人提出一种增强的k匿名模型：
$l$ 多样性（ $l-diversity$ ）模型。
要求： 发布数据表中每个k匿名组至少含有l种不同的敏感属性值。使攻击者推断出某一记录隐私信息的概率将低于 $1/l$ 。

$l$ -多样性的另外两种形式

熵 $l$ -多样性
使发布数据表 $T'$ 满足熵 $l$ -多样性，当且仅当 $T'$ 中的每一个等价类均满足如下公式：

公式表明: 等价类中的敏感属性值分布越均匀，熵值越大。

事件x的自信息量： $I(x)=-log$ $p(x)$
熵：是随机变量平均不确定度的度量，是平均信息量的度量,也表示随机变量分布的均匀程度。

因此，该公式也可理解为：等价类中不同敏感属性的平均信息量的度量，即不同敏感属性的平均信息量的值必须满足一个阈值 $log(l)$ 。

递归 $（c,l）$ -多样性
发布数据 $T'$ 满足递归 $（c,l）$ -多样性，当且仅当 $T'$ 中的每个等价类均满足如下公式：

公式表明：保证每个QI-组中不同敏感属性值的出现频率不会过于偏斜。

$t-Closeness$ （ $t$ -相邻）

$l$ -多样性模型不能有效防止相似性攻击，也就是攻击者可根据每个QI-组的敏感属性值具有的语义相似性，推测出记录所有者的敏感信息。
因此，提出 $t-Closeness$ 准则，该准则要求：敏感属性值在每个QI-组中的分布和在原始数据集中的分布之间的差值不得超过阈值 $t$ 。并利用EMD来衡量两个分布之间的差值，分别对 分类型数据 和 数值型数据 给出具体计算公式。

相似性攻击：
即某一等价类中的敏感属性属于同一类别。例如：等价类中的敏感属性分别为消化不良、胃溃疡、胃炎。即敏感属性属于同一类，胃病。容易泄露个人疾病的隐私信息。

注：避免相似性攻击，可参考文章（p,k,d）-匿名模型，即p敏感、k匿名、d相异。

在k-匿名的基础上，使匿名表的每个等价类中，至少存在p个满足d-相异的敏感属性值。