差分隐私的作用和应用举例

目录

一、差分隐私的概念

二、差分隐私应用举例

三、差分隐私噪声添加机制


一、差分隐私的概念


差分隐私是为了解决差分攻击而引入的解决方案,它可以有效防止研究人员从查询接口中找出自然人的个人隐私数据。其原理是在原始的查询结果(数值或离散型数值)中添加干扰数据(即噪声)后,再返回给第三方研究机构;加入干扰后,可以在不影响统计分析的前提下,无法定位到自然人,从而防止个人隐私数据泄露。

差分隐私主要适用于统计聚合数据(连续的数值,或离散的数值),如交互式统计查询接口、API接口、用户侧数据统计等。

差分攻击:是通过比较分析有特定区别的明文在通过加密后的变化传播情况来攻击密码算法的。差分攻击是针对对称分组加密算法提出的攻击方法,看起来是最有效的攻击DES的方法

二、差分隐私应用举例


为了防止攻击者利用减法思维获取到个人隐私,差分隐私提出了一个重要的思路:在一次统计查询的数据集中增加或减少一条记录,可获得几乎相同的输出。

也就是说任何一条记录,它在不在数据集中,对结果的影响可忽略不计,从而无法从结果中还原出任何一条原始的记录。

假设原始数据集为D(可以理解为一张表),在其基础上增加或减少一条记录构成D',这时D和D'为临近数据集;假设某个差分隐私算法为A(),对数据集D运算并添加噪声的结果为A(D) = V;对数据集D'运算并添加噪声的结果为A(D') = V';V和V'就是统计运算的结果,差分隐私要求对临近数据集的运算结果基本一致,即V = V'。

选用不同的输入,输出也会不同,我们用P()表示A(D) = V的概率,则对于所有的输出V,要求:

在数学上,当ε比较小时,大致是这样:

于是,当ε比较小时,公式也可以写为:


这个公式可以帮忙理解差分隐私的原理。 

ε被称为隐私保护预算,用于控制隐私保护算法A()在邻近数据集上获得相同输出的概率比值。ε越小,隐私泄露的风险就越小,但是引入的噪声就越大,输出的数据集的研究价值也越小。如果ε = 0,则表示该差分隐私算法在所有邻近数据集上获得了完全相同的输出,即不可能泄露任何用户的隐私,但这样对研究机构来说就没有研究价值了。

差分隐私从数学上证明了,即使攻击者已掌握除某一条指定记录之外的所有记录信息(即最大背景知识假设),它也无法确定这条记录所包含的隐私数据。

三、差分隐私噪声添加机制


通常使用如下机制来实现差分隐私保护:

● 拉普拉斯(Laplace)机制,在查询结果里加入符合拉普拉斯分布的噪声(也可以在输入或中间值加噪声),用于保护数值型敏感结果


● 指数(Exponential)机制,用于保护离散型敏感结果(如疾病种类)。

猜你喜欢

转载自blog.csdn.net/qq_38998213/article/details/131415587