Tunable Measures for Information Leakage and Applications to Privacy-Utility Tradeoffs

文章目录

引言

各种信息理论措施作为泄漏措施。

  • 其中最重要的是互信息(MI):[15]-[24]
  • 同样,基于散度的量(例如先验分布和后验分布之间的总变化距离)[25]也已被提出作为泄漏度量。

但是,为解决隐私问题而提出的信息理论泄漏措施的范围在其定义中还没有明确的操作意义或对抗模型。最近,引入了信息理论公式来捕获针对“猜测”对手的隐私。

这里,隐私是根据观察者在观察公开数据后猜测私人信息的收益来衡量的。

最大泄漏(MaxL),它以从发布数据中正确猜测原始数据的任意函数的概率来量化最大对数增益[28]。我们引入了可调损失函数,即α损失(1≤α≤∞),以捕获对抗性行为。特别是,对于α= 1和α=∞,损失函数分别简化为对数损失(对数损失)[32]-[34]和错误率。损失函数的选择捕获了对手的推断,涉及完善一个或多个敏感特征的后验信念。那么,计算上不受限制的对手的对抗性收益就是由于数据释放而导致的平均(推论)损失的减少。

我们使用α损失函数来推导两个新的隐私度量,称为α泄漏和最大α泄漏。具体来说,α泄漏量化了在推断数据集中特定私有属性时对手的收益;相比之下,最大的α泄漏量化了在推断数据集的任意属性时对手的收益。特别是,最大的α泄漏分别包括MI和MaxL作为α= 1和α=∞的特殊情况。

MaxL可以根据试图最小化0-1损失函数的对手进行解释[33],[35](α=∞),即,对手通过最大似然来做出艰难的决定估算器。另一方面,我们表明,当将MI用作泄漏度量(α= 1)时,潜在的损失函数是对数损失,该模型模拟了一个(软决策)信念完善对手。除了对手观察到的内容(例如,通过边渠道发布的普查数据集或信息)之外,对手还可以访问其他相关的边信息(例如,选民记录数据库或边渠道攻击中的个人信息);

正如作者最近在[36]中所显示的,将α泄漏和最大α泄漏泛化以对此类辅助信息进行建模确实是可能的。但是,这种概括超出了本文的范围。我们建议的措施可以应用于上述隐私和边信道设置。在大多数非平凡的数据发布环境中,存在一个基本的隐私效用权衡(PUT):一方面,“按原样”发布数据可能会导致对私人信息的不必要推断。另一方面,干扰或限制发布的数据会降低其质量。我们对两种类型的数据模型进行量化:一种是整个数据集都是敏感的(如图1a所示),另一种是只有一部分数据集是敏感的(如图1b所示)。在整个本文中,我们使用X表示原始数据,Y作为随机映射的发布的数据。
在这里插入图片描述

X可以如图1a所示完全敏感,也可以如图1b所示与敏感特征S分开。变量U表示对手感兴趣的数据集的特定敏感特征。其中整个数据是敏感的数据集的示例包括由智能设备(例如,智能手机传感器,电影推荐系统)收集的数据,其中很难先验地知道应该将数据的哪个方面标识为敏感。相反,具有明确定义的敏感特征的数据集的示例包括人口普查和其他明确包含个人身份信息的数据集。

PUT的确切性质完全取决于如何衡量隐私和实用性。为了理解我们的新隐私措施,我们考虑了(最大)α泄漏是隐私措施的PUT,并且我们研究了多种效用措施。通常,有意义的效用度量(在原始数据与发布的数据之间)应要求发布的数据提供以下任一条件:

  • 保真度的平均情况保证[18],[25],[27],[37],[38] ];
  • 最坏情况下的保真保证。我们注意到,平均失真约束在速率失真理论中也得到了很好的研究。为了捕获效用要求
  • 我们引入了一种硬失真度量,该度量会约束隐私机制,以使原始数据集和已发布数据集之间的失真以概率1为界。这种方法在速率失真理论中也已被研究为潜在失真。硬失真度量非常严格,但允许数据管理者对发布的数据集相对于数据集的保真度做出特定的确定性保证。这样的确定性保证可以导致更准确的统计估计量,例如对公开发布的数据集(如人口普查)的经验分布估计。

猜你喜欢

转载自blog.csdn.net/weixin_42253964/article/details/107736406