【数据应用案例】隐私保护与PATE方法

案例来源：@百度安全实验室 @AI科技评论 @雷锋网

案例地址：http://www.freebuf.com/column/147115.html，https://mp.weixin.qq.com/s/k-nACTv7IhTgfevkdDZ8rQ，http://wemedia.ifeng.com/28852972/wemedia.shtml

0. 背景：对于公开的数据集和模型，里面包含了个体的信息，如果攻击者能够还原单个用户的具体信息，那么就会造成隐私泄露

1）AOL公开匿名搜索记录，被找出某个人搜索记录的例子

2）Netflix公开匿名点评评分记录，被匹配到具体某个人的例子

一、传统隐私保护方法

1. k-匿名化

1）任意一组能标识用户的查询，都要返回至少k个记录。如检索“性别年龄城市”至少返回7条记录，就说明在这个检索组合上7-匿名化了

2）匿名化方法

a. 给敏感信息加*，如134****9943

b. 敏感信息区间化，如 24岁→[20,25)

3）攻击方法

a. 未排序匹配攻击：假如公开数据未乱序，攻击者可以猜哪条记录是目标。如知道原始数据根据注册时间排，小明是老用户了，那么最早匹配的那一条应该是小明

b. 补充数据攻击：公开数据有多种，它们的k匿名方法不同，攻击者可以关联不同数据进行分析。如A数据里返回7条记录，其中有个购物偏好的属性；攻击者从其它数据源知道了小明还喜欢护肤品，正好这7条记录里只有一条购物偏好是护肤品，那么攻击者就能识别出小明了

c. 数据源问题：如某个查询返回了7条记录，但是这7条记录的敏感信息（购物偏好）都是电子产品，那么攻击者不用知道具体是谁，也能知道他们目标对象的购物偏好了

2. l-多样化

1）任意一组能表示用户的查询，返回记录中至少包含l个不同的隐私记录。如检索“性别年龄城市”返回10条记录，隐私记录是购物偏好，这10条里包含3种不同的购物偏好，那么就说满足3-多样化

2）缺陷：

a. 概率差异较大的属性：如艾滋病阳性（1%）和艾滋病阴性（99%），要实现l-多样化较难。如果属性之间概率差异较大，那么实现l-多样化很难

b. 偏斜性攻击：如果在艾滋病阴性阳性的例子中我们实现了2-多样化，但是返回结果中阳性的概率>>1%，攻击者有信息去认为目标用户是阳性的概率比较大

c. 对返回结果汇总还是能得到信息：如下图，可以得出小明的工资较低（3或4k），喜欢电子类产品（电子产品或家用电器）

3. t-closeness

1）让通过查询检索出来的敏感信息分布与原始数据中敏感信息的分布差异不超过t

2）计算分布差异采用搬土距离（Earth Mover's Distance，EMD）：从归一化的从一个分布变为另一个分布的最小代价，可用于表征两个分布之间的距离（参考：https://blog.csdn.net/hewei0241/article/details/7733067；https://blog.csdn.net/scuLVLV/article/details/71077689?locationNum=11&fps=1）

3）同样可以利用补充知识攻击

二、差分隐私保护方法PATE

1. 差分隐私概念：

1）差分攻击：攻击者知道公开的100个人的信息，以及其中99个人的具体信息，还原出剩下1各人的信息

2）差分隐私：用一种方法使得查询 100 个信息和查询其中 99 个的信息得到的结果是相对一致的，那么攻击者就无法通过比较（差分）数据的不同找出第100 个人的信息。而这种方法就是引入随机性，使得查询100条记录和查询99条记录得到相同结果的概率接近，就是差分隐私

3）ε-差分隐私 (ε-differential privacy， ε-DP)：对于查询结果加噪音，使得查询结果相同的概率有一个上界

4）ε-差分隐私的意义：提供了对隐私保护方法的定量衡量方式，(ε, δ)-DP 在 ε-DP 的保证中允许了一定概率的错误发生，比如说，用户在 (ε, δ)-DP 的保护下会有 δ 概率的隐私泄露。差分隐私在数据的实用性和隐私性之间达到了平衡，使用者可以通过设定自己的“隐私预算”（privacy budget）来调整数据的实用性和隐私性。

2. 差分隐私方法

1）输出结果变换：针对不同的查询 x，返回查询结果 f(x) + 噪声，噪声采用拉普拉斯分布 Lap(GS/e)

2）输入查询变换

3）中间值变换

4）抽样和聚合变换

3. PATE（教师系综的私有聚合，private aggregation of teacher ensembles）

1）目的：

2）思路：通过训练数据集中相互没有交集的子数据训练大量“教师”模型，构成一个“教师系综”；随后再通过教师系综的输出去训练“学生”模型，“学生”的训练仅依赖“教师”的预测结果，而不涉及它们的内部参数。

3）优点：

a. 当教师系综的某个“教师”出现问题时并不会对“学生”有很大的影响

b. 攻击者不可能通过攻破“学生”模型来得到“教师”的内部结构

c. 一旦“学生”训练完成后，可以撤掉“教师系综”（同时也包括它所携带的隐私）

4）具体过程：

a. 将数据分割成互相没有交集的多个分区（也就是说对于差分样本A，只有一个分区会有该信息）

b. teacher模型：利用每个分区的数据训练一个teacher模型（teacher模型没有限制，可以使用任意分类器，这里也是PATE可拓展性框架的优点）

c. teacher模型进行投票，并增加拉布拉斯分布噪音。如果teacher的共识度够高，那么噪声就不会影响输出结果；当teacher给两个类的投票数相同，那么噪声会让输出两个结果的概率相同。teacher的共识越高，或者加大噪音，都能提高隐私保护的能力

d. studnt模型：仅teacher模型会有缺点（a.多分类下增加隐私预算 b.需要限制查询次数避免隐私泄露 c.teacher模型的内部参数泄露也可能带来隐私泄露），因此训练student模型来解决这些问题。

通过私有的标记数据A训练teacher模型，然后找到公开的无标记数据B，让teacher模型对B进行标记。然后student以标记后的B数据集为样本进行训练。

使用student接受外部查询，这样就不会泄露用户隐私。即使对student模型的攻击，也只能拿到student模型的参数

e. 进一步，在teacher对数据集B进行标注时，当teacher的共识票数大于一个阈值时，才输出标注结果，否则跳过该数据。阈值也是随机的，这样提供更多的隐私保护。

5）额外优点：PATE框架满足差分隐私，即某1个特定样本对输出结果的影响是有上限的。因此，PATE框架实际上起到了一种防止过拟合的作用

三、业界实践

1. Google Chrome差分隐私保护：

1）当用户需要上报个人数据的时候，首先“抛硬币”决定是否上报真实数据。如果是正面，则上报真实数据。如果不是，就上报一个随机的数据，再“抛一次硬币”决定随机数据的内容

2）服务器收到所有的数据后，因为知道“抛硬币”是正面的概率，服务器就能够判断返回的数据是正确的概率。这种“随机应答”的方法在理论上也被证明是服从ε-差分隐私的。对于用户来说，隐私数据在上报给服务器之前就已经加了噪声，从而具有一定保证。对于公司来说，也能收集到有效的数据

该模式解决了单一数据多次上报的隐私保护问题，但是多个相关数据上报后如果进行关联，还是存在隐私泄露的风险。

【数据应用案例】隐私保护与PATE方法

猜你喜欢