阅读笔记:Analyzing Subgraph Statistics from Extended Local Views with Decentralized Differential Privacy

一.概念

1.ELV:用户的连接以及其邻居的连接

例子:2-hop ELV

v ∈ V ,2-hop ELV Gv consists of:

  • v的1-hop 邻居 : {u | u ∈ V ∧ (u,v) ∈ E}.
  • 涉及v的边 : {e = (v,u) | e ∈ E}.

  • v的2-hop 邻居:{w | ∃u ∈V,(u,v) ∈ E∧(u,w) ∈ E}.

  • 涉及 v的 1-hop 邻居: {e = (u,w) | e ∈E ∧ (u,v) ∈ E}

2.邻居ELV

G=(V,E), v∈V,它的 ELV Gv ⊆G,G的邻居图G′ 

v在 G′ 中的ELV,是Gv的邻居 ELV Gv′

两个邻居ELV可能不包含相同的结点,可能有多条边不同

3.去中心化差分隐私

一组结点 V =v1,v2,...vn,一组随机机制 {Mi,1 ≤ i ≤ n} ,共同满足 (ε, δ)-DDP,

对于任意两个邻接图 G = (V,E) and G′ = (V,E′),  任意可能输出的子集 {Si ⊆ range(M), 1 ≤ i ≤ n}, 

其中 Gi 和 Gi′ (1 ≤ i ≤ n) 是 vi 关于G 和 G′ 的邻居ELVs 

二.问题

1.ELV中邻居的敏感连接如何保护,即如何对ELV中的所有参与者使用差分隐私

2.数据收集者如何使用ELV,精确估计全局图属性

3.收集ELV时,直接使用本地差分隐私是不够的

4.有效的数据收集机制  -- 多阶段框架(不直接收集子图,而是分析者询问最小噪音规模,)

三.已有方法

1.本地差分隐私(Local differential privacy)

问题:对手的目标是u,想要发现u和v之间是否连接;然后对手询问u以及他的1-hop邻居,由此得到

一个二进制的值;之后计算二进制的平均值;尽管每个报告满足LDP,但是若查询数量较大,对手有

很高可能性知道u和v之间是否连接

原因:每个用户只考虑自己的信息,没有考虑邻居的信息

2.基线方法--全局敏感度

全局敏感度:

考虑到一个子图模式 g, 每个参与者直接报告它的子图计数值的噪音版本

  的敏感度是   ,敏感度会很高,导致poor结果

高的原因:

考虑g是三角形的情况,

噪音方差就是

不足:

考虑最坏的场景,不管图的实际结构

方差较大,因为是基于全局敏感度注入噪声

3.多阶段框架--局部敏感度

1)局部敏感度:

比如,三角形计数值,(局部敏感度的最大值即为全局敏感度3(n-2) )

问题:如果询问每个用户,注入拉普拉斯噪声,是不能满足差分隐私的

原因:结点v1的局部敏感度是1,图1中增加或者移除一条边,仅仅至多改变G1中1个三角形

也就是v1的局部敏感度仅依赖  ELV G1,而不管G1以外的G结构

考虑图G的邻居图 G′,和G相同除了增加了一条边 (v1,v8)

G′ 中 v1的三角形计数值局部敏感度变成2,比如增加边 (v1, v5),会产生两个三角形 

由此产生的问题是:在随机化机制Mi中使用他的真实值会违反差分隐私(感觉在哪里看到过类似的结论,一时想不起来了)

四.创新方法--多阶段框架

1.主要思想

针对上面提出的本地差分隐私不能满足DP,提出噪音规模本身也是隐私信息

给每个结点的子图计数值注入拉普拉斯噪声,但是噪音的规模不是确定的

噪音规模从一个分布中抽样得到,有 的可能性 that 注入拉普拉斯噪声可以隐藏任意边存在或者不存在

2.两个阶段

阶段1

使用  (ε1,δ1)-DDP 来收集 每个用户的信息,决定合适的噪音规模 λ

λ需要满足两个条件:

(1) 使用(ε1,δ1)-DDP 产生  λ

(2) 至少 1 − δ2 可能性, 满足:

                      

阶段2

询问每个用户报告他的加噪子图计数值,对于一些 ε 和 δ,有至少  1 − δ 可能性 满足  ε2-DDP

3.多个阶段

递归使用两个阶段框架,产生多阶段的解决方法

Phase 1分为 :Phase 1.1 and Phase 1.2,

Phase 1.1 :

 产生 λ1,

有δ1,2可能性失败,比如输出的噪音规模不是很大,不能让 Phase 1.2满足  ε1,2-DP

估计图计数值的本地敏感性的本地敏感性,有1−δ1,2可能性输出真实的上界

Phase 1.2:

应用拉普拉斯机制,当使用一个正确的噪音规模,满足 ε1,2-DP

使用估计的来输出一个估计的,最多有1 − δ2可能性是真实值

Phase 2:

使用估计的来得到随机子图数

五、证明

1.Phase 1 

Phase 1 的输出:(λ,Y),Y代表所有额外的私人信息除了λ

                             Sλ:Phase 1的任意可能输出集合

Phase 2 的输出: 代表噪音子图计数值 集合

证明过程:

想要满足:

s1:

s2: 因为有 >= 1 − δ2 可能性,所以  的可能性是 >= 1 − δ2

也就是 的可能性是 小于 δ2

 

s3: δ1 < δ,如果已经小于 δ1 ,那么必然也是小于 δ

s4: 

s5: 因此,(可能性 乘  必然小于

六、参考链接

1.全局敏感度和局部敏感度的区别:https://blog.csdn.net/Ano_onA/article/details/100550926

更新中...

对这篇文章感兴趣,或者对社交网络隐私感兴趣的小伙伴,欢迎加入群讨论哦~

猜你喜欢

转载自blog.csdn.net/nature_ph/article/details/105909814