LOGAN:Membership Inference Attacks Against Generative Models


论文地址https://arxiv.org/pdf/1705.07663.pdf

白盒攻击

白盒攻击的简要描述如Fig.2所示。

假定攻击者A_wb能够接触到训练好的目标模型,包含生成器G_target和鉴别器D_target。攻击者拥有一个数据集X={x_1 ,… ,x_(m+n) },包含所猜测的用于训练目标模型的数据,其中n表示训练集数据个数,m则表示非训练集数据个数。目标模型已经完成训练,能够生成与训练集相似的样本。A_wb生成一个D_target的副本,将其称为D_wb。然后将X={x_1,…x_(m+n)}中的样本输入D_wb,输出得到概率向量p=[ D_wb (x_1 ),…,D_wb (x_(m+n) )],如果目标模型过拟合于训练数据,D_wb将会给予属于训练集的样本更高的confidence value。A_wb对概率向量p进行降序排序,并选择前n个样本作为训练集的成员。预测流程如Fig.3所示。

在这里插入图片描述


黑盒攻击(Black-Box Attack with No Auxiliary knowledge)

在黑盒场景中,假设攻击者A_bb无法获得目标模型参数,因此攻击者无法像白盒攻击一样直接获得鉴别器模型。在白盒场景中限制了目标模型为GAN,但在该黑盒场景中,不对模型进行限制,且目标模型可能不包含判别式模型(如VAE)。

同样假定攻击者拥有一个数据集X={x_1 ,…,x_(m+n)},包含他们所猜测的用于训练目标模型的数据,其中n表示训练集的大小。攻击者无法得知训练集如何从数据集X中进行构建,因此无法获得数据集中样本的真实标签,无法使用判别式方法训练模型。A_bb训练GAN重新生成目标模型,在过程中创建鉴别器D_bb。

Fig.4a简要说明了该攻击。具体来说,A_bb使用来自目标的查询本地训练GAN(G_bb,D_bb),即A_bb使用G_target生成的样本训练本地GAN。由于黑盒攻击仅依赖于目标模型生成的样本,因此G_target可以为任何生成式模型。当GAN训练完成后,攻击即为白盒场景,即A_bb将X输入到D_bb中,对概率结果进行排序,取最大的n个点作为训练集的预测(流程同样如Fig.3所示)。

在这里插入图片描述

扫描二维码关注公众号,回复: 14634519 查看本文章

黑盒攻击(Black-Box Attack with Limited Auxiliary Knowledge)

考虑了两种设置:生成式和判别式。在两种设置中,攻击者拥有关于测试集、训练集或者关于两者的成员的不完整信息。

判别式设置:考虑了一个攻击者,训练简单的判别式模型来推断训练集中的成员,如Fig.4b所示。攻击者现在能够了解数据点是否属于训练集,因此无需一生成式模型。在这种场景下,考虑了攻击者拥有有限的辅助性信息的两种情况。
(1)已知未用于训练目标模型的样本。
(2)已知训练集和测试集的样本。
在这两种情况下,大致的攻击方法是相同的:攻击者训练一个模型来检测目标模型的过拟合情况。在(1)中,鉴别器D输入以下两种样本:辅助集合中的样本(标记为fake)、目标模型生成的样本(标记为real)。如果目标模型过拟合于训练集,D将学会区分训练样本和测试样本。在(2)中,D输入目标模型生成样本(标记为real)、辅助训练样本(标记为real)以及辅助测试集样本(标记为fake)。一旦攻击者成功训练了鉴别器,攻击过程又会变成如**所示。攻击者必须要掌握一些测试样本(即标记为fake的样本),以便更好的训练二分类器。

生成式设置:考虑了生成式攻击,如Fig.4c所示。同样分为攻击者拥有有限的辅助信息的两种场景。
(1)已知用于训练目标模型的样本。
(2)已知训练集和测试集的样本。
两种场景下,攻击者均需要训练本地模型GAN,来探查目标模型的过拟合。在(1)中,攻击者GAN模型的鉴别器D_bb使用G_bb生成的样本(标记为fake),以及辅助训练集(标记为real)和目标生成样本(标记为real)进行训练。在(2)中D_bb使用G_bb生成的样本(标记为fake)、辅助测试集样本(标记为fake)、目标模型生成样本(标记为real)、辅助训练集样本(标记为real)进行训练。攻击者实现模型的训练后,X中的数据点将被输入D_bb,并按照Fig.3对其预测结果进行排序。

猜你喜欢

转载自blog.csdn.net/WuwuwuH_/article/details/125841414