Résumé

Le travail existant pour protéger la divulgation de données privées ne peut pas empêcher de manière satisfaisante des opposants ayant des connaissances de base d'apprendre des informations sensibles importantes.Le principal défi est de modéliser les connaissances de base de l'adversaire. Nous proposons une nouvelle méthode pour faire face à ce type d'attaque.Exploiter les connaissances à partir des données à publier, puis utiliser les résultats de l'exploration comme connaissances de base lors de l'anonymisation des données. Nous utilisons cette méthodeLa raison en est que s'il existe certains faits ou connaissances de base, ils devraient être reflétés dans les données et nous devrions être en mesure de les trouver à l'aide de techniques d'exploration de données.. Notre méthode améliore la confidentialité et la convivialité en même temps carIl peut non seulement empêcher les attaques de connaissances en arrière-plan, mais également mieux conserver les fonctions / fonctionnalités dans les données. Ensuite, nous introduisons le framework Injector pour l'anonymisation des données. L'injecteur extrait les règles d'association négatives des données à publier et les utilise dans le processus d'anonymisation pour fusionner ces règles d'association négatives. Nous avons également développé un algorithme anonyme efficace pour calculer la table d'injection combinée à des connaissances de base. Les résultats expérimentaux montrent qu'Injector réduit le risque de confidentialité contre les attaques de connaissances en arrière-plan et améliore en même temps la praticabilité des données.

introduction

Dans une attaque de connaissance d'arrière-plan, l'adversaire peut avoir des informations d'arrière-plan qui lui permettent d'éliminer certaines valeurs de l'ensemble des valeurs d'attributs sensibles de la classe d'équivalence, puis d'en déduire des valeurs sensibles avec une grande précision. Les connaissances de base de l’adversaire peuvent être des faits connus, tels que les patients de sexe masculin ne peuvent pas avoir de cancer de l’ovaire, ou certaines informations démographiques publiques sur des populations spécifiques, telles que les jeunes patients de certaines races sont peu susceptibles d’avoir une maladie cardiaque. Un adversaire puissant avec ces informations supplémentaires peut faire des déductions plus précises sur la sensibilité de l'individu.

La l-diversité empêche directement les attaques d'homogénéité, mais ne peut pas gérer de manière satisfaisante les attaques de connaissances en arrière-plan. Il n'est pas raisonnable d'exiger de spécifier manuellement les connaissances de base que l'adversaire peut avoir.

Dans cet article, nous proposons une nouvelle méthode pour modéliser les connaissances de base de l'adversaire. Notre méthode consiste à générer de telles connaissances en exploitant les données à diffuser. La raison pour laquelle nous utilisons cette méthode est que s'il y a certains faits ou connaissances, ils devraient être affichés dans le tableau entier, et nous devrions être en mesure d'utiliser des techniques d'exploration de données pour les trouver .

L'injecteur utilise uniquement des règles d'association négatives comme connaissances de base de l'adversaire.

Attaque de connaissances en arrière-plan

Insérez la description de l'image ici

Attaque des connaissances de base. Supposons qu'Alice sache que le dossier de Bob appartient au premier groupe du tableau II et que les deux valeurs sensibles sont «cancer de la prostate» et «cancer de l'ovaire», alors Alice sait immédiatement que Bob a un «cancer de la prostate». La diversité apparente n'aide pas à assurer la confidentialité, car certaines valeurs peuvent être facilement éliminées.

Exploitation des connaissances de base à partir des données

connaissances de base

Étant donné que l'attaque des connaissances de base est due à d'autres informations dont l'adversaire dispose, il serait utile de vérifier comment l'adversaire a obtenu ces connaissances supplémentaires. Dans le cadre traditionnel de l'anonymisation des données, on suppose que l'opposant connaît certaines connaissances en plus des données publiées, par exemple, la valeur de quasi-identifiant des individus dans les données et le fait de savoir si certains individus figurent dans les données.

Liste des autres connaissances que l'adversaire peut avoir:

Premièrement, l'opposant peut connaître certains faits absolus. Par exemple, les hommes n'auront jamais de cancer de l'ovaire.
Deuxièmement, l'opposant peut avoir une connaissance partielle des informations démographiques de certains groupes spécifiques. Par exemple, un adversaire peut savoir que les jeunes femmes de certaines races sont très peu susceptibles d'avoir une maladie cardiaque. Cette connaissance peut être exprimée sous forme de modèles ou de règles d'association existant dans les données.
Troisièmement, l'adversaire peut avoir des connaissances spécifiques à l'individu. Par exemple, un adversaire peut personnellement connaître certaines victimes cibles et avoir une certaine connaissance de la valeur de sensibilité de la personne (par exemple, Alice peut savoir que son ami Bob n'a pas de difficultés respiratoires car elle sait que Bob doit courir deux heures par jour ).
L'adversaire peut obtenir d'autres informations d'autres sources (par exemple, le fils de Bob dit à Alice que Bob n'a pas de maladie cardiaque).

notre chemin

Le principal problème dans le traitement des attaques de connaissances en arrière-plan est que nous ne connaissons pas exactement les connaissances que l'adversaire peut avoir, et nous pensons qu'il n'est pas possible d'exiger des connaissances de base comme paramètre d'entrée, car cela imposera trop de charge aux utilisateurs. Dans cet article, nous proposons une nouvelle méthode pour modéliser les connaissances de base de l'adversaire. Notre méthode consiste à extraire des informations de base des données à publier. Par exemple, le fait que les hommes n'auront jamais de cancer de l'ovaire devrait se refléter dans les données à publier, nous devrions donc être en mesure de découvrir ce fait à partir des données.

En outre, les opposants peuvent généralement accéder à des données similaires, auquel casLes modèles ou règles d'association extraits d'un type de données peuvent être une source importante de connaissances de base de l'adversaire sur un autre type de données. Nous savons que nous ne considérons pas les connaissances spécifiques à l'adversaire. Les connaissances spécifiques que peut avoir l'adversaire sont difficiles à prévoir. De plus, comme l'adversaire ne peut pas obtenir systématiquement de telles connaissances, il est peu probable que l'adversaire ait des connaissances spécifiques sur un grand nombre d'individus.En utilisant les connaissances de base extraites des données, nous pouvons anonymiser les données, ce qui peut empêcher efficacement l'utilisation de ces connaissances de base pour raisonner les attaques.. Par exemple, si vous regroupez des dossiers à des fins de confidentialité, vous devez éviter de regrouper les patients de sexe masculin avec un autre dossier de cancer de l'ovaire (ou du moins reconnaître que cela ne contribuera pas à respecter les exigences de confidentialité pour la divulgation des attributs).

Quelqu'un pourrait prétendre que cette méthode surestime les connaissances de base de l'adversaire, parce que l'adversaire peut ne pas avoir toutes les connaissances extraites des données. Nous prouvons que notre méthode est correcte grâce aux arguments suivants.

Premièrement, comme il nous est difficile de déterminer avec précision ce que l’adversaire sait et ce qu’elle ne sait pas, il convient d’adopter une méthode conservatrice pour utiliser toutes les connaissances extraites d’un certain type.
Deuxièmement, dans des circonstances normales, l'opposant peut accéder à des données similaires, et les connaissances extraites des données peuvent devenir les connaissances de base de l'opposant sur d'autres données.
Enfin, l'utilisation de ces connaissances extraites dans le processus d'anonymisation conduit généralement à (au moins partiellement) la conservation de ces connaissances, ce qui augmente l'utilité des données. Veuillez noter que la garantie de confidentialité peut toujours être respectée.

Un aspect intéressant de notre approche est que l'on peut soutenir queIl améliore la confidentialité et la convivialité des données en même temps. Regrouper un patient de sexe masculin avec un autre dossier atteint d'un cancer de l'ovaire n'est pas bon pour la vie privée car cela donne un faux sentiment de protection; ce n'est pas non plus bon pour l'utilité des données, car cela contamine les données. En ne faisant pas cela, vous pouvez éviter d'introduire de fausses associations et améliorer l'utilité des données. Ceci est intéressant car dans la littérature, la vie privée et l'aspect pratique sont considérés comme deux attributs relatifs. Augmenter l'un conduit à diminuer l'autre

Cadre d'injecteur

Présentez le framework Injector pour l'anonymisation des données. L'injecteur se concentre sur un type de connaissances de base, c'est-à-dire qu'une combinaison spécifique de valeurs de quasi-identifiant ne peut pas contenir certaines valeurs sensibles. Ce type de connaissances de base peut être exprimé sous forme de règles d'association négatives sous la forme de «sexe = M⇒ maladie = cancer de l'ovaire», et nous pouvons utiliser des techniques d'exploration de données pour les découvrir à partir des données.

L'injecteur utilise un compartiment de stockage basé sur le remplacement comme méthode de construction et de publication de données à partir des données d'origine, similaire à la technique de «dissection» et aux méthodes anonymes basées sur le remplacement.

La méthode de compartimentage divise d'abord les tuples de la table en plusieurs compartiments, puis organise de manière aléatoire les valeurs d'attributs sensibles dans chaque compartiment pour séparer les quasi-identificateurs avec des attributs sensibles. Les données anonymes consistent en un ensemble de compartiments avec des valeurs d'attributs sensibles organisées. Le framework d'injecteur se compose de deux composants: (1) l'extraction des règles d'association négatives à partir de tables, et (2) l'utilisation de ces règles dans l'anonymisation des données. Nous abordons ces deux composants dans les deux sections suivantes.

Règles d'association négatives minières

Tout d' abord, formaliser le problème X⇒¬Y, s est un soutien, c est la confiance,% s = P (X ∪ ¬y), c% = P (X ∪ ¬y) / P (X).
Nous vous recommandons d' utiliser La valeur d'attente plutôt que la valeur de soutien mesure la force des règles d'association négatives.

Étant donné une règle d'association négative X⇒¬Y, le nombre de tuples satisfaisant X est n * P (X), où n est le nombre total de tuples dans T. Dans ces tuples, la probabilité que la valeur sensible de Y apparaisse au moins une fois est 1- (1- P (Y)) n * P (X). Nous définissons cette probabilité comme l'espérance de la règle.

Des méthodes plus générales nous permettront de simuler de manière probabiliste les connaissances de nos adversaires. Nous en discuterons plus dans la section 8。

Injecteur: connaissances de base sur l'exploitation minière pour l'anonymisation des données

table des matières