Inyector: conocimientos básicos de minería para la anonimización de datos

Resumen

El trabajo existente para proteger la divulgación de datos privados no puede evitar de manera satisfactoria que los oponentes con conocimientos previos obtengan información sensible importante.El principal desafío es modelar el conocimiento previo del oponente.. Proponemos un método novedoso para hacer frente a este tipo de ataque.Extraer conocimiento de los datos que se publicarán y luego usar los resultados de la extracción como conocimiento previo al anonimizar los datos. Usamos este métodoLa razón es que si hay ciertos hechos o conocimientos previos, deberían reflejarse en los datos y deberíamos poder encontrarlos utilizando técnicas de minería de datos.. Nuestro método mejora la privacidad y la usabilidad al mismo tiempo porqueNo solo puede prevenir ataques de conocimiento en segundo plano, sino que también puede retener mejor las funciones / características en los datos. Luego, presentamos el marco Injector para la anonimización de datos. El inyector extrae reglas de asociación negativas de los datos que se publicarán y las utiliza en el proceso de anonimización para fusionar estas reglas de asociación negativas. También hemos desarrollado un algoritmo anónimo eficiente para calcular la tabla de inyección combinado con conocimientos previos. Los resultados experimentales muestran que Injector reduce el riesgo de privacidad frente a los ataques de conocimiento en segundo plano y, al mismo tiempo, mejora la viabilidad de los datos.

Introducción

En un ataque de conocimiento de fondo, el adversario puede tener información de fondo que le permita eliminar ciertos valores del conjunto de valores de atributos sensibles de la clase de equivalencia y luego inferir valores sensibles con alta precisión. El conocimiento previo del adversario puede ser algunos hechos conocidos, como que los pacientes masculinos no pueden tener cáncer de ovario, o alguna información demográfica pública sobre poblaciones específicas, como que es poco probable que los pacientes jóvenes de ciertas razas tengan una enfermedad cardíaca. Un oponente poderoso con esta información adicional puede hacer inferencias más precisas sobre la sensibilidad del individuo.

La l-diversidad previene directamente los ataques de homogeneidad, pero no puede manejar satisfactoriamente los ataques de conocimiento de fondo. No es razonable exigir que se especifique manualmente los conocimientos previos que pueda tener el oponente.

En este artículo, proponemos un método novedoso para modelar el conocimiento previo del adversario. Nuestro método es generar dicho conocimiento extrayendo los datos que se van a publicar. La razón por la que usamos este método es que si hay ciertos hechos o conocimientos, deberían mostrarse en toda la tabla y deberíamos poder usar técnicas de minería de datos para encontrarlos .

Injector solo usa reglas de asociación negativas como conocimiento previo del oponente.

Ataque de conocimiento de fondo

Inserte la descripción de la imagen aquí
Inserte la descripción de la imagen aquí

Ataque de conocimiento de fondo. Suponga que Alice sabe que el registro de Bob pertenece al primer grupo de la Tabla II, y los dos valores sensibles son "cáncer de próstata" y "cáncer de ovario", entonces Alice sabe inmediatamente que Bob tiene "cáncer de próstata". La aparente diversidad no ayuda a proporcionar privacidad, porque ciertos valores pueden eliminarse fácilmente.

Extraer conocimientos previos a partir de datos

conocimiento de fondo

Dado que el ataque de conocimiento de fondo se debe a otra información que tiene el adversario, sería útil verificar cómo obtuvo el adversario este conocimiento adicional. En el entorno tradicional de anonimización de datos, se supone que el oponente conoce cierto conocimiento además de los datos publicados, por ejemplo, el valor de cuasi-identificador de las personas en los datos y el conocimiento de si algunas personas están en los datos.

Lista de otros conocimientos que puede tener el oponente:

  • Primero, el oponente puede conocer algunos hechos absolutos. Por ejemplo, los hombres nunca tendrán cáncer de ovario.
  • En segundo lugar, el oponente puede tener un conocimiento parcial de la información demográfica de ciertos grupos específicos. Por ejemplo, un oponente puede saber que es muy poco probable que las mujeres jóvenes de ciertas razas tengan enfermedades cardíacas. Este conocimiento puede expresarse como patrones o reglas de asociación existentes en los datos.
  • En tercer lugar, el oponente puede tener algunos conocimientos específicos de cada individuo. Por ejemplo, un oponente puede conocer personalmente a algunas víctimas objetivo y tener algún conocimiento del valor de sensibilidad de la persona (por ejemplo, Alice puede saber que su amigo Bob no tiene dificultades para respirar porque sabe que Bob tiene que correr dos horas al día ).
  • El oponente puede obtener otra información de otras fuentes (por ejemplo, el hijo de Bob le dice a Alice que Bob no tiene una enfermedad cardíaca).

nuestra manera

El principal problema al lidiar con los ataques de conocimiento de fondo es que no conocemos el conocimiento exacto que puede tener el adversario, y creemos que no es factible requerir conocimiento de fondo como parámetro de entrada, porque supondrá demasiada carga para los usuarios. En este artículo, proponemos un método novedoso para modelar el conocimiento previo del adversario. Nuestro método consiste en extraer información básica de los datos que se publicarán. Por ejemplo, el hecho de que los hombres nunca tendrán cáncer de ovario debería reflejarse en los datos que se publicarán, por lo que deberíamos poder descubrir este hecho a partir de los datos.

Además, por lo general, los oponentes pueden acceder a datos similares, en cuyo casoLos patrones o reglas de asociación extraídas de un tipo de datos pueden ser una fuente importante de conocimiento previo del adversario sobre otro tipo de datos.. Sabemos que no consideramos el conocimiento específico del adversario. El conocimiento específico que puede tener el oponente es difícil de predecir. Además, dado que el adversario no puede obtener tal conocimiento de manera sistemática, es poco probable que el adversario tenga un conocimiento específico sobre un gran número de personas.Usando el conocimiento previo extraído de los datos, podemos anonimizar los datos, lo que puede prevenir efectivamente el uso de este conocimiento previo para ataques de razonamiento.. Por ejemplo, si agrupa los registros por motivos de privacidad, debe evitar agrupar a pacientes masculinos con otro registro con cáncer de ovario (o al menos reconocer que hacerlo no ayudará a cumplir con los requisitos de privacidad para la divulgación de atributos).

Alguien podría argumentar que este método sobrestima el conocimiento previo del adversario, porque es posible que el adversario no tenga todo el conocimiento extraído de los datos. Demostramos que nuestro método es correcto a través de los siguientes argumentos.

  • Primero, dado que es difícil para nosotros determinar con precisión lo que el oponente sabe y lo que no sabe, es apropiado adoptar un método conservador para utilizar todo el conocimiento extraído de cierto tipo.
  • En segundo lugar, en circunstancias normales, el oponente puede acceder a datos similares, y el conocimiento extraído de los datos puede convertirse en el conocimiento previo del oponente sobre otros datos.
  • Finalmente, el uso de este conocimiento extraído en el proceso de anonimización generalmente resulta en retener (al menos parcialmente) este conocimiento, lo que aumenta la utilidad de los datos. Tenga en cuenta que aún se puede cumplir con la garantía de privacidad.

Un aspecto interesante de nuestro enfoque es que se puede argumentar queMejora la privacidad y la usabilidad de los datos al mismo tiempo.. Agrupar a un paciente masculino con otro historial de cáncer de ovario no es bueno para la privacidad porque proporciona una falsa sensación de protección; tampoco es bueno para la utilidad de los datos, porque los contamina. Al no hacer esto, puede evitar introducir asociaciones falsas y mejorar la utilidad de los datos. Esto es interesante porque en la literatura, la privacidad y la practicidad se ven como dos atributos relativos. Aumentar uno conduce a disminuir el otro

Marco del inyector

Presentar el marco Injector para la anonimización de datos. El inyector se centra en un tipo de conocimiento previo, es decir, una combinación específica de valores de cuasi-identificadores no puede contener ciertos valores sensibles. Este tipo de conocimiento previo se puede expresar como reglas de asociación negativa en la forma de "género = M⇒enfermedad = cáncer de ovario", y podemos usar técnicas de minería de datos para descubrirlos a partir de los datos.

El inyector utiliza un depósito de almacenamiento basado en reemplazo como método para construir y publicar datos a partir de los datos originales, similar a la técnica de "disección" y los métodos anónimos basados ​​en reemplazo.

El método de agrupamiento primero divide las tuplas de la tabla en varios grupos y luego organiza aleatoriamente los valores de los atributos sensibles en cada grupo para separar los cuasi-identificadores con atributos sensibles. Los datos anónimos consisten en un conjunto de depósitos con valores de atributos confidenciales ordenados. El marco del inyector consta de dos componentes: (1) extraer reglas de asociación negativas de tablas y (2) usar estas reglas en la anonimización de datos. Analizamos estos dos componentes en las dos secciones siguientes.

Minería reglas de asociación negativa

En primer lugar, la formalización de la X⇒¬Y problema, s es el soporte, c es la confianza, s% = P (X ∪ ¬Y), c% = P (X ∪ ¬Y) / P (X).
Se recomienda utilizar El valor de expectativa más que el valor de apoyo mide la fuerza de las reglas de asociación negativas.

Dada una regla de asociación negativa X⇒¬Y, el número de tuplas que satisfacen X es n * P (X), donde n es el número total de tuplas en T. En estas tuplas, la probabilidad de que el valor sensible de Y aparezca al menos una vez es 1- (1- P (Y)) n * P (X). Definimos esta probabilidad como la expectativa de la regla.

Los métodos más generales nos permitirán simular probabilísticamente el conocimiento de nuestros oponentes. Discutiremos esto más en la sección 8.

Supongo que te gusta

Origin blog.csdn.net/weixin_42253964/article/details/107567462
Recomendado
Clasificación