Medidas ajustables para la fuga de información y aplicaciones para compensaciones entre la privacidad y la utilidad

Directorio de artículos

Introducción

Se toman varias medidas de la teoría de la información como medidas de fuga.

  • El más importante de ellos es la información mutua (MI): [15] - [24]
  • De manera similar, las cantidades basadas en divergencia (como la distancia de variación total entre la distribución previa y la distribución posterior) [25] también se han propuesto como medidas de fuga.

Sin embargo, el alcance de las medidas de filtración de la teoría de la información propuestas para resolver el problema de la privacidad no tiene un significado operativo claro ni un modelo de confrontación en su definición. Recientemente, se han introducido fórmulas de la teoría de la información para capturar la privacidad de los oponentes "adivinadores".

Aquí, la privacidad se mide en función de los beneficios de que el observador adivine información privada después de observar datos públicos.

Fuga máxima (MaxL), que cuantifica la ganancia logarítmica máxima con la probabilidad de adivinar correctamente cualquier función de los datos originales a partir de los datos publicados [28]. Introducimos una función de pérdida ajustable, a saber, pérdida α (1≤α≤∞), para capturar el comportamiento adversario. En particular, para α = 1 y α = ∞, la función de pérdida se simplifica a la pérdida de registro (pérdida de registro) [32] - [34] y la tasa de error, respectivamente. La elección de la función de pérdida captura la inferencia del oponente e implica perfeccionar la creencia posterior de una o más características sensibles. Entonces, las ganancias adversas de un oponente sin restricciones computacionales son la reducción en las pérdidas promedio (inferenciales) debido a la liberación de datos.

Usamos la función de pérdida α para derivar dos nuevas medidas de privacidad, llamadas fuga α y fuga α máxima. Específicamente, la fuga alfa cuantifica los ingresos del oponente al inferir atributos privados específicos en el conjunto de datos; por el contrario, la fuga alfa más grande cuantifica los ingresos del oponente al inferir cualquier atributo del conjunto de datos. En particular, la fuga α máxima incluye MI y MaxL como casos especiales de α = 1 y α = ∞, respectivamente.

MaxL se puede explicar en términos de oponentes que intentan minimizar la función de pérdida 0-1 [33], [35] (α = ∞), es decir, el oponente toma decisiones difíciles mediante estimadores de máxima verosimilitud. Por otro lado, mostramos que cuando se usa MI como una métrica de fuga (α = 1), la función de pérdida potencial es la pérdida logarítmica,El modelo simula una creencia (decisión suave) de un oponente perfecto. Además del contenido observado por el adversario (por ejemplo, el conjunto de datos del censo o la información publicada a través del canal lateral), el adversario también puede acceder a otra información lateral relevante (por ejemplo, la base de datos del registro de votantes o la información personal en el ataque del canal lateral);

Como el autor mostró recientemente en [36], de hecho es posible generalizar la fuga alfa y la fuga alfa máxima para modelar dicha información auxiliar. Sin embargo, esta generalización está más allá del alcance de este artículo. Las medidas que recomendamos se pueden aplicar a la configuración de privacidad y canal lateral mencionadas anteriormente. En la mayoría de los entornos de publicación de datos no triviales, existe una compensación básica de la utilidad de privacidad (PUT): por un lado, la publicación de datos "tal cual" puede conducir a inferencias innecesarias sobre información privada. Por otro lado, interferir o restringir los datos publicados reducirá su calidad. Cuantificamos dos tipos de modelos de datos: uno es que todo el conjunto de datos es sensible (como se muestra en la Figura 1a), y el otro es que solo una parte del conjunto de datos es sensible (como se muestra en la Figura 1b). A lo largo de este artículo, usamos X como los datos originales e Y como los datos publicados mapeados aleatoriamente.
Inserte la descripción de la imagen aquí

X puede ser completamente sensible como se muestra en la Figura 1a, o puede separarse de la característica sensible S como se muestra en la Figura 1b. La variable U representa las características sensibles específicas del conjunto de datos que interesan al oponente . Ejemplos de conjuntos de datos en los que todos los datos son sensibles incluyen datos recopilados por dispositivos inteligentes (por ejemplo, sensores de teléfonos inteligentes, sistemas de recomendación de películas), donde es difícil saber a priori qué aspecto de los datos debe identificarse como sensible. Por el contrario, los ejemplos de conjuntos de datos con características sensibles claramente definidas incluyen censos y otros conjuntos de datos que contienen claramente información de identificación personal.

La naturaleza exacta de PUT depende completamente de cómo se midan la privacidad y la practicidad. Para comprender nuestras nuevas medidas de privacidad, consideramos que la fuga alfa (máxima) es el PUT de las medidas de privacidad, y estudiamos una variedad de medidas de utilidad. Generalmente, una medida de utilidad significativa (entre los datos originales y los datos publicados) debe requerir que los datos publicados proporcionen alguna de las siguientes condiciones:

  • La garantía de fidelidad media [18], [25], [27], [37], [38]];
  • Garantía de fidelidad en el peor de los casos. Notamos que la restricción de distorsión promedio también ha sido bien estudiada en la teoría de la distorsión de tasas. Para capturar los requisitos de servicios públicos
  • Introducimos una métrica de distorsión estricta que restringe el mecanismo de privacidad de modo que la distorsión entre el conjunto de datos original y el conjunto de datos publicados está limitada por la probabilidad 1. Este método también se ha estudiado como posible distorsión en la teoría de la distorsión de la tasa. La medición de la distorsión dura es muy estricta, pero permite a los administradores de datos tener ciertas garantías de certeza sobre la fidelidad del conjunto de datos publicado en relación con el conjunto de datos. Esta garantía de certeza puede conducir a estimaciones estadísticas más precisas, como estimaciones de distribución empírica para conjuntos de datos publicados públicamente (como censos).

Supongo que te gusta

Origin blog.csdn.net/weixin_42253964/article/details/107736406
Recomendado
Clasificación