Aplicación de Tecnología de Privacidad Diferencial en Volcano Engine

1. Antecedentes

1.1 Escenario de fuga de privacidad

Con la mejora de la conciencia de protección de la privacidad de los propios usuarios y la implementación sucesiva de leyes y reglamentos nacionales como la "Ley de seguridad de datos" y la "Ley de protección de información personal", cómo proteger la privacidad y seguridad de los usuarios y cumplir con los requisitos reglamentarios en el El proceso de recopilación y uso de datos de usuario se convierte en un problema desafiante. En el negocio diario de los fabricantes de Internet, los escenarios comunes de fuga de privacidad del usuario incluyen:

(1) Consulta estadística de datos:  los resultados de la consulta estadística sobre los datos del usuario se devuelven directamente a los clientes (como información sobre grupos de clientes y otros servicios), y es posible obtener información individual de los resultados estadísticos a través de ataques diferenciales.

  • Por ejemplo, una empresa de Internet brinda servicios de retrato grupal de clientes para clientes externos, el cliente consulta la distribución de residencia del grupo A y el grupo B (el grupo B tiene solo un usuario A más que el grupo A). de personas que viven en la Torre del Tambor de Nanjing es 1 más que en el primer informe, por lo que se puede inferir que A vive en la Torre del Tambor de Nanjing, lo que revela la información privada de A.

(2) Recopilación de datos del usuario: las  aplicaciones móviles y los terminales móviles generalmente recopilan una variedad de información del usuario (como ubicación geográfica, estado de salud, etc.) para mejorar la calidad del servicio y la experiencia del usuario. Sin embargo, la recopilación directa puede conducir a la filtración de la privacidad del usuario y también está estrictamente restringida por leyes y reglamentos.

  • Por ejemplo, el usuario A activa el posicionamiento de ubicación cuando ve a un médico en un hospital especializado. Al recopilar la ubicación geográfica del usuario A, el fabricante de Internet puede inferir que el usuario A padece cierta enfermedad, lo que hace que la privacidad del usuario A se vea afectada. ser filtrado

Por lo tanto, para la mayoría de los fabricantes de Internet, la investigación y el desarrollo de servicios de protección de la privacidad de alta calidad para resolver el problema de la fuga de la privacidad del usuario en escenarios como la consulta estadística y la recopilación de datos, al tiempo que garantiza la disponibilidad de los datos para cumplir con los requisitos reglamentarios. , empoderar a los negocios y convertirse en un trabajo importante.

1.2 Desidentificación y privacidad diferencial

Los métodos tradicionales de protección de la privacidad a menudo eliminan la información del identificador (como el nombre, el número de identificación, la identificación del dispositivo, etc.) registrada por los usuarios a través de métodos como el desacoplamiento y la generalización, o utilizan tecnología de anonimización (como el anonimato K, la diversidad L, etc.). ) ) generaliza y comprime cuasiidentificadores (como calles, códigos postales, etc.) registrados por los usuarios para que los atacantes no puedan volver a asociar directa o indirectamente los datos procesados ​​con los usuarios con precisión. Sin embargo, la seguridad de los métodos tradicionales está estrechamente relacionada con el conocimiento previo que poseen los atacantes, y es difícil analizar cuantitativamente el nivel de protección de la privacidad. Por ejemplo, en el escenario de consulta anterior, dado que el atacante tiene conocimiento previo (sabe si el usuario A está en el alcance de la consulta), el método de anonimización tradicional no puede desempeñar el papel esperado.

Para resolver estos problemas, surgió la tecnología de privacidad diferencial (DP)  [1]. Esta técnica proporciona un medio estricto y comprobable de protección de la privacidad, y su fuerza de protección no depende del conocimiento previo que tenga el atacante. Debido a estas características, la privacidad diferencial ha sido ampliamente reconocida y aplicada en la academia y la industria una vez que fue propuesta. En particular, la definición general de privacidad diferencial es:

图片

Entonces se dice que el algoritmo M proporciona ε-DP, donde S es el conjunto de todas las salidas posibles del algoritmo M, y el parámetro ε se denomina presupuesto de privacidad. Al ajustar el valor del presupuesto de privacidad ε, se puede controlar el grado de protección diferencial de la privacidad. Cuanto menor sea ε, menor será el impacto de agregar o eliminar un registro en el resultado, mayor será la fuerza de protección de la privacidad y menor será la disponibilidad del resultado del cálculo, y viceversa. Por lo tanto, en aplicaciones prácticas, de acuerdo con diferentes escenarios y necesidades, establecer un valor razonable de ε para lograr un equilibrio entre la protección de la privacidad y la disponibilidad de los datos es una de las cuestiones clave en la aplicación de la tecnología de privacidad diferencial.

1.3 Servicios de protección basados ​​en la privacidad diferencial

为了解决统计查询以及用户数据采集场景中隐私泄露问题,火山引擎安全研究团队基于差分隐私技术,依托自研的 Jeddak 数据安全隐私计算平台,分别研发了面向查询保护的 DPSQL 服务(Differentially Private SQL Query Service)以及面向采集保护的 LDPDC 服务(Locally Differentially Private Data Collection Service),在保障查询和采集过程中用户隐私的基础上,实现了数据的高可用目标。以下分别对两个服务进行介绍。

二、DPSQL 查询保护服务

DPSQL 采用中心化差分隐私(Centralized Differential Privacy,简称 CDP,适用于数据管理者可信的场景)[1]模式,以中间件的形式接收 SQL 统计查询请求,返回满足差分隐私的查询结果。由于现实场景中查询请求的多样性,DPSQL 服务构建面临以下关键挑战:

  1. 如何兼容不同类型数据库的查询方言,以降低使用成本、保障客户的查询体验?
  2. 如何在复杂 SQL 语句情况下计算合适的差分隐私噪声,兼顾隐私保护效果与保证数据效用?

以下将从服务架构和关键设计两个方面阐述 DPSQL 的应对措施,并对落地应用进行简要介绍。

2.1 服务架构

DPSQL 服务包含三个组件:

  1. DPSQL 核心服务:以原始 SQL 统计查询语句作为输入,输出满足差分隐私的结果,其中包括 SQL 解析与重写、差分隐私加噪等模块;
  2. 元数据管理服务:维护数据库的元数据及数据表属性特征,以便于对数据表属性进行敏感度分析;
  3. 隐私预算管理服务:维护每个数据表的隐私预算分配与消耗记录,提供隐私预算余量查询、报表和审计功能,以便于对查询请求进行隐私控制。

一个典型的查询请求处理流程如下:

  • 首先,核心服务接受客户提交的 SQL 查询语句,对该语句进行解析和重写,以便于计算隐私噪声(如将 AVG 计算改为 SUM/COUNT);
  • 然后,核心服务调用元数据管理服务,计算重写后的 SQL 查询所对应的数据表敏感度,同时在数据库上执行重写后的 SQL 查询,得到原始的查询结果;
  • 最后,核心服务调用隐私预算管理服务得到为该查询分配的隐私预算,并结合敏感度在原始的查询结果中添加噪声并返回。

图片

2.2 关键设计

针对前文所述 SQL 方言兼容以及查询噪声计算的挑战,团队在 DPSQL 中实现了多源异构的 SQL 解析与重写机制,以及自适应的 差分隐私加噪机制。

2.2.1 多源异构数据库 SQL 解析与重写机制

  • 采用灵活可扩展的 SQL 解析机制(parser),可支持多种 SQL 方言,与传统数据库查询无差别。
  • 采用定制化的 SQL 重写机制(rewriter),可支持多种语法特征,例如聚合函数、多层子查询、join、group by 等。

图片

2.2.2 自适应的差分隐私加噪机制

  • 根据 SQL 查询包含的聚合函数类型,自适应地为查询分配隐私预算,降低隐私预算的消耗;
  • 根据 SQL 查询的聚合函数类型,高效分析聚合函数在多表链接查询、多层子查询等场景下的敏感度,分配合适的差分隐私加噪算法,提高服务性能和查询结果的可用性。

图片

2.3 落地应用

目前,DPSQL 服务已接入火山引擎的客户数据平台,为银行、车企、零售等行业客户提供隐私保护的用户群体洞察服务。凭借在隐私保护和业务合规等方面的出色表现,DPSQL 服务成功入选国内第一个隐私计算开放社区——开放隐私计算 OpenMPC 发布的“隐私计算 2021 年度优秀应用案例 TOP10”。

图片

三、 LDPDC 采集保护服务

LDPDC 服务以本地化差分隐私(Local Differential Privacy)[2]为核心技术,为用户提供端上的 LDP-SDK,实现端上数据的扰动处理。同时,配套提供了服务端的计算服务,对 LDP-SDK 采集的数据进行汇总分析。同样地,LDPDC 面临以下挑战:

  1. 如何在满足用户个性化隐私保护需求的同时,降低通信开销?
  2. 如何针对分析任务,降低采集数据中的噪声,提高数据可用性?

同样的,以下从服务架构和关键设计两个方面阐述 LDPDC 的应对措施,并对落地应用进行简要介绍。

3.1 服务架构

LDPDC 服务两个模块构成:

  1. 客户端:内置 LDP-SDK,包含个性化的扰动机制,用以接受用户个性化的隐私保护需求设置,并据此对用户数据进行扰动处理,从而为用户提供差分隐私保护;
  2. 服务端:收集汇总客户端传输的数据,提供定制化的降噪聚合机制,用于对汇总的数据进行降噪聚合处理,提高数据可用性。处理后的数据可应用于推荐系统、统计查询、机器学习等数据分析服务;

图片

3.2 关键设计

针对端上扰动和汇聚噪声降低的挑战,LDPDC 设计了个性化的扰动机制和定制化的降噪聚合机制。

3.2.1 个性化的扰动机制

  • 为用户提供隐私保护强度配置选项(低、中、高三挡),满足用户对自身数据的个性化隐私保护需求。
  • 提供高效的数据压缩和交互机制(如 GRR 机制、OLH 机制等),减少客户端与服务端之间的信息传输量和交互次数,降低通信开销。

图片

3.2.2 定制化的降噪聚合机制

  • 针对不同类型的个人数据,使用定制化的降噪聚合机制,以保证所收集到数据的高效用。
  • 提供无偏性处理机制,使得加噪聚合后的统计信息理论上等于真实数据的统计信息。
  • 提供一致性处理机制,使得聚合后的统计信息能够与公开的背景知识保持一致,如将小于 0 的频数置为 0 等。

图片

3.3 落地应用

目前,LDPDC 服务将开始在地理位置采集等服务中进行应用,辅助业务部门对于用户信息采集进行合规治理,为广告推荐等服务提供策略支持。

四、结语

DPSQL 服务和 LDPDC 服务是差分隐私技术在火山引擎实际应用场景中的成功实践。未来,差分隐私相关服务将出现在火山引擎云安全系列产品矩阵中,服务于火山云客户。火山引擎安全研究团队将继续探索业务场景,深入挖掘用户数据隐私保护需求,研究前沿隐私保护技术的落地应用,为用户的数据隐私安全提供强力保障。

引用文献

[1] Dwork C., Mcsherry F., Nissim K., et al. Calibrating Noise to Sensitivity in Private Data Analysis [A]. Theory of Cryptography, Third Theory of Cryptography Conference, TCC 2006, New York, NY, USA, March 4-7, 2006, Proceedings: 265–284.

[2] Kasiviswanathan S.P., Lee H.K., Nissim K., et al. What Can We Learn Privately? [A]. 49th Annual IEEE Symposium on Foundations of Computer Science, FOCS 2008, October 25-28, 2008, Philadelphia, PA, USA: 531–540.

Supongo que te gusta

Origin juejin.im/post/7083806570785538084
Recomendado
Clasificación