面向医疗数据的差分隐私保护


 

第一章 差分隐私保护

1.1 差分隐私概述

差分隐私是Dwork在2006年提出的一种针对敏感数据集发布导致的隐私泄露问题的隐私保护模型。基于这一模型,处理后的数据集对任意一个记录的变化是不敏感的,因此一个数据记录在数据集中是否存在对于统计计算结果的影响非常小。攻击者无法通过观察计算结果而获取准确的个体信息,因为一条记录加入数据集而产生的隐私泄露风险被控制在可接受的范围内。

2002 年,k-anonymity 算法的提出为接下来基于等价类分组的匿名隐私保护算法及其改进模型奠定了基础,l-diversity、t-closeness, (α, k)-anonymity等不断完善着针对不同攻击者背景知识的匿名保护理论。直到 2006 年,Microsoft 的 Dwork 提出可以抵抗攻击者任意背景知识的差分隐私技术(DP, differential privacy)成为新的研究热点。差分隐私保护技术可以提供严格可证明的隐私保护,不仅丰富了隐私保护理论研究的内涵,目前更已被应用于实际产品中,如 Apple 的 iOS10 中的输入法及搜索功能和最新的机器学习API——CoreML、Google 的 Chrome 浏览器中、Samsung 的智能手机等。

目前,差分隐私技术的研究主要分为 2种:

             

             

1)针对集中式数据模型(也称为基于可信第三方数据管理者模型(trusted curator))的传统支持差分隐私保护的数据挖掘与数据发布技术,其中,可以分类为交互式与非交互式、集中式与分布式、动态与静态数据等。

2) 针对本地差分隐私(LDP, local dif-ferential privacy)模型的支持差分隐私保护的数据收集与数据统计分析与深度挖掘技术,其中,涉及随机响应技术、BloomFilter、统计分析、机器学习等技术。众包模式下的本地差分隐私保护技术之所以被产界和学界广泛认可,因为其不需要依赖于可信第三方数据管理者,用户数据的收集只涉及数据加噪音版本,原始真实数据完全被保护在本地设备,这既解决了用户对个人隐私数不能自主控制的关切,也降低了大量隐私数据在非可信第三方存储的隐私泄露风险。目前,LDP 技术已被应用于流式频繁项挖掘、基于众包的字符串统计估计、Google的 Chrome 用户数据收集等领域。尤其,2016、2017年 WWDC 大会上,Apple 都将结合本地差分隐私的新技术应用于最新产品中,强调用户数据隐私的重要性,保证用户的隐私权益。

1.2 差分隐私保护

差分隐私保护模型的思想源自一个朴素的观察:假设有一数据集D,其中包含David个体,对D进行查询操作f(例如求和、求平均值、求中位数等)所得到的结果为f(D)。如果将David的信息从D中删除后得到数据集D’,对D’进行查询的结果仍为f (D),则可以得出结论,David的信息并没有因为攻击者反复查询而产生暴露的风险。差分隐私的形式化定义如下。

定义1. 设有随机算法M,PM为M所有输出构成的集合。对于任意两个邻近数据集D和D’以及PM的任何子集SM,若算法M满足:

则称算法M满足ε-差分隐私保护,参数ε为隐私保护预算。差分隐私的核心就是保证任意一个个体在数据集中存在或不存在对最终的统计查询结果几乎没有影响。具体来说,假设有两个几乎完全相同的数据集(仅有一条记录不相同),分别对这两个数据集进行查询访问时,同一查询语句在两数据集产生同样结果的概率比值近似为1。

例如,表1为一个医疗数据集样例D,其中记录为1时代表该患者患有艾滋病,记录为0时代表该患者没有艾滋病。数据集在不泄露具体数据集中记录值的前提下可以为用户提供某些查询统计服务。假设用户输入参数i,调用查询函数f(i)=count(i)获得数据集前i行中所有诊断结果为1的记录行数,并反馈给用户。当攻击者想要推测David是否患有艾滋病,且攻击者已知David位于记录的第5行,则可用count(5)-count(4)推测出结果。

如果D P 是一个满足ε - 差分隐私保护算法的查询函数,即DP(i)=f(i)+noise,公式中noise是服从某种随机分布的噪音。假设DP(5)可能的输出来自集合{1, 1.5, 2},那么DP(5)也会以几乎相同的概率输出{1, 1.5, 2}中任一值,使攻击者不能通过DP(5)-DP(4)得到想要的结果。这种方式使攻击者无法获得查询结果之间的差异,从而保护所有个体的隐私。

1.3 差分隐私主要研究方向

1.3.1 面向数据挖掘与数据发布的差分隐私技术

从隐私控制的定义到经典数据脱敏方法k-anonymity及其改进模型,都无法克服3个方面缺点:基于可信第三方数据管理者;安全性严重依赖于攻击者所掌握的背景知识;无法提供严格且有效数学理论来证明其隐私保护水平。目前,针对集中式差分隐私保护模型已有大量的研究成果。Roth 等提出了交互式数据发布的中位数机制(median),其能够在相同预算下提供更多数量的查询。Xu 等提出了一种基于k-d 树的直方图发布算法,当参数(频数分布紧密度阈值、空间分割次数)的取值适当时,DPCube算法在查询数量和查询误差等方面具有更好的性能。Engel 等提出的小波变换方法、Hay 等提出的层次查询方法等。然而,这些针对差分隐私的数据发布和分析技术都基于可信管理者模型数据分布模型,集中式数据管理不可避免地面临着巨大的隐私安全风险

1.3.2 基于本地差分隐私模型下的数据收集与数据分析

在 2013 年,Duchi首先提出了 local differentialprivacy,而 Google 的 Chrome 浏览器的 RAPPOR(randomized aggregatable privacy-preserving ordinal response)采用随机应答策略和 BloomFilter 实现了针对客户端群体的类别、频率、直方图和字符串类型统计数据的隐私保护分析,可以提供ln3 的差分隐私保护。在 RAPPOR 中,采用 2 个满足差分隐私的机制:永久和即时的随机响应,可以单独调节隐私保护水平,而且 BloomFilter 可以增加额外的不确定性,不仅压缩报文大小,更增加攻击者的攻击难度。在解码过程中结合成熟的假设检验、最小二乘求解和 LASSO 回归实现了针对字符串抽样群体频率的高可用解码框架。此外,RAPPOR 的改进模型实现了数据字典未知情况下的本地学习多变量联合概率分布估计。

针对 LDP 技术的差分隐私理论分析主要涉及统计分析理论、差分隐私证明等。例如,可证明RAPPOR 满足差分隐私的定义。其中,永久随机响应(PRR)保证了来自真值的加噪值保护隐私,可证明 RAPPOR 中 PRR 满足差分隐私,同时,即时随机响应(IRR)满足差分隐私。

1.4 差分隐私在医疗大数据保护中的应用

1.4.1 医疗大数据应用

大数据分析目标可以总结为以下几类:获得知识与推测趋势,分析掌握个性化特征,通过分析辨识真相以临床诊疗为例,大数据的应用是基于患者信息等数据通过挖掘技术及合理推测指导患者个体化治疗,具体流程如图所示。患者到医院就诊,初诊后会产生体格检查、实验室检查及影像学检查等数据,数据经传送至云端或其他存储器,进而分散存储到移动设备、个人计算机,通过数据分析、数据挖掘、可视化分析等则形成最终报告,医生或专家则通过分析报告指导临床决策,实现患者个体化治疗。

              个体化治疗诊疗流程

利用大数据技术,医生除指导患者治疗外,通过预测模型,也可为疾病的预防提供数据支持。如大数据技术可用于临床随访,已出院但仍需长期治疗者可通过终端移动设备 ( 如基于 Android 系统的App)与医生进行沟通,医生可通过患者提供的信息为患者预后康复提出指导意见,这是远程医疗的一种升级模式。鉴于我国医院存在“看病 难、看病贵”、医患关系紧张的问题,基于大数据技术识别和管理高风险、高成本患者不失为一种有效方法。为了更好地实现个体化治疗,个人的基因组可添加到电子病历,但是个人基因组是私有的,而基因序列可能推测出很多隐私问题,那么隐私保护成为重点。国外已有公司建立了基因组数据库,如布什就签署了遗传信息无歧视法案(GINA)。

1.4.2 医疗大数据隐私保护模型

医疗大数据具有高容量、高速度和多类型的特点,研究人员通过数据挖掘、数据析等技术对大量医疗数据进行分析和研究,但这也随之带来了隐私泄露的问题。在大数据概念出现之前,大部分隐私保护方法是针对小数据的,而针对小数据的隐私保护方法在被应用到医疗大数据的隐私保护时存在着很大的局限性。因此,隐私保护在医疗大数据时代将面临更大的挑战。

医疗数据集中通常包含着许多患者隐私信息,如医疗诊断结果、处方信息、检验检查报告等。一方面,如果数据持有者不采取适当隐私保护技术而直接将这些数据进行发布,会造成患者的隐私泄漏;另一方面,Netflix用户隐私泄漏等一系列案例表明去除标示符的操作无法保证医疗隐私信息的安全。如何从医疗数据集中提取有价值信息而又不泄露患者隐私是医学隐私保护的关键问题。针对这一问题,研究者们提出了各类算法保护患者的隐私信息,这些算法和他们的隐私标准被称为隐私保护模型,如图所示。

医疗大数据隐私保护模型

1.4.3 差分隐私在医疗大数据领域的应用

目前的研究与应用多集中于基因组隐私保护、电子健康档案隐私保护以及医疗传感器隐私保护

基因组隐私保护Fienberg等人研究了如何在不影响个人隐私的情况下对GWAS进行控制并获得平均的次等位基因频率(MAFs)。作者在文章中针对计算ε-差分隐私中χ²的统计和P 值并添加Laplace噪音到原始统计信息中,并允许发布加入噪音的统计结果以获取最相近的单核苷酸多态性(SNP)。Raisaro等人针对基因数据的群组探测,提出将同态加密算法和差分隐私相结合的方法,使研究人员可以使用基因组数据进行研究同时保护了患者的个人隐私。

电子健康档案隐私保护差分隐私在电子健康档案数据中的应用主要是面向人口统计学信息或诊断信息。Mohammed等人提出一种针对人口统计学信息的非交互式差分隐私方法,实验结果证明该算法保持了分类的准确性,且可扩展性和性能都优于现有的分类算法。

医疗传感器隐私保护可穿戴传感器采集的大数据通常包含患者敏感信息,如物理环境、位置信息等,必须得到保护。Lin等人提出一种针对医疗传感器大数据的差分隐私保护方案,引入动态噪音阈值,使该方案更加适合大数据的隐私保护。针对用户隐私保护的计算开销,Lin]应用哈尔小波转换方法将直方图转换为完整的二叉树,实验结果表明树形结构大大降低了用户隐私保护的计算开销。

第二章 参考文献

黄尤江, 贺莲, 苏焕群,等. 医疗大数据的应用及其隐私保护[J]. 中华医学图书情报杂志, 2015(09):43-45.

高志强, 王宇涛. 差分隐私技术研究进展[J].通信学报, 2017, 38(0z1):151-155.

侯梦薇, 卫荣, 兰欣,等. 基于差分隐私的医疗大数据隐私保护模型应用研究[J]. 中国数字医学, 2019, 014(012):86-88.

猜你喜欢

转载自blog.csdn.net/pengpengjy/article/details/110548355