Quantifying the Re-identification Risk of Event Logs for Process Mining

摘要

在发布事件日志时,必须考虑这种重新识别攻击的风险。在本文中,我们展示了如何通过事件日志中个体唯一性的度量来量化重新识别风险。我们还报告了一项大规模研究,该研究探索了一系列公共事件日志中的个体唯一性。我们的结果表明,事件日志中可能多达所有情况的潜在事件可能会被重新识别,这突出了隐私保护技术在过程挖掘中的重要性。

引言

由于众所周知存在隐私威胁,因此发布事件日志的意愿很低。但是,公开可用的事件日志对于评估流程挖掘模型[2-4]是必需的,因此需要讨论如何安全发布事件日志。在这种背景下,我们认为了解事件日志和流程挖掘中数据重新识别的风险至关重要。有了这种洞察力,我们就可以平衡事件日志可以共享多少信息以及应该匿名保留多少信息以保护隐私。尽管许多示例证实了重新识别数据的一般风险[5-7],但事件日志的重新识别风险尚未引起足够的重视。

本文的目的是提高对事件日志重新识别风险的认识,从而提供量化此风险的措施。为此,我们提供了一种表示数据唯一性的方法,该方法是从过程挖掘技术通常采用的模型中得出的。事件日志中记录的每个事件都由特定的数据类型组成,例如相应流程步骤的活动名称,其执行的时间戳以及捕获活动上下文和参数的事件属性。此外,与流程的同一案例相关的事件序列(也称为轨迹)带有数据属性,即所谓的案例属性,其中包含有关案例的一般信息。

为了提取敏感信息,攻击者使用背景知识将目标的属性与事件日志中的案例/事件属性关联起来,例如,通过将公共可用来源进行互相关。事件日志的唯一性越高,对手识别目标的机会就越高。因此,我们的方法探索了由案例属性集或事件属性集唯一可识别的案例数。我们使用此信息来推导事件日志的唯一性度量,以此作为估计重新识别案例的可能性的基础。为了证明事件日志唯一性考虑的重要性,我们对来自4TU.Centre for Research Data仓库的12个公开可用的事件日志进行了大规模研究。1我们对记录进行了分类,并评估了案例涉及个人的唯一性。我们针对这些日志的结果表明,根据先前的知识,对手有可能重新识别所有案件。我们表明,攻击者仅需要轨迹的几个属性即可成功发起此类攻击。本文的贡献可总结如下:

  • 我们提出一种量化与事件日志相关的隐私风险的方法。通过这种方式,我们支持在发布事件日志时识别应禁止显示的信息,从而促进对日志的负责任使用,并为基于事件日志分析的新颖用例铺平道路。
  • 通过报告大规模评估研究的结果,我们强调需要开发具有高度实用性的事件日志隐私保护技术,以进行过程分析。我们的个人独特性概念可能会促使这种努力,因为它们使固有的隐私风险明确化了。

此篇文章的结构如下。第2节说明了流程挖掘中的隐私威胁。第3节介绍了量化重新识别风险的方法。我们分析可公开获取的事件日志。

过程挖掘的隐私威胁

在这里插入图片描述
流程挖掘使用事件日志来发现和分析业务流程。事件日志将活动的执行捕获为事件。此类事件的有限序列形成一个轨迹,表示单个流程实例(又称案例)。例如,在急诊室对患者的治疗包括许多事件,例如血液采样和分析,这些事件共同遵循由过程确定的特定结构。因此,与单个患者有关的事件构成一个案例。另外,案例属性​​提供有关案例的一般信息,例如患者的出生地。每个事件由各种数据类型组成,例如各个活动的名称,执行的时间戳和事件属性。事件属性是特定于事件的,并且可能随时间而变化,例如温度或执行治疗的部门。案例属性和事件属性之间的主要区别在于,案例属性​​在观察的时间段内不会更改案例的值。我们在表1中显示了一个综合事件日志示例,该示例捕获了急诊室的流程。

考虑到事件日志的结构,确定了几种隐私威胁。将案件与个人联系起来可以显示敏感信息,例如在急诊室过程中,某些事件可以表明患者处于某种状况。通常,案例属性​​可以包含各种敏感数据,以揭示种族或族裔血统,政治见解,宗教或哲学信仰以及财务或健康信息。同样,事件日志可以显示有关医院工作人员的生产率[8]或工作时间表的信息。这种员工监视是严重的隐私威胁。显然,在流程挖掘项目中包括隐私注意事项至关重要。我们假设对手的目标是在事件日志链接外部信息识别个人

根据背景信息的类型,可能会有不同的对手模型我们假设有针对性的重新标识,即,对手具有有关特定个人的信息,其中包括属性值的子集。基于此,对手旨在揭示敏感信息,例如诊断信息在此,我们假设对手知道事件日志中有个人。在本文中,我们考虑了唯一性度量来量化敏感信息的重新识别风险,从而为管理隐私注意事项提供了基础。

重新识别事件日志

为了将唯一性度量应用于案例,我们将所有发生的事件数据汇总到相应的案例。这种假设使处理属于同一案例的多个事件变得容易。由于案例属性随时间不变,因此只需要考虑一次,而事件属性对于每个事件都可能不同,因此需要考虑其时间变化。表2提供了相应的示例。
在这里插入图片描述

该表中的每一行都属于一种案例。案例属性“性别”和“年龄”在单独的列中列出。 “活动”,“时间戳”和“到达频道”列包含各个属性的有序列表。例如,案例ID 11只有两个事件,因此只有两个活动。 2019年3月4日的第二项活动“抗生素”没有“到达通道”(即“无”)。事件日志的唯一性用作估计重新识别案例的可能性的基础。我们研究了许多所谓的投影,可以将其视为数据最小化技术,以有效降低事件日志中重新识别的潜在风险。投影是指事件日志中属性的子集。可以很容易地采用它们来评估不同情况下的风险。表3总结了事件日志的投影及其在流程挖掘中的潜在用途。投影A包含所有已执行活动及其时间戳的序列,而投影F仅包含案例属性。已经表明,即使事件日志的稀疏投影也会带来隐私风险[4]。因此,在我们的评估中,我们将考虑各种投影的重新识别风险。
在这里插入图片描述

基于案例属性的唯一性

除了唯一标识符(UID),所谓的准标识符也是可以链接到个人的信息。准标识符的组合可能足以创建UID。在事件日志中,案例属性​​可以看作是准标识符。例如,在BPI Challenge 2018 [9]的事件日志中,所有包裹的面积和当地部门的ID都可以视为案例属性。基于案例属性测量唯一性是量化重新识别风险的常用方法==[10]==。案例唯一性以及个人唯一性会极大地增加重新识别的风险。案例属性的单个值不会导致识别。但是,与其他属性的组合可能会导致特殊情况。特别是,将属性链接到其他信息源时,可能会导致成功进行重新标识

我们将唯一性定义为事件日志中唯一性案例的一部分。令fk为样本中案例属性值的第k个组合的频率。如果fk = 1,则情况是唯一的,即不存在其他具有相同case属性值的情况。因此,案例属性​​的唯一性定义为:
在这里插入图片描述
如果第k个组合是唯一的,则指标函数I(fk = 1)为1,并且N是事件日志中的案例总数。参照表2中的数据,属性值“性别:女性”会导致两个可能的候选病例(id:11和id:11),即fk = 2,这意味着该组合不是唯一的。将“年龄”作为附加的准标识符考虑在内,可使列出的所有三种情况都是唯一的,即Ucase =1。由于经常发布事件日志的样本,因此我们区分样本唯一性和总体唯一性。样本中唯一案例的数量称为样本唯一性。对于总体唯一性,我们指的是完整事件日志中唯一案例的数量(即总体)。基于公开的事件日志,我们可以测量样本的唯一性。总体唯一性是样本中唯一的案例数量,在从中采样数据的基础总体中也是唯一的案例数量。通常,事件日志是来自总体的样本,原始事件日志不可用。因此,无法测量总体唯一性,必须对其进行估算。

有几种模型可以从样本中估计总体唯一性。这些方法基于列联表的外推模型来模拟总体唯一性,以使特定分布适合频率计数[10]。我们采用Rocher和Hendrickx [7]的方法来估计种群的唯一性。作者使用高斯copulas来建模种群的唯一性,从样本中近似边缘,并估计样本唯一性是种群唯一性的可能性。对于此分析,我们假设事件日志是已发布的示例。通过应用该方法,我们根据案件的属性来估计案件的总体唯一性。

基于traces的唯一性

用于流程挖掘的大多数已发布事件日志没有很多案例属性,只有事件属性。例如,sepsis脓毒症事件日志[11]仅具有一个案例属性(“年龄”)。但是,根据事件,案例也可以是唯一的。我们使用轨迹测量唯一性。

我们假设对手的主要目标是重新确定给定多个点的个人,并揭示其他敏感点。我们认为对手具有一定的知识并知道一些要点,她可以将这些要点与事件日志联系起来。特别是,我们假设对手知道事件日志中包含某个人。换句话说,我们将已发布的事件日志视为总体。如表2中的示例所示,即使不考虑病例属性,所有病例也是唯一的:病例11通过其第二种活性“抗生素”是唯一可识别的。通过将活动与相应的时间戳进行组合,可以唯一标识案例10和案例12。例如,对手可能会获得有关患者抵达的信息(例如,“值机时间:19年3月5日”)。给定此信息作为跟踪的关键点,对手就足以识别患者并从事件日志中显示其他信息。

因此,我们将重新识别风险表示为特殊情况的比率。轨迹的唯一性可以类似于位置轨迹来测量==[12,13]==。在位置轨迹中,点仅由位置和时间戳组成。相反,我们不仅具有二维点,而且具有i.a的多维点。活动,资源和时间戳。令{ci} i = 1,…,N为由一组N条迹线组成的事件。给定一组m个随机点(称为Mp),我们计算包含该点集的迹线数。如果点集Mp仅包含在一条轨迹中,则该轨迹是唯一的。给定Mp的迹线的唯一性定义为
在这里插入图片描述
如果轨迹是唯一的,则δi = 1,否则为0.

结果

为了进行评估,我们使用了4TU.Centre for Research Data的公开事件日志。我们将事件日志分为个人(R)和软件(S)事件日志。现实生活中个体的案例标识符是指自然人,例如,==ADL事件日志[14]==包括个人的日常生活活动。在涉及软件活动的事件日志中,事件不是直接指自然人,而是指技术组件。例如,BPI Challenge 2013事件日志[15]包含事件管理系统中的事件。一些与软件相关的事件日志甚至包含单个案例,这使得衡量案例的唯一性更加困难。但是,如果可以将合适的标识符链接到案例,则还可以测量与软件相关的事件日志的唯一性。例如,BPI Challenge 2013事件日志中的事件由自然人处理。通过使用适当的转换,该自然人可以用作案例标识符。在下文中,我们将应用我们的方法来仅估计真实个体事件日志(R)的唯一性。我们仅使用多个案例属性来衡量事件日志的案例属性的唯一性。表4总结了我们的分类结果,提供了一些案例和活动数量的基本指标,并指出了应用的唯一性度量。为了提高可读性和出于道德考虑(有关详细信息,请参阅第4.3节),我们将应用我们的方法并仅针对BPI Challenge 2018 [9]和败血症[11]事件日志详细讨论中间结果。对于所有其他事件日志,我们提供压缩的和假名的结果。请注意,以下各节中的假名事件日志的顺序与表4中的顺序不同,但是在整个评估过程中,假名的一致性是一致的。
在这里插入图片描述

BPI Challenge 2018事件日志由德国公司“数据专家”提供。它包含与欧盟农业担保基金付款程序的应用相关的事件。事件日志包含43,809个案例,每个案例代表三年内农民的直接付款申请。我们确定了“实际付款”(PYMT),“区域”(ARA),“部门”(DPT),“地块”(#PCL),“小农”(SF),“年轻农”(YF),“年” (Y)和“适用金额”(AMT)作为案例属性。数据贡献者通过将值分组到100个bin中来概括属性PYMT,#PCL和AMT,其中bin由最小值[9]标识。

为了确定案例属性的影响,我们使用各种组合来评估其唯一性。具体来说,我们研究了哪些属性值组合使案例更加独特并因此变得独特。对手的背景知识越广泛,这种个体就越有可能变得可识别。

案例属性​​越多,案例变得越独特。我们不考虑包含事件日志活动的案例属性(即第一个执行的活动),因为我们假设对手不知道执行活动的确切顺序。
在这里插入图片描述
并非所有事件日志都基于案例属性显示出很高的唯一性。在BPI Challenge 2018事件日志的情况下,可以观察到即使是少数案例属性也会产生很高的唯一性,从而带来很高的重新识别风险

败血症事件日志是从荷兰医院的信息系统中获得的。它包含与进入急诊室并怀疑患有败血症的患者的后勤和治疗有关的事件,败血症是危及生命的状况,需要立即治疗。最初,对事件日志进行了分析,以了解是否遵守及时应用抗生素的准则,并且更一般而言,它与患者的整体轨迹有关[32]。出于研究目的,这些数据已公开提供[11]。

取了几种防止识别的措施,包括:

  • 通过扰动案件的开始并相应地调整各个后续事件的时间戳来使时间戳随机化
  • 与出勤相关活动的假名,例如“发行A”
  • 通过说明部门来概括员工信息仅
  • 工作诊断的假名化
  • 将年龄推广到5岁以下人群和至少10个人。

事件日志包含1,049个案例,涉及16个不同的活动。每个案例代表自然人通过医院的途径。迹线的平均长度为14点(最小= 3,最大= 185)。与BPI Challenge 2018事件日志相反,脓毒症事件日志仅具有一个可用作案例属性的属性。

为了估计轨迹的唯一性,我们使用Sect 3.2中介绍的方法。脓毒症事件日志中的点包括当前负责患者治疗的活动,时间戳记和部门。 “年龄”用作案例属性。由于患者在不同部门接受治疗,因此“部门”不符合案例属性的时间不变标准(参见第2节)。

对于每种情况,我们随机选择迹线的m个点并计算具有相同点的迹线数。换句话说,我们会寻找其他跟踪,例如包含同一部门的相同活动。我们选择随机选择点,以避免对对手的知识做出假设。我们知道,这可能会低估重新识别的风险。结果,我们结果的高度唯一性强调了重新识别的风险,因为更复杂,更优化的点选择可能会导致更高的唯一性。在图1中,我们显示了m个点的不同值和不同投影的迹线的唯一性。正如预期的那样,我们通常观察到更多的点导致更高的唯一性。假设时间戳是正确的(不是正确的),投影A显示包括活动和时间戳在内的四个点足以识别所有痕迹。通过归纳时间戳,即将分辨率降低到几天,在考虑四个点时,只有31%的迹线是唯一的,而考虑到迹线的所有点时,只有70%是唯一的。因此,结果清楚地表明了归纳对重新识别风险的影响。
在这里插入图片描述

当考虑其他投影时,从事件日志中删除值的隐私增强效果变得明显。例如,投影B省略了时间戳,但在其他情况下假定对手具有所有活动,案例和事件属性的背景知识。但是,它可以将唯一性显着限制在大约37%。仍包含案例属性和活动的投影D甚至可以将迹线的唯一性限制为最大9%。迹线的唯一性在超过64点时保持稳定,因为只有2%的迹线具有超过64点。

我们基于跟踪估算唯一性的方法可以应用于所有归类为“现实生活中的个人(R)”的事件日志。图2展示了不同投影的所有事件日志的唯一性。我们给定每条迹线10%,50%和90%的可能点数,即对手知道每种情况下的此点数,以此来评估唯一性。没有数字的灰色字段表示由于缺少属性而无法评估此投影。
在这里插入图片描述

在图2中,我们观察到了与脓毒症事件日志类似的趋势:投影A通常会导致很高的唯一性。通过省略由各种投影表示的信息,唯一性降低。当比较投影B与C时,情况属性将被删除,这变得显而易见。投影E,即仅考虑活动,导致唯一性小,事件日志5和9除外。我们通过以下事实进行解释:这些事件日志具有许多不同的活动,并且每种情况下的迹线长度都不同。对于事件日志10,我们已经看到投影B的唯一性明显降低。这可以用少量的案例属性和少量的唯一活动来解释。

最令人惊讶的事件日志是11。它没有独特的情况。造成这种差异的主要原因是每日解决方案中带有时间戳记以及少量独特活动。值得补充的是,与唯一性相比,将点数从10%增加到50%相对于将点数从50%增加到90%有意义。例如,事件日志10的投影A的唯一性从图2a中的62.4%增加到图2b中的73.7%。给定轨迹的90%点,我们无法观察到事件日志10的唯一性增加。对于其他事件日志和其他投影,也可以观察到。主要原因是走线长度变化很大。

总的来说,在我们的研究中,我们发现基于痕迹的唯一性高于基于案例属性的唯一性(参见表5中的结果)。例如,事件日志3具有基于案例属性1.1%的样本唯一性。但是,基于轨迹,对于投影C而言,其案例唯一性为84.4%。我们得出的结论是,轨迹特别容易受到数据重新标识攻击的攻击

讨论

我们的结果表明,即使对于随机选择的跟踪点,在12个评估的事件日志中,有11个的唯一性大于62%。更具体的信息,例如单个活动的顺序,可以以更少的积分带来更大的独特性。攻击者通常可以使用有关该过程的其他知识来预测某些活动,这在==[33]==中也得到了证实。但是,随机选择清楚地表明,很少的背景知识就足够了,并且已经为事件日志带来了很大的重新识别风险。相反,属性的泛化有助于降低风险[34]。但是,结果表明,组合多个属性(例如案例属性和活动)仍会产生唯一的案例。与降低值的分辨率相结合,例如,仅发布出生年份而不是整个生日,可以降低重新识别的风险。这样的概括(泛化)技术也可以应用于时间戳,活动或案例属性。

遵循数据最小化原则,即限制个人数据量,数据遗漏只是降低风险的最深刻的方法,我们在考虑投影时会清楚地看到这一点。因此,可以使用这些投影来降低重新识别的风险。

我们将我们的方法应用于已发布的事件日志,以指出流程挖掘领域中重新识别的风险。为此,我们仅量化风险,避免相互关联其他事件日志,否则可能会重新识别个人。此外,我们在评估过程中采取了一些措施,例如假名化事件日志,以不暴露也不归咎于特定的事件日志

相关工作

重新识别攻击。过去,许多研究人员已经解决并成功进行了重新识别攻击[6,7,12,13,35,36]。 Narayanan和Shmatikov [35]通过对多个数据集进行互相关,对来自Netflix的包含电影评级的数据集进行匿名处理。我们对手的目标是重新识别一个人,而不是重构一个人的所有属性值。因此,我们测量了唯一性。我们基于两种众所周知的方法来进行独特性度量[7,12,13]。

Rocher等。 [7]根据给定的属性值估计总体唯一性。我们采用他们的方法基于案例属性来估计唯一性。我们基于轨迹估计唯一性的方法依赖于[12,13]中提出的方法,该方法估计了带有位置数据的移动轨迹中的唯一性。由于事件日志的结构,仅这两种方法不足以确定事件日志中的唯一性,并且需要数据准备。例如,事件日志具有需要转换的特定格式,以便对轨迹应用唯一性度量。

流程挖掘中的隐私。尤其是自从通用数据保护条例(GDPR)生效以来,过程挖掘中的隐私问题意识有所增强[37]。尽管过程挖掘宣言[38]要求平衡过程挖掘应用程序中的效用和隐私,但是相关贡献的数量仍然很少。 Fahrenkrog-Petersen等人已经解决了在保留事件日志中的隐私的同时仍然发现正确的主要过程行为的问题。 [4]。他们的算法保证了k-匿名性和t-紧密性,同时最大化了已清理事件日志的实用性。通常,k匿名性以一种方式聚合数据,使得每个人都无法基于其值与数据集中至少k-1个其他人进行区分[39,40]。但是,过去已经证明,k匿名性和t紧密度都不足以提供强大的隐私保证[41]。

迄今为止,可提供可证明的隐私保证的最强大的隐私模型是差分隐私。最近,它被并入了第一个用于过程挖掘的隐私保护技术[2]。该方法提出了一种隐私引擎,能够通过向查询中添加噪音来保持个人数据的私密性。 [2,4]的隐私技术已组合在基于Web的工具[3]中。在[42,43]中已经讨论了与过程挖掘相关的数据集的假名化。原始数据集的值被化名替换。但是,加密仍然允许对手在有关加密数据的域和统计分布的知识的情况下进行潜在的重新标识。除了用于流程挖掘的技术隐私挑战之外,[44]的方法还通过框架讨论了组织隐私挑战。尽管该方法指出了过程挖掘中的一些隐私问题,但未提供任何技术解决方案。皮卡等。 [33]评估过程挖掘数据的现有隐私保护方法的适用性。他们提出了一个框架来支持隐私保护过程挖掘分析。而皮卡等。虽然分析了现有数据转换方法对过程数据进行匿名处理的适用性,但它们没有提供支持识别信息(例如非典型过程行为)的方法,应予以抑制以减少受试者的重新识别风险。我们的指标填补了这一空白,并帮助数据所有者识别具有非典型过程行为的独特案例

与现有的有关隐私感知方法进行流程挖掘的相关工作相比,本文尝试对重新识别风险进行量化。数据发布者可以在发布事件日志以进行流程挖掘之前,确定应抑制哪些信息。如果重新识别风险很高,上述方法可能能够降低重新识别的风险,从而提供更高的隐私保证。

结论

本文识别和评估事件日志中用于流程挖掘的重新识别风险。我们发现社区中广泛使用的绝大多数事件日志中存在严重的隐私泄漏。为了解决此问题,我们主张使用方法来估计唯一性,以使事件日志发布者可以在发布之前以及是否需要抑制某些信息的情况下仔细评估其事件日志。总体而言,真实世界的数据跟踪是评估和比较算法的必要手段。本文显示,作为一个社区,我们在发布事件日志时必须采取更加谨慎的行动,同时还强调了为事件日志开发隐私保护技术的必要性。我们相信这项工作将增进信任,并在提供隐私保证的同时提高共享事件日志的意愿。

猜你喜欢

转载自blog.csdn.net/weixin_42253964/article/details/107647090