Mining Roles from Event Logs While Preserving Privacy

摘要

流程挖掘旨在基于事件数据提供对实际流程的见解。这些数据广泛可用,并且通常包含有关个人的私人信息。一方面,知道哪些人(称为资源)执行了特定的活动可以用于资源行为分析(例如角色挖掘),并且对于瓶颈分析是必不可少的。另一方面,带有资源信息的事件数据是高度敏感的。流程挖掘应以带注释的模型的形式揭示洞察力,但不应揭示有关个人的敏感信息。

在本文中,我们证明了无法通过简单的方法(例如,对数据进行加密)解决该问题,并且仍然可以基于一些精心选择的事件来识别匿名人员。因此,我们介绍了一种分解方法和一系列技术,可以保护个人的隐私,但是,与此同时,可以发现角色并将其用于进一步的瓶颈分析,而无需透露有关个人的敏感信息。为了评估我们的方法,我们已经实现了一个交互式环境,并将我们的方法应用于一些现实生活和人工事件日志中。

引言

我们提供一种隐私保护方法,以从事件日志中发现角色。引入了一种分解方法以及一些技术来保护事件数据中个人的私人信息在此特定上下文中免受基于频率的攻击。发现的角色可以用资源替换,并用于瓶颈分析,而不再需要处理个人标识符。我们会评估我们的方法隐私保证与准确性损失之间的典型权衡。

Preliminaries

在这里插入图片描述
在下文中,我们根据频率的箱形图定义敏感频率,这样不仅将异常值也将所有其他异常频率都归类为敏感频率。具有敏感频率的活动更有可能被对手识别

role mining

从事件日志中发现流程模型时,重点是流程活动及其依赖性。派生角色和其他组织实体时,重点是基于个人活动之间的关系。用于发现角色和组织结构的基于联合活动的度量将每个人视为该人执行的活动频率的向量,并使用相似性度量来计算两个向量之间的相似性。在个人之间构建社交网络,以便如果相似度大于最小阈值(Θ),则对应的个人将与无向边缘相连。处于同一连接部分的个体应该扮演相同的角色[4]。

考虑表1,并假设每个向量中的活动顺序为D,V,C,R,S。那么,Paolo的向量为P =(0,1,1,0,0),而Monica的向量为M =(0,1,1,0,0)。因此,这些向量之间的相似度为1。在本文中,我们使用如下定义的资源活动矩阵(RAM)作为提取向量和推导角色的基础。

定义8(资源活动矩阵RAM):RAMEL®=(RAMEL(r, a1), RAMEL(r, a2), …,RAMEL(r, an))。RAMEL(r, a) =∑σ∈EL|[x ∈ σ | x = (r, a)]|。

表2是从表1得到的RAM
在这里插入图片描述
定义9(联合活动社交网络JSN):sim(r1, r2)代表基于RAMEL(r1)和RAMEL(r2)的相似关系,E = {(r1, r2) ∈ res(EL) × res(EL) | sim(r1, r2) > Θ}是资源之间无向边的集合,而Θ是相似性的阈值。JSNEL = (res(EL), E)是联合活动社交网络。

注意,可以应用各种相似性度量,例如,欧几里得,Jaccard,Pearson等。图1示出了当使用Pearson作为相似性度量时通过应用阈值0.1获得的网络和角色。
在这里插入图片描述

问题(攻击分析)

在这里,我们讨论了流程挖掘中的机密性/隐私性的一般问题,然后我们将重点放在特定的问题和攻击模型上。

一般问题

在这里插入图片描述

将表3视为带有手术信息的完全加密的事件日志。包括标准属性(案例ID,活动,资源和时间戳)。流程挖掘技术需要保持差异。因此,案例ID,活动和资源是根据确定性的加密方法进行加密的.1使用同态加密方法对数字数据(即时间戳)进行加密,以便可以应用基本的数学计算。尽管完全加密的事件日志似乎很安全,但事实并非如此。

一个人可以找到最频繁或最不频繁的活动,并提供给定的背景知识,就可以用真实值简单地替换加密的值。另外,活动的位置还可以用于推断敏感信息,例如,当活动始终是第一/最后活动时,给定领域知识,就可以推断出真实活动这些攻击被认为是基于频率的。请注意,推断出实际的活动名称后,最有可能识别出相应的执行者。

除了上述攻击之外,还可以利用其他属性来标识实际活动和资源。例如,当时间戳通过确定性同态加密方法加密时,则可以推导两个事件之间的持续时间。根据背景知识,可以推断出最长/最短的持续时间属于特定事件。当有更多属性时,很有可能可以将它们组合以推断其他属性。

这些示例说明,即使具有特定的领域知识,也可能从完全加密的基本事件日志中泄漏数据。此外,如果将挖掘技术应用于加密的事件日志,结果也将被加密,并且数据分析人员无法解密就无法解释它们。

攻击分析

现在,让我们专注于特定的环境,目标是提取角色而不透露谁执行了什么?可以从简单的事件日志中派生角色,在此设置中,活动被视为敏感属性。因此,活动被散列,并且我们将H(A)定义为散列活动的范围。(H(X) = {H(x) | x ∈ X}),H是单向哈希函数,这里我们使用SHA-256。

我们假设活动的频率为背景知识(bk),其中Ufrq = H(A)×N是散列的活动频率,可以基于假定的背景知识来揭示实际的活动。例如,在事件日志表1中,最不频繁的活动是“特殊情况”,它可以基于有关频率的背景知识来揭示。我们将此信息披露视为活动披露(属性披露的一种)。请注意,资源通常不是事件日志中的唯一标识符。但是,它们可能会被加密或散列。在这里,我们的重点是活动,而挑战是消除活动的频率,而活动是衡量资源相似性和派生角色所必需的。当背景知识涉及轨迹时(例如,轨迹的长度和轨迹中的活动位置),我们的方法还可以改善隐私

方法

想法是将活动分解为其他活动,以使活动的频率和位置受到干扰。但是,与此同时,资源之间的相似性应保持尽可能相似。为此,我们需要确定每个活动的替换次数,以及在主要活动的替换之间分配主频度的方式。我们将D(H(A))视为分解后的散列活动的整体,并按以下方式获得经过净化的事件日志。

定义10(Sanitized Event Logs )分为多集mul,集合set,和trace形式。

当不需要从清理后的事件日志中重建跟踪时,可以使用mul。在这种情况下,经过清理的事件日志可在基于背景知识的情况下完全保护个人的隐私,防止属性泄露。此外,很明显,可以从已清理的事件日志中简单地得出资源活动矩阵和相应的联合活动社交网络.

分解方法

每个活动a的替代数(NSa)应该以这样一种方式指定:具有敏感频率的活动不再确定。接下来,我们介绍一些技术。

  • 固定值:固定值被视为每个活动的替换次数,对于活动a,NSa = n。
  • 选择性:通过这种技术,只有敏感频率的目标是受到干扰。因此,只有一些具有敏感频率的活动被分解。我们分配替代
  • 在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

请注意,我们的目标是在分解后以最少的活动数来扰动频率范围。

  • 基于频率:替代品是根据主要活动的相对频率进行分配的。在这里,我们分配替换,对于每个活动:
    在这里插入图片描述
    确定分配数量后,确定分配集set Suba = {sa1, sa2, …, saNSa },不同的活动集不相交。

为了保留向量的主要特征,我们将主要活动的频率均匀地分布在各个替代活动之间。为此,在浏览事件日志时,针对每个资源,第i个出现的活动被分配集中的sai替代。

我们保证,如果一项资源执行某项活动的频率大于或等于其他资源,那么执行相应替换的频率也将大于或等于其他资源。

隐私分析

为了分析隐私,我们测量原始事件日志和已清理事件日志的披露风险。考虑两个因素来衡量披露风险,包括:具有敏感频率的活动的数量,以及具有敏感频率的实际活动的存在

评估

图1是用本文的基于python的工具的输出。事件日志用以下两个(BPIC 2012 and 2017).

CN是连接的部分,UC是未连接的部分
在这里插入图片描述

表4显示了使用固定值技术确定取代数时的相似性。可以看出,网络几乎相同并且精度是可以接受的。当替换次数增加时,相似度的平均值会降低,这表明了准确性和隐私性之间的典型权衡。此外,未连接部分中的网络是相同的,即,如果JSN中没有连接两个资源,那么JSN中也不会连接。图2显示了使用选择性或基于频率的技术时的各种阈值。可以看出,平均而言,选择性技术可导致更准确的结果。但是,在未连接的部分中,基于频率的技术具有更好的结果。请注意,就资源和活动而言,BPIC 2017比BPIC 2012大(表5)。
在这里插入图片描述
在这里插入图片描述

隐私

为了评估对隐私的影响,我们在使用不同技术的分解方法之后,计算了原始事件日志和已清理事件日志的披露风险。表6和表7分别显示了关于BPIC 2012和2017的披露风险的参数。可以看出,当使用固定值技术时,对于较大的值,DR较低,因为这两个事件日志中的替换数量都很大。此外,由于最不频繁活动的相对频率非常低,因此基于频率的技术不会影响敏感频率的下限。通过将该技术与固定值结合使用,可以减轻这种弱点,从而使替换次数为相对频率加固定值。
在这里插入图片描述
在这里插入图片描述
为了比较引入的技术,我们将所有技术可以提供的最小披露风险作为比较的基础,并针对相同的披露风险评估不同技术提供的准确性和复杂性。准确性是网络之间的平均相似度,而复杂度则被视为唯一活动的数量。请注意,对于固定值技术,我们检查事件日志,该日志具有提供基本披露风险的最小NS。表8和表9分别显示了针对BPIC 2012和2017的此实验的结果。可以看到,在两个事件日志中,固定值技术都可以提供更准确的结果,而选择性技术则可以降低复杂性。

所有上述解释和我们的实验表明,分解方法为从事件日志中挖掘角色提供了准确而高度灵活的保护,例如,当频率的上限更加敏感并且频率上限较高时,可以使用基于频率的技术的分解方法。未连接零件的精度更重要

在这里插入图片描述

在本文中,我们第一次从流程挖掘的组织角度关注隐私问题。我们提出了一种发现联合活动社交网络和挖掘角色的方法,隐私。我们引入了分解方法以及一系列技术,通过这些技术,可以保护有关个人的私人信息免受基于频率的攻击。发现的角色可以用事件数据中的个人替换,以进行进一步的性能和瓶颈分析。

该方法已在BPIC 2012和2017上进行了评估,并证明了其对准确性和隐私性的影响。为了评估准确性,我们在考虑了不同阈值的情况下分别测量了两个网络的连接部分和未连接部分之间的相似性。此外,我们引入了三种不同的技术来识别分解方法中的取代数,并且当将活动的频率假定为背景知识时,我们展示了它们对准确性和隐私性的影响。将来,可以针对事件日志的特性探索其他技术或引入技术的组合。

附录

pearson 相似性度量

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_42253964/article/details/107525568
今日推荐