Supporting Confidentiality in Process Mining Using Abstraction and Encryption

摘要

使用抽象,提出了一个方法,能使我们以一种可控的方式隐藏机密信息,并且能确保渴望的过程挖掘结果仍被保留。

应用连接器方法作为安全存储事件之间关联的技术。

引言

关注过程挖掘的机密性,我们旨在解决两个重要的问题:

  • 保护属于组织的敏感数据
  • 保护属于个人的隐私信息

我们希望尽可能少的保留信息,但同时又能有相同的期望的结果。在这里,期望的结果是过程模型社交网络。基于匿名后的事件数据发现的模型或网络应该与原始事件数据获得的结果一致。

我们的方法基于抽象,另外,我们展示了连接器方法,通过它,关于个人的trace保持匿名,同时过程模型和社交网络是可发现的。提出的方法允许我们从安全的事件数据和原始事件数据得到相同的结果,同时未经授权的人无法访问机密信息。该框架提供了一个跨组织过程挖掘的安全解决方法。

相关工作

DFG

是一个图形,其中节点表示活动,弧线表示因果关系。当活动“ a”和“ b”频繁地跟随时,通过箭头将“ a”和“ b”连接起来。箭头的权重表示关系的频率[19]。大多数商业过程挖掘工具都使用DFG。与更高级的过程发现技术(例如,在ProM中实现)不同,DFG无法表达并发性。图1显示了事件日志表1产生的DFG。

发现社交网络

从事件日志中发现社交网络的方法有多种,包括基于因果关系,联合活动(joint activities),联合案例等的方法[9]。但是,我们仅关注基于因果关系的指标。这些度量标准监视个别情况,工作如何从资源转移到资源。例如,如果存在两个后续活动,其中第一个由i执行,第二个由j执行,则存在从个人i到个人j的切换关系。如果两个活动之间存在偶然依赖关系,则该关系还将变为实际移交。请注意,在这种情况下,资源之间的直接跟随关系还不够,需要真正的临时依赖关系。

依赖度量(等式1)可用于实现两个活动(a和b)之间是否存在真正的偶然依赖,同时将阈值设置为最小要求值[2]。在等式中1 | | a> Lb |显示a跟随b的频率:
在这里插入图片描述
在观察切换时,也可以考虑间接继承。例如,基于表1的事件日志,在深度为3的“ Frank”和“ Alex”之间存在非真实的切换关系。这是不真实的,因为所有相应活动之间没有真正的偶然依赖。图2显示了从事件日志表1获得的基于因果关系的网络。
在这里插入图片描述
在这里插入图片描述

密码学

  • 对称密码系统:相同的密钥用于加密和解密消息。对称系统中的数据处理比非对称系统更快,因为它们通常使用较短的密钥长度。高级加密标准(AES)是一种对称加密算法[13]。
  • 非对称加密系统:非对称系统使用公共密钥对消息进行加密,并使用私钥对消息进行解密,反之亦然。非对称系统的使用增强了通信的安全性。 Rivest-Shamir-Adleman (RSA)是一种非对称加密算法。
  • 确定性密码系统:确定性密码系统是始终为给定的明文和密钥生成相同密文的密码系统,即使在单独执行加密算法的情况下也是如此。
  • 概率密码系统:除确定性密码系统外,概率密码系统是一种在加密时使用随机性的密码系统,因此,对相同的明文进行多次加密时,它将产生不同的密文。
  • 同态密码系统:同态密码系统允许对密文进行计算,例如Paillier是部分同态密码系统[24]。

问题定义(攻击分析)

用例子说明过程挖掘机密性挑战:

考虑表2,该表描述了完全加密的事件日志,属于进行手术的医院。由于我们需要保留差异以找到每种情况的活动序列,因此需要发现过程模型,并使用确定性加密方法对诸如社交网络发现,“案例ID”,“活动”和“资源”之类的其他分析进行加密。数字数据(即“时间戳”和“成本”)通过同态加密方法进行加密,以保留对加密数据进行基本数学计算的能力。现在,假设我们具有有关外科医生的背景知识以及不同类型的手术的大概费用。问题是现在是否可以将部分日志匿名化

在这里插入图片描述

由于采用同态加密方法对“费用”进行了加密,因此“费用”的最大值是实际的最大费用,根据背景知识,我们知道例如医院中最昂贵的事件是脑外科手术由“博士Jone”,在“ 01/09/2018 at 12:00”,患者姓名为“ Judy”。由于“案例ID”,“活动”和“资源”是通过确定性加密方法加密的,因此我们可以将所有这些加密值替换为相应的普通值。因此,无需解密即可使加密数据可见。此示例说明,即使给定完全加密的事件日志,一小部分上下文知识也可能导致数据泄漏。给定领域知识,可以进行几种分析以识别个人或从加密的事件日志中提取一些敏感信息。在下面,我们解释其中的几个。

  • 探索迹线的长度:可以找到最长/最短的迹线,并且可以利用相关的背景知识来实现​​实际活动和相关案例。
  • 频率挖掘:人们可以找到频率最高或更低的踪迹,并且可以利用相关的背景知识来识别相应的案例和实际活动。

这些只是一些例子,说明仅加密并不是解决方案。例如,[21]显示出加密后的移动性痕迹很容易识别。此外,任何仅对整个事件日志进行加密的方法都将具有以下缺点:

  • 加密结果:由于结果是加密的,因此数据分析人员无法解释结果。例如,作为数据分析人员,我们想知道“注册”活动之后最常使用的路径;当活动不是很简单时,该如何进行分析?唯一的解决方案是解密结果。
  • 准确性评估的不可能:如何确保加密事件日志的结果与普通事件日志的结果相同?同样,将需要解密。

通常,正如[12]所探讨的那样,使用加密是一种资源消耗活动,而解密甚至比加密还要消耗更多资源。弱点表明,应该明智地使用加密方法,并且需要仔细评估哪些地方是受益人,哪些地方不可避免地要提供保密性。

在此,我们假设背景知识可以是任何有关轨迹的上下文知识,这些都会导致案件披露。迹线的频率,迹线的长度,与案例相关的确切/大约时间等。请注意,假定此背景知识用于未经授权的人员可以访问匿名数据。例如,在给定的关于轨迹频率的领域知识的情况下,人们可以猜测活动的实际顺序以及对于轨迹的罕见情况(例如政客,名人等)。因此,个人或少数群体及其私人信息将被泄露。因此,案例披露是应避免的数据泄漏的关键类型。

方法

在这里插入图片描述

图3展示了一个框架,当期望的结果是模型时,该框架为机密性提供解决方案。该框架的灵感来自于[5:Process discovery from event data: relating models and logs through abstractions],其中将抽象作为相关模型和日志的中间结果而引入。在这里,抽象直接遵循活动矩阵(A-DFM),并且直接遵循资源矩阵(R-DFM)。图4显示了事件日志产生的A-DFM和R-DFM表1。A-DFM被视为相关日志和流程模型的抽象,R-DFM与A-DFM一起被视为相关日志的抽象和基于因果关系的社交网络。如图3所示,提出了三种不同的环境和两种机密性解决方案

  • 禁止环境:在这种环境中,运行实际的信息系统需要使用实际数据。在这种环境下生成的真实事件日志(EL)包含许多有价值的机密信息,除了一些授权人员之外,没有人可以访问此数据。
  • 内部环境:授权的利益相关者只能访问此环境。可以将数据分析师视为可以访问内部事件日志的授权涉众。此环境中的事件日志是部分安全的,在此环境中产生的选定结果(例如流程模型)与在禁止环境中产生的结果相同,并且数据分析人员无需解密即可解释结果。
  • 外部环境:在这种环境中,未经授权的外部人员可以访问数据。这样的环境可以用于提供处理大数据集的计算基础设施(例如,云解决方案)。在这种环境下,事件日志应该是完全安全的,并且对结果进行加密。每当数据分析人员想要解释结果时,都需要将其解密并转换为内部版本。此外,外部环境的结果不必与内部环境的结果完全相同,但是需要提供相同的解释。

表3总结了我们对内部和外部环境的假设。请注意,在禁止环境中,主要假设是只有极少数高度信任的人​​可以访问数据。因此,无需采用机密性解决方案。如章节中所述。在图4中,关于轨迹的上下文知识被假定为背景知识。如图3所示,可以在每种环境中获得所需的结果,即过程模型(PM)和社交网络(SN)。内部机密解决方案(ICS)和外部机密解决方案将原始事件日志(EL)转换为内部环境(EL)中的部分安全事件日志,然后转换为外部环境(EL)中的完全安全的事件日志(ECS)。作为中间结果的抽象用于证明准确性。应该考虑到,由于抽象被认为是最终结果之前最后一阶段的输出(仅需要应用阈值),则当它们相等时,最终结果将相同。此外,内部机密解决方案(ICS的逆)的反向操作和外部机密解决方案(ECS−1)的反向操作提供了透明度,以下解释ICS和ECS。
在这里插入图片描述
在这里插入图片描述

Internal Confidentiality Solution (ICS)

对于ICS,我们结合了几种方法并介绍了连接器方法。图5概述了匿名化过程:

在这里插入图片描述

  • 过滤和修改输入。有效匿名化的第一步是准备数据输入。为了过滤输入,可以设置简单的频​​率限制,并且在加载事件日志期间,所有未达到最小频率的轨迹都不会传输到EL。
  • 选择简单的数据。如上所述,我们需要产生可解释的结果。因此,事件日志的某些部分在安全事件日志(EL)的内部版本中保留为纯文本格式。我们应该确定所需的信息和/或结构对于所需的分析是严格必需的。根据我们考虑的抽象(A-DFM和R-DFM),唯一需要的信息就是活动/资源之间的关系
  • 加密。这里有两个重要的选择。第一个选择是应加密事件日志的哪些列。其次,我们需要确定应使用哪种算法。对于内部环境,由于我们希望保持对加密值应用基本数学计算的能力,因此我们将Paillier用于数字属性(即“费用”),请注意,本文中显示的加密值不一定是加密方法的真实输出(它们只是难以理解的文本)。
  • 使时间相对。需要修改时间,因为保持事件的确切时间可以使人们识别它。将每个跟踪的开始时间设置为0的幼稚方法将使得无法重播事件和重建原始日志。因此,我们选择另一个相对于所有事件发生的时间。此时间与解密密钥一起可以保持安全。表4显示了我们的示例日志的前10行(相对于“ 01-01-2018:00.00”),在加密了成本和建立时间之后。
    在这里插入图片描述
  • 连接器方法。使用连接器方法,我们将可用于直接提取遵循关系的结构嵌入到EL中。同样,当给出键和相对值时,连接器方法可以帮助我们重建完整的原始事件日志。在第一步中,添加了先前的活动(“上一个活动”)和先前的资源(“上一个资源”)列,以标识可以直接连接的弧。
    在第二步中,我们找到一种方法来安全地保存“案例ID”中包含的信息,而不允许其链接事件。这可以通过为每一行赋予一个随机ID(“ ID”)和一个先前的ID(“ Prev.ID”)来完成。这些ID唯一地标识轨迹中的以下事件,因为ID不是通用名称,例如活动名称。开始活动的ID始终为零。表5显示添加“ Prev.活动”,“上一个资源”,“ ID”和“上一个.ID”。
    在第三步中,考虑到这些列包含以前在“案例ID”中找到的相同信息,因此必须将其隐藏并保护。这可以通过将“ ID”和“ Prev.每行的ID”连接
    在这里插入图片描述
    由于AES的性质,ID的顺序和大小均不可推断。可以以任何样式进行串联,但是在此示例中,我们仅将“ ID”和“ Prev。”连接在一起。 ID”,例如第一行的连接器为“ 3100”。保留“ ID”和“ Prev。 ID”仅需要解密“ Connector”列,并将结果数字分成两个相等的部分。此方法要求每次两个ID相差10倍时,必须添加零以保证长度相等。表6显示了连接ID列并将其加密为连接器后的日志.
    在这里插入图片描述
    在最后一步中,我们使用“案例ID”来匿名化“时间戳”。相对于前一个事件,具有相同“案例ID”的事件的“时间标记”属性。例外是每个轨迹的第一个事件保持不变。这样可以在直接跟随的图形中完整计算所有弧的持续时间,但是使根据事件发生的时间来识别事件变得很复杂。在创建相对时间后,我们可以自由删除“ Case ID”并破坏所有行的顺序,最后得到表7中未连接的日志。

表7是内部安全事件日志(EL),数据分析人员可以使用它创建A-DFM和R-DFM。显而易见,如果可以在纯事件日志(EL)上进行流程/社交网络发现,则AEL将与AEL相同(即,两者都是相同的A-DFM / R-DFM),并最终获得期望的结果。结果将是相同的。注意,当期望的结果是过程模型时,可以从表7中删除资源相关的信息(“资源”和“上一个资源”列)。此外,当期望的结果是切换网络时,活动相关的信息(“活动” ”和“上一个活动”)可以删除,因为不需要考虑实际的因果关系。

比较表7和原始日志,可以看到EL中以下问题不再有答案:(1)谁负责案例c的活动? (2)对于案例c,活动的顺序是什么? (3)处理案例c需要多长时间? (4)对于情况c,资源r进行的活动a的成本是多少? (5)情况c的长度是多少? (6)案件c的发生频率是多少?以及与案件有关的许多其他问题。

还值得注意的是,由于我们假设内部环境中的数据可以由已经知道组织结构的内部可信赖人员访问,因此,普通资源不会被视为隐私问题。实际上,EL是事件日志的部分安全版本,其方式是它包含最低级别的信息,而数据分析师可能需要最低级别的信息才能得出结果。尽管ICS不会保留当前过程发现技术所使用的事件日志的标准格式,但它提供的中间输入可以被当前工具使用。在外部机密解决方案(ECS)中,我们需要根据假定的背景知识来避免任何形式的数据泄漏和隐私风险
在这里插入图片描述

External Confidentiality Solution (ECS)

在外部环境中,事件日志的普通部分可能会导致数据泄漏。因此,整个事件日志将被加密。此外,还计划了一些其他属性,这些属性即使以加密形式也可能导致数据泄漏。接下来,我们将介绍两步ECS。

  • 加密普通部分。在此步骤中,活动和资源通过诸如AES之类的确定性加密方法进行加密。必须使用确定性的加密方法,因为发现DFM时必须保留差异。表8显示了加密活动和资源后的结果。但是,在加密之后,检测“ START”活动似乎是不可能的,并且如果不检测它们,则找不到轨迹。为了识别“开始”活动,我们可以浏览“活动”(“资源”)和“上一个.活动”(“上一个资源”)列中,出现在“上一个.的活动’’(上一个资源)列但未出现在“活动”(“资源”)列中的是“开始”活动(资源)。
    在这里插入图片描述

  • 加强加密和/或计划事件日志。如第15节所述。如图4所示,由于资源是通过确定性加密方法加密的,成本是通过同态加密方法加密的,因此可以保留差异,因此,通过比较,可以找到最小/最大成本,可以用作提取机密信息或私人信息的知识。 (例如资源名称)。为了减少这种分析的影响,可以进行加强加密和/或投影事件日志。在这里,我们预计所需的成本实际上并不需要达到预期的效果。

评估

我们考虑了所提议方法的三个评估标准,但同时也考虑了性能:

  • 确保机密性:如本节所述。如图5所示,我们可以通过定义不同的环境并指出在每个环境中可以访问的信息级别来提高机密性。另外,使用多种加密方法和我们的连接器方法将事件与事件的案例分离,可以为假定的背景知识提供高度的机密性
  • 可逆性:给出用于使时间相对的键和值时,ICS和ECS都是可逆的,这意味着所提出的方法可解决透明性。
  • 准确性:通过一个案例研究,为了说明我们方法的准确性,我们说明了从安全版本的事件日志中获得的结果与从原始事件日志中获得的结果完全相同。

验证AEL和AEL是否相同,从事件日志的原始版本和内部版本创建了DFG(阈值均是2000),发现是相同的,在外部环境中创建的DFG也是一样的。即,处于不同的状态环境,所有基于DFG的过程发现算法都将导致相同的过程模型。

性能

在这里插入图片描述
在图10中,较深的条示出了从原始事件日志中发现DFG的执行时间,而较亮的条示出了从安全事件日志中发现DFG的执行时间。添加选择或循环时,可以看到以毫秒为单位的运行时间线性增加。
在这里插入图片描述

结论

本文提出了一种新颖的方法,当期望的结果是模型时,可确保过程挖掘的机密性。我们证明了仅通过加密事件日志无法实现流程挖掘中的机密性。之所以引入新方法,是因为在机密性和数据实用程序之间始终存在权衡。因此,我们从所需的结果以及如何用尽可能少的数据获得这些结果进行了推理。

在这里,过程模型和社交网络被认为是理想的结果,并且在可扩展为包括其他形式的过程挖掘的框架中提供的机密性解决方案,即可以针对不同的过程挖掘探索不同的ICS和ECS活动。此外,建议的框架可以在跨组织环境中使用,每个环境都可以涵盖一方的特定限制和授权。在本文中,我们专注于基于因果关系的社交网络,并且在将来可以探索其他指标。此外,将来可以定义一种保密措施,以便可以量化和比较该研究领域中不同解决方案的有效性

我们采用了一种称为“连接器”的新方法,该方法可在需要安全存储关联的任何情况下使用。为了评估所提出的方法,我们在Python中实现了一个交互式环境,并以真实日志作为案例研究。

猜你喜欢

转载自blog.csdn.net/weixin_42253964/article/details/107484615