紙の解釈:PRIPEL:コンテキスト情報を含むプライバシー保護イベントログのリリース

解決した問題

既存のテクノロジーはプロセスの制御フローに限定されており、属性値や期間などのコンテキスト情報は無視されます。したがって、これにはコンテキスト要因(タイムスタンプ、属性値)あらゆる形態のプロセス分析。このギャップを埋めるために、プライバシー認識のためのイベントログ公開フレームワークであるPRIPELを導入しましたPRIPELは、既存の作業と比較して、完全なログではなく、個々のケースのレベルでプライバシーを確​​保するための完全に異なる視点を持っています。このようにして、コンテキスト情報とロングテールプロセスの動作を維持できるため、一連の豊富なプロセス分析手法を適用できます。

前書き

ここに画像の説明を挿入

このような豊富なイベントログは、プロセスの制御フローモデルを発見できるだけでなく、プロセスの実行に対するコンテキストの影響組み込んだ多次元分析の出発点にもなります例はに基づいています時間情報(例えば、夜に到着)、患者の特徴(例:年齢と性別)および活動実績(たとえば、調剤された薬物)患者の残りの待機時間予測します [23]。このようなコンテキスト情報を含めることは、洗練されたケースカテゴリになる可能性があります。

イベントログ、特にコンテキスト情報を含むログには、プロセスの実行に関与する個人を指し示す機密データに関連するイベントが含まれる場合があります[26]。

コンテキスト要因を除外すると、さまざまなタイプのケースに関する詳細情報が含まれる詳細な分析ができなくなります。だが、匿名性([12]を参照)に基づくコンテキスト情報の集約は、この制限を克服するには適していません。このような集約は、ロングテール処理動作の損失、つまり、まれなまれなケースの痕跡を引き起こすため、分析にとって特に重要です。(たとえば、異常なランタイム特性が原因です)。

提案された方法

私たちのアイデアは、ログ全体ではなく個々のケースに基づいて、イベントログに異なるプライバシーを確​​保することです。この目的のために、PRIPELフレームワークは、差分プライバシーの並列構成原理を最大限に活用します。アクティビティシーケンスのさまざまなプライベート選択に基づいて、元のログからのコンテキスト情報がシーケンスエンリッチメントステップを通じて統合されます。続いて、統合されたコンテキスト情報は、偏微分プライバシーの原則に従って匿名化されます。

利点

各ケースのレベルでプライバシーを確​​保することは根本的に異なる視点であり、これにより既存の作業の上記の制限を克服することができます。PRIPELは最初の方法です。

  • 制御フローのプライバシーの違いだけでなくイベントログのコンテキスト情報のプライバシー違いも保証できます
  • 同時に、差別化されたプライバシーにより、特定の個人に属する個人データが識別されなくなるため、ロングテールプロセスの動作のほとんどが保持されます。

概念

ローカルの差分プライバシーを確​​保する

データにノイズを挿入して個人に関する情報を非表示にし、人口全体に関する特性をできるだけ多く保持する匿名関数が定義されています。そのようないくつかのメカニズムは、数値、カテゴリ、およびブールデータの差別化されたプライバシーを保証するメカニズムを含む、さまざまなデータタイプを匿名化するために開発されました。

  • 数値データ-ラプラスメカニズム:ラプラスメカニズム[5]は数値加法性ノイズのメカニズムプライバシーパラメータとデータ分布の感度に従って調整されたラプラス分布からノイズを抽出します。後者は、一人一人ができる最大の違いとして定義されます。
  • ブールデータランダム応答ブールデータのプライバシーの差異を保証するために、ユーザーはランダム化された応答を使用できます[37]。アルゴリズムは次のアイデアに基づいています。コインを投げて、個人の真の値を表示するか、ランダムな値を選択するかを決定します。ここで、ランダム化は、プライバシー保護の差異の強さに依存します。この記事では、いわゆるバイナリメカニズムを使用します[16]。
  • 分類データインデックスメカニズムカテゴリカルデータを処理するために、指数メカニズムを使用できます[27]。カテゴリ値ドメインのさまざまな潜在的な値の間のユーティリティの違いを定義できます。ある値が別の値に交換される確率は、導入された確率損失に依存します。
  • 差分プライバシーの並列構成さまざまなデータタイプに差分プライバシーを提供できるメカニズムを考慮すると、(ローカル)差分プライバシーの重要な属性は、それが構成要素であることです。直感的には、これは、互いに素なデータセットに対して実行された複数の-differential-privateメカニズムの結果がマージされると、マージされた結果は-differentialプライバシーも提供することを意味します[28]。

PRIPELフレームワーク

ここに画像の説明を挿入
フレームワークはイベントログを入力として受け取り、コンテキスト情報と保証付きのプライバシー保護を含む匿名のログに変換します。

  • 最初に、追跡変数クエリQが適用され、クエリは複数のアクティビティシーケンスのセットを返し、制御フローの観点から異なるプライバシーを保証します。
  • 次に、フレームワークは、元のlogLからコンテキスト情報(タイムスタンプと属性値)を強化することにより、Qによって取得されたアクティビティシーケンスを強化し、新しいトレースを構築します。これにより、シーケンスのエンリッチメントを実現でき、イベントログLmが一致します。
  • 最後に、PRIPELは、差分プライバシーの並列構成の最大値を使用して、タイムスタンプと属性値を個別に匿名化します。生成されたイベントlogL 'は、オリジナルのlogL情報を大幅に保持しながら、プライバシーの差別化を保証します。

バリアントクエリのトレース

フレームワークの最初のステップは、制御フローの観点からのイベントログの匿名化に焦点を当てています。特に、フレームワークは、異なるプライベートな方法でキャプチャされたアクティビティシーケンスの複数のセットを返す軌道変数クエリを適用します軌道変数とその頻度イベントログからアクティビティシーケンスを公開すること、つまり、すべての属性値とタイムスタンプを削除することでさえ、個人のIDをまれなアクティビティシーケンスに関連付けるのに十分であることを考慮すると、このステップは不可欠です[12、25]。たとえば、特定の患者のアイデンティティを解決するには、従来にない治療経路で十分な場合があります。PRIPELでは、最新のプライバシー保護トラック変数クエリ実装を採用しています[25]。ラプラスメカニズム(セクション2.3を参照)を使用して、軌道変数クエリの結果にノイズを追加します。表2のクエリ結果の例に示されているように、このメカニズムは、軌跡バリアントの頻度を変更し、バリアントを完全に削除して、新しいバリアントを導入できます。トレースバリアントクエリのサイズは通常、元のログのトレース数とは異なることに注意してください。使用されるtracevariantクエリ構成には、nとkの2つのパラメーターがあり、クエリを生成するメカニズムで使用されるプレフィックスツリーに影響します。
ここに画像の説明を挿入
nは、プレフィックスツリーの最大深度を設定します。これにより、クエリによって返されるアクティブなシーケンスの最大長が決まります。探索された潜在的な活動シーケンスの数に応じて、メカニズムの状態空間を制限するためのバインディングにパラメーターが使用されます。より高いkは、より一般的なプレフィックスのみが考慮されることを意味します。これにより、実行時間が短縮されますが、結果のログのユーティリティに悪影響を与える可能性があります
ここに画像の説明を挿入

ケーススタディ

敗血症:1050トラックが846の追跡バリアントに分散されます。

さまざまなパラメータをテストし、

イベントログのユーティリティ

営業時間

3つのレベルが考慮されます。

  • イベントレベル(属性):
  • トラックレベル(期間):
  • ログレベル(プロセスワークロード):

データ属性値:イベントレベルで、匿名ログのデータ属性の値の分布を元の分布と比較します。敗血症ログは主にブール値の属性を持っています。それらの値の分布の質は、簡単に数量化できます。つまり、匿名のlogL 'の真の値のスコアをLのスコアと比較することによってです。属性値の品質に対する差分プライバシーパラメータの影響を示すために、ブール属性InfectionSuspectedの値の分布を評価しました。表4に示すように、この属性の真の値は、元のログのケースの81%で真であり、
ここに画像の説明を挿入
匿名分布は、最も厳格なプライバシー保証である最高のε値を合理的に保持します。そこでは、分布は75%の真の値を持っています。ただし、より強力なプライバシー保証の場合、分布の精度は低下し、ε= 0.1の場合、ほぼ完全なランダム性に達します。これは、特定のプライバシーレベルで属性値の品質を維持できることを意味しますが、より厳しい設定では影響を受ける可能性があります。これらの結果は個々の値を匿名化することによって得られるため、より強力なプライバシー保証のための品質の低下は本質的に差分プライバシーの概念に関連付けられているため、PRIPELフレームワークの詳細とは関係がないことに注意してください。

ケースの期間。次に、匿名ログのケースの期間の正確さを調査します。前述の個々のイベント属性の品質とは異なり、ケース期間の品質はフレームワークの3つのステップすべてに影響されます。したがって、表4で説明されている結果を解釈する場合、元のレコードには最大370のトレースが含まれているのに対し、匿名レコード内の最大のトレースは30のイベントにバインドされている(パラメーターnの選択により)ことを考慮することが重要です。イベント。ただし、ノイズが増加するため、匿名ログでより長い期間を観察することができます。さらに、すべてのケースで、平均ケース持続時間は中央ケース持続時間よりもはるかに長かった。つまり、より長い期間、ログには複数の外れ値が含まれます。すべての匿名ログはこの洞察を明らかにします。PRIPELは、ケースの期間など、トラジェクトリレベルに関する洞察を保持していると結論付けました。

プロセスのワークロード:最後に、ログレベルでは、任意の時点でアクティブなケースの数に基づいて、プロセスの総ワークロードを考慮します。図3に示すように、匿名イベントログが元のログよりもはるかに多くのトレースを含む可能性があることを考えると、アクティブケースの相対的な数の進行を検討してください。赤い点は元のイベントログを表し、青い三角形は値が1.0の匿名イベントログを表します。グラフは、全体的な傾向が長期にわたって継続していることを明確に示しています。ただし、匿名ログによって示されるワークロードは、常に元のログよりも高くなります。さらに、匿名ログの時間変動はそれほど深刻ではありません。これは、必要なノイズ挿入が一部の変更を排除できることを示しています。それにもかかわらず、結果はPRIPELがそのようなログレベルのプロセス分析の有用性を保持していることを示しています。
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/weixin_42253964/article/details/108594854