データベースにおけるユーティリティとプライバシーのトレードオフ:情報理論的アプローチ

前書き

ここに画像の説明を挿入

図1に示すように、合法的なトランザクション中に、ユーザーはトランザクションを意味のあるものにするために許可され、サポートする必要があるいくつかの公開情報(性別や体重など)を学習します。彼はまた、防止(または最小化)する必要のある個人情報(癌の診断や収入など)を学習/推測することもできます。したがって、データのすべてのユーザー(おそらく)も対戦相手です。複数の研究グループが数十年にわたってプライバシーと情報漏えいの問題を研究してきました。問題を解決するための情報理論の方法はほとんどなく、はるかに離れており、主に情報理論測定の使用に焦点を当てています。ただし、ユーティリティプライバシー(UP)トレードオフ問題の厳密な情報理論による処理はまだオープンであり、次の問題はまだ解決されていません。(i)情報理論分析を可能にするデータの統計的仮定、(ii)異なるユーザーへの表示さまざまなレベルで個人情報を提供する能力、および(iii)既存の知識をモデル化して説明する能力。この研究では、情報理論ツールを適用して、厳密なUPトレードオフ分析と特性評価を提供するという未解決の問題を解決しようとしています。リポジトリ内のデータのパブリック属性とプライベート属性を確率確率分布のある確率変数として扱う場合、データベース内のプライベート属性はプライベートのままなので、パブリック属性を明らかにしても属性に関する他の情報は解放されません。つまり、言い換えると、リスクを最小限に抑えるということは、プライバシーが失われるということは、開示後、プライベート属性の条件付きエントロピーが可能な限り高くなることを意味しますしたがって、図1で、がんの属性をプライベートに保つことは、性別と体重の公共の属性がわかっている場合、がんの属性の予測可能性は変わらないことを意味しますこのため、アイテム1の性別属性は「サニタイズ」されています。

データソースの有用性はデータを開示する能力にあるため、プライバシーの考慮事項は有用性を損なう可能性があります。実際、この場合、ユーティリティとプライバシーは競合する目標です。妥当なトレードオフを行うために、特定のプライバシーレベルで達成できる最大の有用性を知る必要があります。逆もまた同様です。つまり、達成可能なすべてのUPトレードオフポイントのセットを分析して特徴付ける必要があります。これは、情報理論(つまり、レート歪み理論)の細かいツールで実行できることを示しています。効用は、歪みに反比例する忠実度で定量化できます。レート歪みは、エントロピーに関連するエントロピーによって数量化されるプライバシー制約によって増加する必要があります。

私たちの貢献:この作業の主な貢献は、レート歪み理論と追加のプライバシー権を使用して、データで表される個人のプライバシーのニーズと、任意のデータソースからのクリーンアップ(公開)データの有用性とのトレードオフを正確に定量化することです。ユーティリティは歪み(精度)(反対)で定量化され、プライバシーはあいまいさ(エントロピー)で定量化されます。初めて、情報開示の基本的な側面を明らかにします。これは、開示率に対する追加の制限(つまり、クリーンなデータの精度の測定)を通じてです。公開データの管理された開示では、開示の正確さと正確さを指定する必要があります。デジタルデータの追加のノイズを使用して2つを混在させることができますが、追加のノイズは分類されたデータではありません(社会保障番号、郵便番号、病状など)。オプションなので、出力精度を指定することが重要になります。たとえば、図1では、重み属性は数値フィールドであり、ランダムな加法性ノイズによって歪む可能性があります。または、90〜100、100〜110などの範囲に切り捨てられる(または量子化される)場合があります。筆記録で学生のプライバシーを識別して保護する社会保障番号(SSN)は、よく知られた非数値の例です。(完全なSSNの)駆除は、ヒューリスティックの精度を通常の最後の4桁に減らすことによって達成されます。理想は、最高のUPトレードオフを達成するために必要かつ十分な出力精度を正式に指定する理論的なフレームワークです。[1]では、単純なソースモデルのレート歪み等価(RDE)トレードオフが提案されています。この形式をUP問題に変換し、多次元データベースやデータストリーム[2]を含む一般的なデータソースのモデル化、抽象的なユーティリティとプライバシーインジケーターの開発、UPの定量化を可能にするフレームワークを開発しました基本的なトレードオフ特性。次に、UPトレードオフ領域を実現する消毒スキームを提案し、数値および分類の例でこのスキームの適用を示します。ユーザー/敵対者が使用できる関連付けは、内部(つまり、データベース内の変数間の)または外部(データベース外の変数を使用してユーザー/敵対者がアクセスできる)にすることができます。

この例は、フレームワークの2つの基本的な側面を示しています:(i)データの統計モデルとUPメトリックがプライバシーとユーティリティの保証を実現するための適切なデータの歪みと抑制をどのように明らかにするか(ii)ソース統計が最大のUPを決定する方法を理解する最大のUPトレードオフ領域を決定するための最適な消毒メカニズム。この記事の構成は次のとおりです。第2部では、データベースのプライバシー調査の最新の状態について簡単に説明します。3番目のセクションでは、情報理論分析の需要を刺激し、分析フレームワークの背後にある直感を紹介しました。セクション4では、構造化データソース(データベースなど)の抽象的なモデルとメトリックを提供します。セクション5で主な分析フレームワークを開発します。

関連作業

K-匿名性などのこれらすべての手法は、限られた数の対戦相手に対してのみ有効であるため、普遍的でないことが証明されています。データベース内の個人のプライバシーは、個人データがデータベースに属しているかどうかを正確に検出する対戦相手の能力の制限として定義されます。

DPの概念は、シャノンエントロピーに基づくプライバシーの定義よりも厳密に優れています。ただし、このモデルはより直感的にアクセスでき、厳密な匿名性を必要としない多くのアプリケーションドメインに適しているようです。たとえば、多くの健康データベースでは、個人の記録の存在は秘密ではありませんが、個人の病状は秘密です。

当社の消毒方法はデジタルデータと機密データに適しています。DPは非常に人気のあるプライバシーモデルですが、デジタルデータに限定されているようです。さらに、DPベースの消毒による効用の損失は重大な場合があります[13]。特定のアプリケーションのプライバシーメカニズムが原因でユーティリティプログラムが失われることが指摘されている[14]。

より一般的には、厳格なユーティリティとプライバシーのトレードオフモデルと、すべての最良のポイントを達成する方法が公開されています。これが、この記事の主題です。プライバシーおよび関連する問題に情報理論ツールを使用することは比較的まれです。[1]は、歪み制約を伴うレート歪み理論を使用して、この作業の主な動機である単純な2変数モデルを分析しました。さらに、最近のいくつかの研究では、差分プライバシー保証をRenyiエントロピー[15]およびShannonエントロピー[16]と比較しています。

動機と背景知識

情報理論におけるデータベースプライバシー方式には2つのステップがあります。最初のステップはデータモデリングのステップであり、2番目のステップは消毒の数学的形式を導き出すことです。正式なモデルと抽象化を導入する前に、以下の方法の直感的な理解と動機を最初に提案します。

動機:統計モデル

私たちの作業は、大規模なデータセット(データベースを含む)には分布の基礎があるという観察に基づいています。つまり、データには基本的な(場合によっては暗黙的な)統計モデルがあります。1つまたは少数のデータセットインスタンスしか使用できないデータマイニングの場合でも、属性間の相関を使用すると、データセットに関する暗黙的な分布の仮定が使用されます。有限または無限の文字と既知の分布を持つソースから生成されたデータとして、データを明示的にモデル化します。データベースの各行は、(個人的な)関連する属性のコレクションです。これらの属性は、元の文字に属し、文字(文字)の出現確率に基づいて生成されます。

私たちのデータベース統計モデルは、人の属性は関連しているかもしれませんが(たとえば、図1の体重とがんの属性の間)、多数の個人の記録は、通常、独立しているか、相互に弱い関係にあります。したがって、データベースを無記憶ソースによって生成された観測のコレクションとしてモデル化します、無記憶ソースの出力は独立しており、均等に分散されます。

プライバシーの定量化には条件付きエントロピーを使用します。直感的には、プライバシーとは不明確に開示された情報の不確実性を維持することを指します

低い確率/高い情報サンプル(異常値)は抑制されるか、ひどく歪んでいますが、高い確率(頻繁に発生する)サンプルはわずかに歪んでいます。続編で正式に示したように、データベースを分類するための方法とソリューションは、プライバシーの課題の主要な側面を捉えています。これは、高情報(低確率の外れ値)を抑制し、他のすべての情報を(望ましいレベルに)歪めることですユーティリティ/ディストーションレベル))

推奨されるクリーニングプロセスは、必要なレベルのユーティリティとプライバシーを実現する出力(データベース)統計を決定し、干渉する入力値とそれらを確率的に干渉する方法を決定することです。出力統計は消毒プロセスに依存するため、ここで検討するソースモデルは、数学的に言えば、問題はシンボルが入力から出力に遷移する確率を見つけることに還元されます。

背景知識:レート歪み理論

プライバシーモデリングのために、データベース内の個人の属性は、2つのカテゴリに分類されます。公開できるパブリック属性と非表示にする必要のあるプライベート属性です。属性は同時にパブリックとプライベートにすることができます。誰でも属性は関連しています。つまり、パブリック属性がそのまま公開されている場合、ユーザーは相関モデルを使用してプライベート属性に関する情報を推測できます。したがって、プライベート属性(非表示属性)のプライバシーを確​​保するには、パブリック属性を変更/クリア/変形する必要があります。ただし、一般的な属性には、歪みを制限するユーティリティ制約があります。

私たちの方法は、最良のクリーンアップ、つまり、変換データベースのパブリックプロパティのすべての可能なマッピングのセットで、パブリックプロパティに期待されるユーティリティレベルのプライベートプロパティの最大のプライバシーを保証するマッピングを決定することです。エンコーディングとデコーディングの用語を使用して、それぞれデータパブリッシャー側とユーザー側でこのマッピングを参照します。データベースインスタンスは、ランダムソース(属性の数が多い場合、ソースはベクトル)の実装であり、次元空間内の点と見なすことができます(図2を参照)。ソース統計(確率分布)を使用して生成できるすべての可能なデータベース(長さのソースシーケンス)のセットは、このスペースにあります。私たちが選択するユーティリティメトリックは、歪みの要件を通じて、元のデータベースのパブリック属性とパブリックデータベースの間の平均的な「緊密さ」を測定することです。したがって、サニタイズの出力は、半径内の別のデータベース(同じ次元空間内の別のポイント)になります。スペースを「カバー」するために、つまり、入力データベースインスタンスが与えられた場合、出力データベースのセットを決定しようとしています。パラメーターの1つの意味については、以下で説明します。

おすすめ

転載: blog.csdn.net/weixin_42253964/article/details/107719072