[論文紹介] - プライバシー保護ノード分類のための垂直統合グラフ ニューラル ネットワーク垂直統合グラフ ニューラル ネットワーク

用紙情報

ここに画像の説明を挿入します

元のアドレス: https://www.ijcai.org/proceedings/2022/0272.pdf

まとめ

グラフ ニューラル ネットワーク (GNN) は、ノードの特徴と異なるノード間の隣接情報から構成されるグラフ データに関するさまざまな現実世界のタスクにおいて目覚ましい進歩を遂げました。高性能 GNN モデルは常に、豊富な機能とグラフ内の完全なエッジ情報の両方に依存します。ただし、そのような情報は実際には異なるデータ所有者によって分離される可能性があり、これがいわゆるデータ分離問題です。この問題を解決するために、本論文では、既存の GNN モデルに一般化できる、データ垂直分割設定の下でのプライバシー保護ノード分類タスクのための統合 GNN 学習パラダイムである VFGNN を提案します。具体的には、計算グラフを 2 つの部分に分割します。プライベート データ (つまり、フィーチャ、エッジ、ラベル) 関連の計算はデータ ホルダーに任せ、残りの計算は半正直なサーバーに委任します。また、サーバーからの情報漏洩の可能性を防ぐために差分プライバシーを適用することも提案します。3 つのベンチマークで実験を行い、その結果から VFGNN の有効性が実証されました。

グラフ ニューラル ネットワーク(GNN) は、グラフ データに関するさまざまな実際的なタスクにおいて大幅な進歩を遂げました。高性能 GNN モデルは常に、グラフ内の豊富な機能と完全なサイド情報に依存します。ただし、実際には、この情報はさまざまなデータ所有者によって分離される可能性があり、これがいわゆるデータ分離問題です。この問題を解決するために、この論文では、データが垂直分割された場合のプライバシー保護ノード分類タスクのための共同 GNN 学習パラダイムである垂直結合グラフ ニューラル ネットワーク (VFGNN)を提案し、既存の GNN モデルに一般化できます。具体的には、計算グラフを 2 つの部分に分割します。プライベート データ (つまり、特徴、エッジ、ラベル) に関連する計算はデータ所有者に任せ、残りの計算は半正直なサーバーに委任します。また、サーバーからの情報漏洩の可能性を防ぐために差分プライバシーを適用することも提案します。3 つのベンチマーク テスト セットで実験を実施し、その結果から VFGNN の有効性が実証されました。

主な貢献

  1. 新しい学習パラダイム (VFGNN) が提案されています。これは、ほとんどの既存の GNN に一般化できるだけでなく、優れた精度と効率を備えています。
  2. データホルダーからのローカルノードの埋め込みをサーバーが結合するために、さまざまな構成戦略が提案されています。
  3. このスキームは 3 つの現実世界のデータセットで評価され、その結果は VFGNN の有効性を示しています。

垂直統合 GNN (VFGNN)

  • プライバシー上の理由から、プライベート データ (ノードの特徴、ラベル、エッジ) に関連する計算はデータ所有者に予約されます。
  • 効率性の理由から、非プライベート データに関連する計算を半正直なサーバーに委任します。

計算グラフを次の 3 つのサブ計算グラフに分割します。
ここに画像の説明を挿入します

サブ図 1: プライベート特徴とエッジ相関計算

初期ノードの埋め込みは、ソーシャル ネットワークのユーザー機能など、ノードのプライベート機能を使用して生成されます。垂直データ分割セットアップでは、各データ ホルダーはローカル ノード プロパティを持ちます。次に、データ保持者は、さまざまなアグリゲーター関数を使用してマルチホップ隣接ノードの情報を集約することにより、ローカル ノード エンベディングを生成します。
ここに画像の説明を挿入します
サブ図 2: 非個人データに関連する計算

効率を向上させるために、非プライベート データに関連する計算を半正直なサーバーに委任します。まず、サーバーは、データ ホルダーからのローカル ノード エンベディングをさまざまなフェデレーション戦略と組み合わせて、グローバル ノード エンベディングを取得します。次に、サーバーはクリア テキスト データを使用して連続的な計算を実行できます。これらの平文計算をサーバーに委任すると、モデルの精度が向上するだけでなく、モデルの効率も大幅に向上します。

この後、サーバーは最終的な隠れ層を取得し、予測を計算するためのラベルとともにそれをデータ ホルダーに送り返します。

サブ図 3: プライベート タグに関連する計算

ラベルを持つデータ保持者は、サーバーから受信した最終隠れ層を使用して予測を計算します。

実装プロセス

  1. データ所有者は、まず MPC (安全なマルチパーティ コンピューテーション) テクノロジーを適用して、特徴抽出モジュールとしてプライベート ノードの特徴情報を使用して GNN の初期層を共同計算します。次に、プライベート エッジ情報のみを使用して近傍集約を実行し、最後にローカル ノードの埋め込みを取得します。 。
  2. データホルダーからのローカルノードエンベディングを結合し、グローバルノードエンベディングを生成するセミオネストサーバー向けのさまざまな組み合わせ戦略が提案されており、これに基づいてサーバーは非プライベートデータ関連の継続的な計算を実行できます。
  3. サーバーは最後の隠れ層をラベル付けされたパーティに返し、そこで予測と損失が計算されます。データ ホルダーとサーバーは、モデルのトレーニングと予測を完了するために順方向および逆方向の伝播を実行します。その間、プライベート データ (特徴、エッジ、ラベル) は常にデータ ホルダー自体によって保持されます。
  4. 差分プライバシーは、サーバーとデータ所有者の間で情報を交換するために採用されており (ローカル ノードの埋め込みや勾配更新など)、サーバーからの潜在的な情報漏洩をさらに保護します。

1. 初期ノード埋め込みを生成する

ノード プロパティを使用して、初期ノード エンベディングを生成します。垂直分割されたデータ設定では、各データホルダーは部分的なノード特性を持ちます。以下の図に示すように、データ所有者が初期ノード エンベディングを生成するには、個別に行う方法と共同して行う方法の 2 つがあります。
ここに画像の説明を挿入します

2. ローカルノードの埋め込みを生成する

初期ノード エンベディングに基づいて、グラフ上でマルチホップ近傍集約を使用してローカル ノード エンベディングが生成されます。プライベート エッジ情報を保護するために、近傍集約はデータ所有者が協力して行うのではなく、個別に実行する必要があることに注意することが重要です。
ここに画像の説明を挿入します

3. グローバル ノード エンベディングを生成する

サーバーは、データ ホルダーからのローカル ノード エンベディングを結合し、グローバル ノード エンベディングを取得します。組み合わせ戦略 (COMBINE) はトレーニング可能であり、高い表現能力を維持できる必要があり、次の 3 つの組み合わせ戦略が設計されています。

  1. 連結
  2. 平均
  3. 回帰

4. DP を使用してプライバシーを強化する

データ所有者は、順伝播中のローカル ノードの埋め込みや逆伝播中の勾配更新などのローカル情報をサーバーに直接送信するため、潜在的な情報漏洩につながる可能性があり、プライバシーをさらに強化するために差分プライバシーが適用されます。
私たちが提案する VFGNN のプライバシーをさらに強化するために、2 つの DP ベースのデータ公開メカニズムが導入されています。このように、データ所有者のローカル情報内の 1 つのエントリが変更されると、サーバーは変更の前後の違いを区別できない可能性が高くなります。ガウス メカニズムと James-Stein Estimator という 2 つのメカニズムが提案されています。

おすすめ

転載: blog.csdn.net/weixin_43598687/article/details/127168855