フェデレーテッド ラーニングの深い理解 - プライベート セット インターセクション (PSI): 基礎知識

カテゴリカタログ:「Federated Learningを深く理解する」総合カタログ


プライベート セット インターセクション (PSI) は、垂直フェデレーテッド ラーニングの重要な前段階であり、各ベンダーの固有のサンプルを公開することなく、複数のベンダーによる共同計算の前に、複数のベンダーが共有するデータ サンプルを見つけるために使用されます。

A と B の 2 つの企業が協力して、ユーザーがテクノロジー製品に興味があるかどうかを予測する機械学習モデルをトレーニングしたいと考えているとします。A社はユーザーA、B、Cの3人の購入履歴データを持ち、B社はユーザーB、C、Dの3人の情報フロー記事閲覧データを持っています。垂直フェデレーテッド ラーニングを使用すると、A 社と B 社がそれぞれのユーザー データを漏洩しないという前提の下、2 人のユーザー (B と C) の A 社と B 社のデータ特性を統合し、予測モデルを共同でトレーニングできます。 2 つのカテゴリが使用される データを使用したトレーニングの場合、理論的には、結果はそれぞれ会社 A または会社 B によってトレーニングされたモデルよりも正確になるはずです。

モデルのトレーニングには会社 A と会社 B の両方のデータを使用する必要があり、ユーザー A は会社 A のデータのみを持ち、会社 B のデータを持っていないため、ユーザー A をトレーニング サンプルとして使用することはできません。同様に、B社のユーザーDもトレーニングに参加できません。したがって、垂直連合学習の前に、双方が共通サンプル、つまり 2 人のユーザー B と C を計算する必要があり、その後の計算は B と C を中心に実行されます。プライベート セット インターセクション (PSI) は、元のセットを公開せずに、両方の当事者が暗号化された計算を通じて B と C のセットを取得する方法です。

プライバシー セットの交差とは、参加する 2 つの当事者が追加情報を明らかにすることなく、両当事者が保持するデータの交差、つまりプライバシー セットの交差を取得することを意味します。

  • 多くの当事者が存在し、それぞれが独自の個人データを保持しています
  • プロトコルを通じてすべてのデータの共通点を見つけたいと考えています
  • 交差点以外の情報は漏らさない

ここで、追加情報とは、双方からのデータの共通部分以外の情報を指します。プライベート セットの交差は、垂直フェデレーテッド ラーニングでのデータの配置やソーシャル ソフトウェアでのアドレス帳からの友人の発見など、現実のシナリオで非常に役立ちます。したがって、プライバシー セットの交差のための安全かつ高速なアルゴリズムが非常に重要です。

プライベート セットを交差させるための非常に直感的な方法、つまり単純なハッシュ方法を使用できます。つまり、当事者 A と当事者 B の両方が同じハッシュ関数HHを使用します。H、各データのハッシュ値を個別に計算し、ハッシュされたデータを相互に送信して共通部分を見つけます。この方法は非常にシンプルで高速に見えますが、安全性が低く、追加情報が漏洩する可能性があります。2 つの当事者が交差する必要があるデータ自体のデータ領域が比較的小さい場合 (携帯電話番号、ID 番号など)、悪意のある参加者はハッシュ衝突を使用して限られた時間内にデータを生成する可能性があります。 . 相手からハッシュ値を渡され、追加情報が盗まれます。したがって、プライバシー セットを交差させるためのより安全な方法を設計する必要があります。

今日の理論では、プライバシー セットの共通部分を実現するためのさまざまな方法が存在します。たとえば、ディフィー ヘルマン鍵交換に基づく方法、不用意な送信に基づく方法などです。これまでのところ、プライベート セットを交差する最速の方法は、不注意による送信に基づいています。今後の記事では、プライバシー セットの交差のためのさまざまなアルゴリズムを紹介します。

参考文献:
[1] Yang Qiang、Liu Yang、Cheng Yong、Kang Yan、Chen Tianjian、Yu Han. Federated Learning [M]. Electronic Industry Press、2020 [2] WeBank、FedAI. Federated Learning White Paper V2.0 .
Tencent研究機関等、2021年

おすすめ

転載: blog.csdn.net/hy592070616/article/details/132815425