データリース - データ循環の新しい方法

データリース - データ循環の新しい方法

阮文強 1,2 徐明心1,2 、土信宇 1,2 宋廬山 1,2 威力 1,2

1 データ分析およびセキュリティ研究所、復旦大学、上海 200438

2 上海 データ サイエンス キー ラボラトリー、上海 200438

要旨データは、社会の発展を促進する新たな生産要素になりつつある。準拠した監査可能な方法で複数の当事者間でデータを循環させることは、データの価値を形成するために重要です。プライバシー保護とデータ利活用の観点から、新たなデータ流通方式であるデータリースが提案されています。まず、データリースを提案する動機を紹介し、次にデータリースが満たすべき5つの要件を明確にし、最後に秘密分散に基づくデータリース技術を提案します。

キーワードデータ流通、秘密分散、データリース、プライバシー保護

868a31f63bbf1e319efe7e57e06d806a.jpeg

論文の引用形式:

Ruan Wenqiang, Xu Mingxin, Tu Xinyu, et al. Data Leasing—A New Way of Data Circulation[J]. Big Data, 2022, 8(5): 3-11.

RUAN WQ、XU MX、TU XY、他 データテナンシー: データ循環の新しいパラダイム[J]。ビッグデータ リサーチ、2022 年、8(5): 3-11。

52a4e391d75c8c9fe1a8339d5097f4e1.jpeg

0 はじめに

データは、資本、土地、労働、技術などの伝統的な生産要素と並置され、新しいタイプの生産要素になりました。データの価値が形成される過程において、データの循環は非常に重要な役割を果たします。現在のデータ流通の方法には、主に政府機関または企業によるデータ開示とデータ取引が含まれます。ただし、「中華人民共和国ネットワーク安全法」(以下、「ネットワーク安全法」という。)に伴い、「中華人民共和国データ安全法」(以下、「データ安全法」という。) 」)、および「中華人民共和国の個人情報保護法」(以下「個人情報保護法」という)により、ユーザーのプライバシーに関連するデータがさまざまな機関間で直接流通することは困難です。さらに、多くの機関は、商業的な競争を目的として生データを他の機関に直接送信することをいとわない場合があります。現在、より注目されているシナリオは、複数の機関がプライバシーを保護した方法でデータを共同で使用できるようにする方法、つまり、各機関がデータを提供し、データ分析の結果を取得する方法と、機関が「リース」 他の機関のデータに含まれる値をマイニングするための対応する研究はまだ不足しています。したがって、データ価値の完全な形成を促進するために、この論文では、データ循環の新しい方法であるデータテナンシーを提案します。

データ リースにより、データ リースの当事者は、データ リース者のデータを使用して、事前に合意されたコンピューティング タスク (機械学習モデルのトレーニングなど) を完了し、プライバシーが保護され、監査可能な有料の方法でコンピューティング結果を取得できます。 . 本稿では、プライバシー保護に関連する法規制に従って、データ リースの動機と定義について説明し、データ リースが満たす必要がある 5 つの要件を明確にします。続いて、本論文では、秘密分散に基づくデータリース技術を提案し、さまざまな機関に分散しているデータを「リース」を通じてより適切に流通させ、それによってデータ価値の形成を促進することができます。

1 関連する知識と既存の研究

1.1 秘密分散に基づく安全な多者学習技術

セキュア マルチパーティ ラーニングは、セキュア マルチパーティ コンピューティングに基づく、プライバシーを保護する機械学習テクノロジです。秘密分散に基づく安全なマルチパーティ学習技術により、複数の参加者が事前に合意された機械学習モデルを共同でトレーニングし (トレーニング プロセスはブール回路または算術回路で表されます)、結果のモデル以外に個人情報がないことを保証します。開示されます。図 1 に示すように、D 1、D 2、および D n は、それぞれ参加者 1、参加者 2、および参加者 n のプライバシー データ セットを表します。秘密分散に基づく n パーティの安全なマルチパーティ学習プロセスでは、参加者はi はまず、保持しているプラ​​イベート データ セット (D i ) を n 個の秘密の共有に分解し、次にデータ セットの秘密の共有を他の参加者に配布します。同時に、一部のシナリオでは、一部の参加者は他の参加者に秘密の共有を送信せず、他の参加者から秘密の共有を受信するだけである場合があります。データセットの秘密共有の配布が完了した後、すべての参加者は安全なマルチパーティ コンピューティング プロトコルを使用して、ランダム化された初期モデル パラメータを共同で生成し、秘密共有に基づく安全なマルチパーティ コンピューティング プロセスに入ります。データの秘密を使用したコンピューティングと対話型通信 共有によってターゲット モデルのトレーニングが完了し、最終的に各参加者はターゲット モデルの秘密の共有を取得します。その後、特定のシナリオに応じて、参加者はターゲット モデルを復元しないことを選択できますが、データを推論するときに対話的に復元するか、それぞれのシークレット シェアを交換してターゲット モデルを平文に復元します。現在、安全なマルチパーティ学習のための一般的な秘密分散手法が 2 つあります。加法的秘密分散と Shamir 秘密分散です。その中で、追加秘密分散は 2 人以上の参加者をサポートでき、Shamir 秘密分散は 3 人以上の参加者をサポートできます。

5055b27f3df9e81e0354ec22594046be.jpeg

図 1 秘密分散に基づく安全なマルチパーティ学習プロセスの例

秘密分散に基づくセキュアなマルチパーティ学習技術には、次の 4 つの特徴があります: ①すべての参加者は結果モデルのみを取得でき、他の参加者が入力した情報は取得できません ②すべての参加者は、事前に合意されたトレーニング プロセスを共同でトレーニングします。回路 (算術回路またはブール回路) で表すことができます; ③ すべての参加者がトレーニング プロセスに参加する必要があります; ④ 結果のモデルは、すべての参加者、または 1 人または一部の参加者のみが保持できます。最終結果のモデルを回収する権利を有する当事者に対して、結果のモデルの秘密の共有を保持しました。他の当事者の秘密株式を取得した後、最終結果モデルを復元する権利を持つ当事者が最終結果モデルを復元します。

1.2 セキュリティ モデル

このホワイト ペーパーで提案されているデータ リース技術は、半正直なセキュリティ モデルを採用しています。つまり、各参加者は契約で規定された手順に従って計算を実行し、事前に定義された情報を他の参加者に送信しますが、参加者は学習しようとします。受信した情報から、他の参加者の入力情報を推測します。参加者間で安全なマルチパーティ学習技術を使用する現在の目的は、データ流通に関するプライバシー保護法および規制の要件を満たすことであるため、セミオネスト モデルは、すべての参加者が進んで参加することを前提とした実用的なシナリオに適した方法です。データの共有、セキュリティ モデル。

1.3 関連研究

欧州連合が 2018 年に「一般データ保護規則」を発行し、私の国が 2021 年に「個人情報保護法」を発行するなど、世界中の国々が個人情報保護に関連する法規制を公布したため、ユーザーのプライバシーに関わるデータの流れが制限されています。厳しく制限されています。近年、コンプライアンスを前提として、さまざまな組織からのデータに隠された価値を十分に活用するために、研究者は多くのプライバシー コンピューティング アルゴリズムとシステムを提案して実装し、複数のデータ リース会社がプライバシーを保護した方法でデータを共有できるようにしています。 「データは利用可能だが目に見えない」という目標を達成するために、すべての関係者のデータを共同でモデリングおよび分析します。現在注目を集めているプラ​​イバシー コンピューティング テクノロジには、安全なマルチパーティ学習テクノロジ、フェデレーテッド ラーニングなどがあります。

2017 年、Mohassel P らは、ニューラル ネットワーク モデルのトレーニングをサポートする最初のセキュアなマルチパーティ学習システムである SecureML を提案しました。その後、研究者は、より多くの参加者をサポートし、より効率的な ABY 3 や Fantastic-Four、悪意のある参加者モデルをサポートする SWIFT、BLAZE など、複雑な参加者モデルをサポートする CryptGPU など、多くの安全なマルチパーティ学習システムを提案して実装しましモデルのトレーニングと推論、ファルコンなど これらの既存の安全なマルチパーティ学習システムでは、各参加者の ID は等しく、全員がデータを提供する必要があり、計算が完了した後に計算結果を取得できます。プライバシーを保護し、監査可能な「リース」方式で、ある機関が他の機関のデータを分析するためのフレームワークとメカニズムについては、さらなる調査が必要です。

さらに、Google は 2015 年に連合学習の概念を提案しました。その後、多くの企業が、Google がリリースした TensorFlow Federated や、WeBank が開始した FATE (フェデレーテッド AI テクノロジー イネーブラー) など、フェデレーテッド ラーニング ベースのジョイント モデリング システムを立ち上げました。安全なマルチパーティ学習システムと比較して、連合学習ベースのシステムは効率が高くなりますが、プライバシー リスクも高くなります.たとえば、参加者間で送信される中間結果は、入力データの関連する個人情報を漏洩する可能性があります. 同時に、フェデレーテッド ラーニング システムのプライバシー リスクを定量的に分析する数学的モデルは現在のところありません。さらに、連合学習システムに基づくすべての当事者のデータの共同モデリングは、取得したモデルの精度に一定の損失を引き起こす可能性があります。特に、すべての当事者のデータが独立しておらず、同一に分散されている場合、連合学習によって精度の大幅な損失。

2 データリースの概要

2.1 データリースの動機

現在のデータ流通の主な方法は、異なる機関間のデータ取引です。つまり、データの購入者は、一定の料金を支払うことによってデータの販売者からデータを取得します。データ販売者に一定の料金を支払った後、データ購入者はデータを直接取得し、任意の分析操作を実行できます。現在、多くのデータ取引プラットフォームが中国で生産されています。データ トランザクションはデータ流通を促進する上で重要な役割を果たしますが、次のように、一部のシナリオではデータが完全に流通するのを妨げる 2 つの制限がまだあります。

● 流通が必要なデータには利用者の個人情報が含まれている可能性があり、「通信網保安法」「個人情報保護法」「個人情報保護法」の施行に伴い、これらのデータを直接譲渡・送信することで、データを販売する組織へのリスク 深刻な法的リスク

● 商業競争やその他の目的で、データを保有する組織または個人は、データを他の組織に直接送信したくない場合がありますが、他の組織がすべてのデータに対して特定の機密性の低いコンピューティング操作を実行できるようにする場合があります。

データが機密であり、機関間で直接やり取りできない場合、データ リースでは、プライバシーを保護し、監査可能な方法を使用して、データ リースの当事者がデータ リース者のデータを使用して特定のコンピューティング タスクを完了できるようにし、それによってデータ共有を促進することができます。価値が完全に形成されます。

2.2 データリースの定義

資産リースの従来の定義を参照し、データ資産の独自の形式とリリースされたさまざまなプライバシー保護法を考慮して、このホワイト ペーパーでのデータ リースの定義は次のとおりです。一部のデータ資産は、データ貸主が必要とする特定の計算タスクを完了します.最終的に、データ貸主は計算結果のみを取得し、データ貸主は家賃を取得します.

データ複製のコストはほぼゼロであり、ユーザーのプライバシー情報が含まれるため、法律によって保護されます. データがリースの対象として使用される場合、データの貸主は、一定期間内にデータ資産をデータリースに直接譲渡することはできません.従来の資産リースのように、当事者は、データ リース当事者によって指定された計算タスクを完了することによってのみ、リース データによってもたらされる利益を得ることができます。

また、「別の場所で別のコンピュータや別のソフトウェアを使用する利用者が、他の人のデータを読み取り、さまざまな操作、計算、分析を実行できるようにすること」と定義されるデータ共有と比較すると、データのリースには次の 3 つの違いがあります。データリース データ貸主はデータ貸主のデータを直接読み取ることができず、データ貸主は計算タスクのアウトプットのみを取得することができる; ②データ貸主はデータ貸主の計算タスクに従って賃料を値付けすることができる; ③両方のデータ貸与者とデータ貸与者 データ貸与取引が事前に合意されたプロセスに従って確実に実行されるように、計算プロセスを監督する必要があります。要約すると、データ共有と比較して、データ リースはより多くの要件をもたらし、これらの要件はデータ リースの実現にますます大きな技術的課題をもたらします。

2.3 データリースの特徴

データ リースの定義によると、データ リース フレームワークを設計する場合、次の 5 つの要件を満たす必要があります。

● 価値がある: 対象となる計算タスクの複雑さとデータの使用回数に応じて、データの貸主がデータの貸主に支払うべきリース料を計算できます。

● プライバシー: データの貸し手は、平文データを他の組織に直接送信しません。潜在的な法的リスクを回避するために、データ貸主のデータはローカルに保管して、ユーザーのプライバシー情報の漏洩を防ぐ必要があります。

● 有効性: データ貸主は、データ貸主のデータを使用して、データ貸主と協力して、事前に両当事者が合意した計算タスクを完了し、計算結果を得ることができます。データリースの計算中に、データリース当事者のデータも計算に参加する場合があります。対象となるコンピューティング タスクを完了するために、機関から同時にデータを借りる複数のデータ リース会社が存在する可能性があることに注意してください。

● 計算プロセスを監視できる: データの貸主とデータの貸主の両方が計算操作を監視できる必要があります。つまり、データの貸主とデータの貸主の両方が、相手方当事者が事前に合意した計算操作を実行することを保証できる必要があります。データ上。コンピューティング プロセスの監視可能性を確保することにより、データの貸主は、コンピューティング操作の種類と量に応じて、対応するレンタル料金を請求できます。また、データの貸主は、他の機関からのデータを使用して特定のコンピューティング タスクを完了できるようにすることができます。

● 監査可能: データ貸主とデータ借主がデータに対して実行する計算操作は、計算タスクの完了後に両当事者が合意に達することができないことを回避するために、第三者によって監査できる必要があります。完了した計算操作の種類と数量、結果として支払いが発生しました 賃貸時に両者の間で紛争がありました。

3 秘密分散に基づくデータリース技術の設計

他のプライバシー コンピューティング テクノロジ (フェデレーション ラーニングなど) はある程度のプライバシー保護を実現できますが、これらのテクノロジは、それ自体が提供するプライバシー保護の理論的な保証に欠けており、安全なマルチパーティ学習はセキュアなマルチパーティ コンピューティングを使用します。コンピューティングプロセスの包括的な基盤を提供できる基礎となる計算を完了するためのテクノロジー 厳格なセキュリティ保証を提供します。したがって、この論文では、データの貸し手とデータの貸し手が秘密の共有に基づく安全なマルチパーティ学習プロセスに参加して、データの貸し手とデータの貸し手との間で事前に合意されたコンピューティングタスクを完了することを可能にする、秘密の共有に基づくデータリース技術を提案します。データ貸主。次に、本稿で提案するデータリース技術の役割と計算プロセスを詳しく紹介し、この技術が計算プロセスのプライバシー、有効性、監視、監査可能性の 4 つの要件をどのように満たしているかを説明します。プライシャブルな需要については、その後の計算プロセスとは切り離されており、ゲーム理論に基づく方法など、データのプライシングに関する研究はすでに数多く行われているため、この論文では、この需要を満たす方法については説明しません。準同型暗号に基づく既存のデータ セキュリティ アウトソーシング コンピューティング方法と比較して、本論文で提案された秘密分散に基づくデータ リース技術は、データ リース者とデータ リース パーティーがコンピューティング プロセスに参加することによって、互いのコンピューティング操作を監督することを可能にします。さらに、ブロックチェーン技術を導入することにより、本論文で提案されたデータリース技術は、トランザクションが完了した後に第三者がトランザクション情報を監査することを可能にし、データリース当事者またはデータリース当事者の拒否を回避することができます.

3.1 役割の定義

本稿で提案する秘密分散法に基づくデータリース技術(図2)には、以下のように、データリース側、データリース側、リースプラットフォーム側の3種類の役割が存在する。

57d05e01d6083b0f264a766b15a4a1c0.jpeg

図2 秘密分散に基づくデータリース技術における3種類の役割

● データリース当事者。データリース当事者は、データ自体の一部を所有している可能性があり、共同マルチパーティデータマイニングを通じてより効果的な情報を取得するために、料金を支払ってデータリース者のデータを借りることを望んでいます。データの貸主は、対象となるコンピューティング タスクをデータの貸主およびリース プラットフォームに説明し、秘密分散に基づく安全なマルチパーティ学習を通じてコン​​ピューティング タスクを完了する必要があります。

● データ貸し手。データ貸主は、必要なデータをデータ貸主にリースし、データ貸主がデータを使用して完了する計算タスクの複雑さとデータの使用回数に応じて、対応する料金を請求します。データ リースでは、複数のデータ リース会社が参加する場合があります。データの貸し手との秘密の共有に基づく安全なマルチパーティ学習プロセスに参加することにより、データの貸し手は、データの貸し手が対象とするコンピューティング タスクを完了し、データの貸し手がデータに対して実行する計算操作を監視します。

● リース プラットフォーム パーティー。リース プラットフォーム パーティは、データ リースの情報プラットフォームを提供し、データ リース トランザクションを監査する責任があります。リースプラットフォーム側は、データ貸主からデータ情報を受け取り、解放すると同時に、データ貸主からのデータ情報照会要求に応答し、データリース取引の成立を促します。

3.2 学習プロセス

データの貸主とデータの貸主が、リースするデータの種類と量、対象となるコンピューティング タスク、およびリース料金について合意に達した後、データの貸主とデータの貸主は、秘密分散に基づく安全なマルチパーティ学習プロセスに共同で参加して完了します。データ リース トランザクション、具体的なプロセスを図 3 に示します。図 3 に示す計算プロセスでは、まず各当事者が自身の保有するデータを使用して秘密分散技術を使用して秘密分散を生成し、次にその秘密分散を入力として他の参加者に配布し、その後、すべての当事者が安全なマルチ パスを渡します。秘密分散に基づくパーティ アルゴリズム. 学習プロセスは、ターゲットの計算タスクを完了し、最終的に計算結果をデータ リース者に返します.

091c2a1be4a80f524cc11b0e4f2a55a2.jpeg

図3 秘密分散法によるデータリース技術の計算過程

具体的には、データ貸与側は、対象となる計算タスクを回路表現(ANDゲート、ORゲート、NOTゲートからなるブール回路、または乗算ゲートと加算ゲートからなる算術回路)に変換してから、他の当事者は、後続の計算プロセスの入力として機能します。同時に、データ リースの当事者は、対象回路のデジタル サマリーを計算し、それをブロックチェーンにアップロードする必要があります。これにより、データ リースのトランザクションが完了した後、第三者はチェーン上のデータに基づいてトランザクションを監査できます。 . データ貸主のデータがコンピューティング タスクに参加する必要がある場合は、秘密分散技術を使用して独自のデータの秘密分散を生成し、対応する秘密分散を他の参加者に配布します。データの貸し手は、秘密分散技術を使用して自身のデータの秘密分散を生成した後、対応する秘密分散を後続の計算プロセスの入力として他の参加者に配布し、データの「リース」を完了します。データの貸し手とデータの貸し手は、入力データの秘密分散と計算タスクの回路表現を取得した後、秘密分散ベースの安全なマルチパーティ学習テクノロジを使用して、ローカルを介して独自の秘密分散でターゲット回路を計算します。コンピューティングと通信の相互作用入力は、各当事者が保有する秘密の共有です。対象回路を計算する際には、まずゲート回路間の依存関係に従って対象回路を複数の回路層に分解し、各回路層の入力は前の回路層から得られ、出力は次の回路層に伝達されます。続いて、対象回路を層ごとに計算する、つまり、各層に含まれるゲート回路を順番に計算し、最後の回路層の出力が計算結果の秘密分散となる。このうち、NOT ゲートと加算ゲートはローカルで計算を完了することができますが、AND ゲート、OR ゲート、および乗算ゲートはすべての当事者間の相互作用を通じて計算を完了する必要があります。最後に、データ貸主は、保有している計算結果の秘密株をデータ貸主に送付し、データ貸主は受け取った秘密株を使用して計算結果を復元し、対応する家賃をデータ貸主に支払い、データのリースを完了します。取引。

3.3 分析

次に、計算プロセスを分析して、データリース技術が満たすべき計算プロセスのプライバシー、有効性、監視、および監査可能性の 4 つの要件を満たすことができることを示します。

● プライバシー。データのリース側とデータの貸主側のデータは、秘密分散技術を使用して秘密分散を生成し、その秘密分散を他の参加者に配布します。その後のすべての計算は、秘密分散に基づく安全なマルチパーティ学習技術を使用して完了します。秘密分散に基づく安全なマルチパーティ学習の特性によれば、すべての参加者は計算プロセス中に他の参加者のデータ情報を取得できないため、データ貸主のデータのプライバシーが保証されます。

●有効性。秘密分散に基づく安全なマルチパーティ学習技術は、複数の参加者の共同計算をサポートできるため、データのリース当事者とデータの貸主は、複数の当事者の入力データに基づいて事前に合意されたコンピューティング タスクを共同で完了することができます。最後に、データ リースの当事者は計算結果を取得します。これにより、データ リース トランザクションの有効性が保証されます。

● 計算プロセスを監視できます。秘密分散技術に基づく安全なマルチパーティ学習では、すべての参加者が計算タスクに対応する回路を知っており、計算プロセス中に計算に参加する必要があります。したがって、上記の計算プロセスでは、すべての計算にデータの貸主とデータの貸主が共同で参加する必要があり、データの貸主とデータの貸主は互いに計算操作を監視することができます。

● 監査可能。図 3 に示すように、計算が開始される前に、データ レンターは対象回路のダイジェストをブロックチェーンにアップロードします。計算が完了した後、第三者 (リース プラットフォームなど) は、ブロックチェーン上のデータ サマリーをチェックすることで、完了したデータ リース トランザクションを監査できます。

4 結論

本稿では、現在公表されているプラ​​イバシー保護法規に基づき、新たなデータ流通手法であるデータリースを提案し、データリースが満たすべき5つの要件を分析し、秘密分散に基づくデータリース技術を提案することで、データリースのさらなる推進を目指しています。データの流通とデータ価値の形成。将来的には、データリース当事者がリース開始前にデータ貸主のデータをテストできるようにする方法が、データリース技術の次の開発方向になる可能性があり、研究者はより詳細な調査と研究を行う必要があります。

著者について

Ruan Wenqiang (1999-), 男性, 復旦大学コンピューター科学技術学部の博士課程の学生. 彼の主な研究方向は、安全なマルチパーティ計算に基づくプライバシー保護機械学習と差分プライバシーです.

Xu Mingxin (1997-), 男性, 復旦大学ソフトウェア学部の修士学生. 彼の主な研究の方向性は、安全なマルチパーティ計算に基づくプライバシー保護機械学習と差分プライバシーです.

Tu Xinyu (1999-), 男性, 復旦大学ソフトウェア学部の修士学生. 彼の主な研究の方向性は、安全なマルチパーティ計算に基づくプライバシー保護機械学習と秘密分散です.

Song Lushan (1999-), Female, Ph.D. Student of Computer Science and Technology, Fudan University. 彼女の主な研究の方向性は、安全なマルチパーティ計算に基づくプライバシー保護と機械学習です。

Han Weili (1975-), 男性, Ph.D., School of Computer Science and Technology, Fudan University. 彼の主な研究方向は、データ セキュリティとアクセス制御です。

お問い合わせ:

電話: 010-81055448

       010-81055490

       010-81055534

電子メール: [email protected] 

http://www.infocomm-journal.com/bdr

http://www.j-bigdataresearch.com.cn/

転載・協力: 010-81055307

ビッグデータジャーナル

隔月発行の「Big Data Research (BDR)」は、Beijing Xintong Media Co., Ltd. が発行するジャーナルで、中国の科学技術のコア ジャーナル、中国コンピューター フェデレーションのジャーナル、中国科学および情報通信分野の高品質な科学技術ジャーナルの分類目録である中国コンピュータ連盟が推奨する技術ジャーナル、およびコンピューティング分野の高品質な科学技術ジャーナルの分類目録であり、評価されています。国立科学技術ジャーナルとして何度も. 哲学と社会科学ドキュメンテーションセンターの学術雑誌データベースの「総合的な人文科学と社会科学」の分野で最も人気のあるジャーナル.

b2aa6b8737a7fab27ae042722914ddaf.jpeg

「ビッグデータ」ジャーナルのWeChatパブリックアカウントをフォローして、より多くのコンテンツを入手してください

おすすめ

転載: blog.csdn.net/weixin_45585364/article/details/127255434