連邦は、研究の最新動向を学びます

2020年3月13日午前9時48分18秒

連邦は、研究の最新動向を学びます

 

連邦は、2019年にどのような種類の最新の研究の進捗状況を火を学びますか?

温家宝|ジャンシャンバオ

エド|嘉魏

 

連邦学習AIは間違いなく2019年の過去の中で最も人気のある最近の技術のパラダイムの一つ、大規模な連邦政府の研究に関連する研究の登場です。

連邦は、ユーザーがデータの漏洩を防止しながら、列車の機械学習モデルと異なる場所に分散した複数のデータセットを使用し、厳格なデータプライバシー規制を遵守することを可能にする学習機械学習フレームワークです。

あなたは、データの漏洩を防ぐことができます!また、これはおそらく、学習連邦は、機密データを解決するための重要な手段であることを意味しています。

最近、オーストラリア国立大学から、カーネギーメロン大学、コーネル大学、グーグル、科学技術学者の香港大学の機関が共同で、紙を発行している、彼は、業界が直面している未解決の問題や課題について詳述しました貴重な研究が多数記載されています。

連邦は、研究の最新動向を学びます

 

ダウンロード紙:

https://arxiv.org/pdf/1912.04977.pdf

論文のレビューは、宣伝文句から導入7つのパートで構成され、それが他の連邦の学習設定を紹介し、クロスデバイスの設定以外の問題や連邦政府の学習効率性と有効性やその他の問題を提起する方法、また、ユーザデータとプライバシーを取り上げ、モデルがあります操作と失敗の要因やその他のホットな問題。

 

1はじめに

連邦研究では、(モバイルデバイスや組織全体としての)複数のクライアントを指し、トレーニングデータを中央に設定することを確保しながら、(そのようなサービスプロバイダなど)中央サーバーの設定を機械学習のコラボレーションモデルを訓練しました。いくつかのローカルデータ収集と最小化原理を使用することを学ぶ連邦プライバシーのシステミック・リスクとコスト、持参する機械学習法の伝統的なセンターを減らします。

連邦は、用語が最初にMcMahanら、2016年までに提案された学びが、用語の出生前に、このように登場していた1980年代を計算するためのデータの暗号化などのデータプライバシーの保護、専用の研究多くの作業がありました暗号化方式。

当初はモバイルアプリケーションとエッジデバイスに焦点を当てた、連邦の研究では、研究者が設定し、これらの二つは、クロスデバイス(クロスデバイス)とクロスサイロと呼ばれています。連邦広義の下で学ぶために、この論文のこれら二つの変形に基づいて:

学習設定を学習機械学習機械を解決するより、連邦政府のエンティティ(クライアント)のコラボレーション問題であり、それは、中央のサーバまたはサービスプロバイダの連携の下で行われます。各クライアントの元のデータがローカルに格納されている、交換することができないか、移行、連邦は、学習目標を達成するために(即時重合(即時集計)のための)部分更新を使用することを学びます。

これは、この定義は区別をするために、完全分散型学習技術を学び、連邦完了することは注目に値します。

連邦は、研究の最新動向を学びます

 

クロスデバイスの連邦学習の設定:図に示す連邦学習やトレーニングのライフサイクルだけでなく、より多くの参加者の連邦システムを学びます。具体的には、そのワークフローは、6つの部分を含む:問題を識別するステップと、クライアント2が設けられており、モデル3を試作; 4フェデレーション・モデル・トレーニング、5モデル評価を、6配備、......

含むトレーニングプロセスに固有の、クライアントの選択; 2放送3クライアントコンピューティング; 4重合性; 5モデル更新..... クライアントの選択ステップは、主にクライアントの要件を満たしてからサンプリングされ、選択されたクライアントからサーバーからメインのダウンロード現在のモデルの重みとトレーニングプログラムを放送するステップ;及び更新段階モデル​​のクライアントコンピューティング、集約および分離は、連邦政府の研究ではありません厳格な要件は、それは、このような非同期SGDなどのアルゴリズム、特定のカテゴリを排除するものでもありません。

 

設定や問題を学習以外の2、他の連邦クロスデバイスの設定

連邦トレーニング学習、クライアント非常に多くのサーバは、中心的な役割を果たしている、サーバがボトルネックトレーニングになることがあります。完全に分散化の方法に重要な考え方は、サーバー中心を交換するポイントの通信モードにポイントを使用することです。

ノード間の通信チャネルとしてクライアントに完全に集中アルゴリズムでは、クライアント側として、および連邦学習ネットワークを構成するこの関係のエッジ点。状態は、もはや連邦研究の世界的な標準であることに注意してくださいは、プロセスがすべてのローカルモデルはグローバルな解に収束することが期待されるように設計することができ、他の言葉で、各モデルは、徐々に合意に達します。

それが完全に分散されていますが、コースがタスクを学習の割り当てを担当するセンターを持っているが、これらの学習課題は、次のとおりですので、上の選択アルゴリズム、超パラメータの選択、試運転などを。信頼される必要がある。このセンターを選択し、その顧客は、それはまた、合意によって決定することができ、再生するために学習のタスクを行っている可能性があります。

連邦は、研究の最新動向を学びます

連邦政府の学習と分散学習の比較

しかし、機械学習アルゴリズムの現在のプログラムの中心にはまだ多くの問題に直面している、特別な事情の共同研究のための中央サーバーを使用するのと同様、いくつかは、他の問題が生じ、副作用の配布を完了することによるものです。

アルゴリズムの観点から、主な課題は、ローカル信用機構、勾配圧縮および定量的な方法をカスタマイズし、更新、ネットワークトポロジーおよび分配SGD非同期の影響であり、分散SGD。

クロスサイロ連邦研究:クロスデバイス特性の逆の共同研究では、全体的なデザインの特定の側面におけるクロスサイロ連邦政府の研究は非常に柔軟です。多くの組織では、あなただけのシェアのトレーニングモデルにしたい、と共有する時間データにしたくない場合は、クロスサイロ設定は非常に良い選択です。クロスサイロは、連邦政府の研究を設定している主なポイント以下:データセグメンテーション、インセンティブ、プライバシーの違い、テンソル分解。

連邦は、研究の最新動向を学びます

セグメンテーション調査セットの二種類

学習課(スプリット学習):主要なアイデアは、クライアントとサーバ、および応用トレーニングと推理の間の各セグメンテーションモデルに基づくセグメンテーションの研究を実行することです。各クライアントを研究する前に分割されるが送信される最も簡単な構成は、深さにネットワークによって計算され、その後、データは、それにより、残りの計算を完了し、別のサーバやクライアント、又はクライアント及びサーバに送信される研削カット層、すなわち、出力します。最後に、同様にして、最終的な層のバックプロパゲーション勾配から切断層にすることができ、この手段全く伝播が発生しない、共有データの前になるようにします。このプロセスが収束するまで継続することに注意してください。

 

3、どのように効率を向上させるために

オープンの章では、様々な技術を探求された紙のこの部分での問題は、より良い最適化アルゴリズムの開発を含め議論しますか?異なるクライアントのための差別化モデルを提供するには?マシンは、連邦政府の研究の文脈でタスクを実行する方法を学びますか?

(サブ必要オペレータ独立同一分布)非IIDデータの存在であり、そのうちの一つの課題の多くは、ある問題を解決します。三つの主要な側面があるため、この問題が発生します;独立仮定の2違反; 1つの異なるクライアント分布データ移行の3セットを....

連邦は、研究の最新動向を学びます

 

非IIDデータとそれを対処するには?最も一般的な方法は、既存のアルゴリズムを変更することです。一部のアプリケーションでは、あなたはまた、クライアント間でデータをより近づけるためにいくつかの方法を使用することができ、データを拡張することを選択できます。例えば、小さなデータがグローバルに設定共有することができます作成​​します。

効率を改善するための別の方法は、いくつかの典型的な連邦政府の学習課題に、連邦政府の研究のためのアルゴリズムを最適化することで、最適化の目的は、最小限に抑えることで、「特定の機能を。」アドレス非IIDデータと不平衡データに必要:分散アルゴリズムと、標準的なトレーニング方法の同時最適化の主な違いがあることです。また、重要な実用的な考慮の別の連邦政府の研究では、アルゴリズムは、例えば、(例えばADMMなど)アルゴリズムの状態と実際の状況に基づいてステートフル圧縮戦略を調整し、最適化し、他の技術と組み合わせることが可能です。

マルチタスク学習、パーソナライゼーションおよびメタ学習が非IIDデータの顔に非常に有効である、その性能はさらに最高の共有グローバルモデルを超えてもよいです。キャラクタリゼーションを介してパーソナライズ加えて、そのような入力は、共有グローバルモデルは高度に予測パーソナライゼーションを生成することができます。

より効率的なトレーニング効果を作成するためには、機械学習のワークフローを調整することができます。そのための機能強化、機能工学、神経系の構造設計、モデル選択、超パラメータの最適化、分散データ収集およびリソースに制約のモバイルデバイスの設定、多くの問題があるでしょうワークフローデータの標準的な機械学習。

 

4、プロテクトユーザーデータプライバシー

 

連邦は、研究の最新動向を学びます

脅威モデル

機械学習のワークフローは、様々な参加者が関与します。訓練データ交換装置によって生成することができるユーザのために。エンジニアのために、彼らの参加を機械学習は、モデルの品質を訓練し、評価することです。

理想的な状態では、システム内の各参加者は、簡単にすべての参加者がアクションを実行するかどうかを決定するために、これらの推論を利用することができ、それらの情報の開示がない推定することができます。

既存の結果の論文は、この章で説明して、設計するために厳格なプライバシー保護の課題だけでなく、今が直面している共同学習システムを提供することができるようにする方法を説明しています。もちろん、ユーザーのプライバシーに対する攻撃に加えて、だけでなく、他のタイプの攻撃の共同研究のために、例えば、対戦相手は、単にストップモデル学習しようと、あるいはモデルの偏見を取得しようとしていることがあります。

論文はまた、その後、さまざまな脅威モデルが保護を提供することができますコアツールと技術のいくつかのリストについて説明します。信頼されたサーバーでも仮定を作り、公共問題や課題の敵意クライアントやアナリストの保護の問題を議論します。

 

5、攻撃や障害に対する頑健性

近代的な機械学習システムはしやすいです。これらの問題は、だけでなく、明示的な攻撃の訓練と展開のために、クライアントを飛んでいない、このような前処理パイプラインのエラー、ノイズの多い研修ラベルとして、悪意のあるではないかもしれません。このセクションでは、紙は、連邦政府の研究の分散性を説明し、アーキテクチャ設計やデータの制約は、新たな故障モードと攻撃面を開きます。また、連邦政府の研究のセキュリティメカニズムにおけるプライバシーの保護は、それは非常に検出が困難と正しい作ることができることは注目に値します。

論文はまた、さまざまな攻撃や障害の種類、および連邦政府の学習におけるこれらの関係の重要性との関係について説明します。

モデルのパフォーマンス上の対立攻撃:攻撃者は、モデルの性能に対してだけでなく、攻撃、しかし、訓練に関与し、ユーザーの個人データを推測することが可能となることがあります。攻撃(モデル回避攻撃を)中毒避けるデータ、モデルやモデルの更新を中毒などの敵対攻撃の多くの例があります。

非悪質な故障モード(悪意のない故障モード):従来のデータセンターモデルのトレーニングと比較して、連邦政府の研究の影響は、非悪意のあるクライアントの障害に対して特に脆弱であり、敵対的な攻撃、およびシステムの要因は、データの制約につながることができます悪意のない障害が発生。悪意のない障害が破壊的な悪意のある攻撃よりも通常は小さいですが、出現頻度が高いが、多くの場合、悪意のある攻撃が共通の起源と複雑さを共有して。したがって、悪意の失敗に対処する方法は、悪意のある攻撃のそれとの戦いでも使用することができます。

プライバシーと堅牢性の間の緊張も見てみよう、多くの場合、セキュリティ上のプライバシー保護を強化するためにアグリゲーション技術を使用して、一般的には、中央サーバが唯一のクライアントのアップデートのコレクションを参照してくださいので、それがより困難、敵対的な防衛を攻撃することができますので、安全性の使用の研究どのように敵対的な攻撃の防御は、重合中に非常に重要です。

全体的に最初の敵対攻撃を導入し、その後、非悪意の故障モードを説明し、最後にプライバシーと堅牢性の間の緊張を探ります。

 

図6に示すように、バイアスを除去するために、公平性を確保します

パフォーマンス機械学習モデルは、多くの場合、驚くべきことです。ときにこれらの行動のモデルは非常にユーザー非友好的、研究者が不公平に分類されます。例えば、場合にも、同様の特性を持つ人々は、公正の基準に違反して、その後、この個々の完全に異なる結果となっています。特定の感受性基(人種、性別など)が異なる結果を得るために場合、これは、さまざまな人口統計基準フェアに違反する可能性が........

以前に非連邦政府の環境研究を拡張し、その一部少数の思考、の公正性の研究のために提供するために、連邦政府の研究では、他の人は、連邦政府の研究に固有のものです。

トレーニングデータの偏差:機械学習モデルのドライバーが認知サンプリング、報告と確証バイアスを含め、トレーニングデータにおける不公平な偏りです。一般的な現象は、データセット全体でその個々の特性データは過小評価されているので、トレーニングモデルの後に重いを取得する権利は、問題を示すものではありません。データアクセス処理は、使用されるデータ・セットは、シフトと同じの非独立性を導入することができる共同研究のようなものです。

機密属性への公平なアクセスなし:明確な取得人口統計情報は、そのような標準の公正性についての議論を刺激するので、人種、性別などと、機密性の高い個人財産が利用できないとき、多くの場合、例えば、公正性の議論につながる連邦の学習環境を展開し、パーソナライズされた言語モデルの開発と公平な医療クラシファイア。不平等を測定し、補正してすることは重要な課題の共同研究、研究者が解決すべきです。

公正、プライバシーと音:公正なデータのプライバシーと倫理的な概念は、多くの現実世界に相補的であるように思わフェアも非常に望ましい、プライバシーを必要とします。共同研究として最も可能性が高いプライバシーと公正に展開されるように機密データ環境を必要としている。したがって、公平性とプライバシーの問題を解決することが不可欠です。

連邦ダイバーシティモードの使用を増やし:以前のデータが提供する共同学習、分散訓練は実用的、あるいは違法ではないかもしれない、それらの合理的な使用することができます。いくつかの現在のデータプライバシー法は、データのサイロで、エンタープライズモデリングすることを余儀なくされています。また、トレーニングデータ表現と多様性の欠如は、連邦政府の研究は、これによりモデルの性能を向上させること、すでにこれらのモデルの公平性を改善するために、敏感な性質に関連したデータと組み合わせることができる、性能低下につながります。

7結論

連邦は、クラウドに保存されている機械学習やデータの容量のニーズを分離するように、デバイスに保存されているすべてのトレーニングデータながら、協調学習と予測モデルの共有が可能な分散型クライアントデバイスを学びます。

近年では、産業界や学界の連邦研究のトピックは、爆発的な成長を経験しています。暗号化、プライバシーおよび公正に、機械学習から最適化するために、統計や情報理論:他の対象分野における連邦の学習も徐々に影響力を拡大します。

データプライバシーはバイナリではなく、異なる仮定の下で脅威モデルは、各モデルは、独自の課題を持っています。

紙で議論オープンの問題は、それが著者の利害や背景を反映した、包括的ではありません。これらの問題のすべてが分散されたデータに基づいて解決される必要があるかもしれない後にこの記事では、機械学習プロジェクトを解決するための非学習の問題を議論しません。これは、現在開いているヒストグラムの頭で計算記述統計の基本的な例を、計算します。議論のもう一つの重要なトピックは、刺激または法的およびビジネス上の問題、連邦政府の研究の使用を制限する可能性はありません。

公開された472元の記事 ウォンの賞賛757 ビュー161万+

おすすめ

転載: blog.csdn.net/weixin_42137700/article/details/104855428