今回は、Tian Li ら著「 Federated Learning Federated Learning: Challenges, Methods, and Future Directions」 のレビューを読みました。
1 はじめに
この記事は、エッジ デバイスのコンピューティング能力の向上と、個人情報の送信に関する懸念から始まり、データをローカルに保存し、ネットワーク コンピューティングをエッジにプッシュすることがますます魅力的であるという事実につながります。次に、多くの文献と一致する連合学習の概念が導入されます。
この記事では、スマートフォン、組織 (病院など)、モノのインターネットに関する問題について説明します。
1.1 提起された疑問
1.2 主要な課題
課題 1: 高い通信オーバーヘッド
重大なボトルネックであるネットワーク内の通信速度は、ローカルの計算速度よりも何桁も遅くなる可能性があります。考慮すべき重要な側面は次の 2 つです。
- 通信ラウンドの総数を減らします。
- 各ラウンドで送信されるメッセージのサイズを減らします。
課題 2: システムの異質性
これは、共同ネットワーク内の各デバイスのストレージ、コンピューティング、および通信能力が、ハードウェア (CPU、メモリ)、ネットワーク接続 (3G、4G、5G、Wi-Fi)、および電源 (バッテリー) の変動により異なる可能性があるという事実を指します。パワー)が違います。さらに、各デバイスのネットワーク サイズとシステム関連の制約により、通常、同時にアクティブになるデバイスはごく一部のみになります(例: 100 万デバイスのネットワークでは数百台のアクティブなデバイス)。各デバイスの信頼性が低い場合もあり、接続やエネルギーの制約により、アクティブなデバイスが特定の反復でドロップアウトすることも珍しくありません。したがって、開発と分析に対するフェデレーション ラーニング アプローチでは、次のことを行う必要があります。
- 参加者は少ないと予想される
- 異種ハードウェアへの耐性
- ネットワーク内でのデバイスの落下に対して堅牢です。
課題 3: 統計的不均一性 (この側面については以前にまとめました)
課題 4: プライバシーの問題
トレーニング プロセス全体でモデルの更新を渡すと、機密情報がサードパーティや中央サーバーに漏洩する可能性があります。最近のアプローチでは、安全なマルチパーティ コンピューティングや差分プライバシーなどのツールを使用してフェデレーテッド ラーニングのプライバシーを強化することを目的としていますが、これらの方法は削減されたモデルで終わることがよくあります。パフォーマンスやプライバシーは、システム効率を犠牲にして提供されます。理論的にも経験的にも、これらのトレードオフを理解してバランスを取ることは、民間のフェデレーテッド ラーニング システムを実装する上でかなりの課題です。
2. 論文研究
著者らは、既存の手法では、体系的および統計的異質性の課題はもちろん、連合ネットワークの規模に完全に対処できないことが多いと主張しています。プライバシーは多くの機械学習アプリケーションの重要な側面ですが、フェデレーテッド ラーニングに対するプライバシー保護のアプローチは、データの統計的な違いにより厳密に主張することが困難な場合があり、各デバイスのシステム制約や大規模な可能性があるため、より困難になる可能性があります。ネットワークを実現するのは難しい。
2.1 通信効率
重大なボトルネック。いくつかの一般的な方向性が指摘されており、(1) ローカル更新方法、(2) 圧縮スキーム、および (3) 分散トレーニングにグループ化されます。
2.1.1 ローカルアップデート
ここでは主に、既存の方法の欠陥と、複数ラウンドの通信後のローカル更新など、通信オーバーヘッドを大幅に削減するために一定の収束時間を犠牲にする可能性がある既存のより効果的な方法の欠陥を指摘しています。
2.1.2 圧縮方式
ローカル更新方法では通信ラウンドの総数を削減できますが、スパース化、サブサンプリング、量子化などのモデル圧縮スキームを使用すると、ラウンドごとに通信されるメッセージのサイズを大幅に削減できます。ただし、デバイスの参加率が低いこと、ローカル データが不均一に分散していること、ローカル更新スキームがこれらのモデル圧縮方法に新たな課題をもたらしています。
非可逆圧縮と破棄を使用してサーバーからデバイスへの通信を削減すること、Golomb ロスレス エンコーディングを適用すること、モデルの更新を強制すること、スパースで低ランクになること、構造化されたランダム回転を使用して量子化を実行することなど、いくつかの一般的かつ一般的な圧縮方法がリストされています。
2.1.3 分散型トレーニング(分散型トレーニング)
分散型トポロジ (デバイスが隣接するデバイスとのみ通信する) については、潜在的な代替案として簡単に説明します。分散型トレーニングは、低帯域幅または高遅延のネットワークで実行すると、集中型トレーニングよりも高速であることが示されています。最初にエッジ サーバーを利用してエッジ デバイスからの更新を集約し、次にクラウド サーバーに依存してエッジ サーバーからの更新を集約することで、中央サーバーの負荷をさらに軽減する階層型通信パターンを提案する研究もあります。
2.2 システムの異質性
以下の説明はスター型トポロジに基づいています。
2.2.1 非同期通信
同期スキームはシンプルであり、連続的に等価な計算モデルを保証しますが、デバイスが変更された場合には混乱の影響を受けやすくなります。非同期スキームは、異種環境での滞りを軽減するための魅力的なアプローチです。非同期スキームは通常、期限付き遅延の仮定に依存して陳腐化の度合いを制御します。デバイス k の場合、更新の数は、デバイス k が中央サーバーから取得されてからの更新の数に依存します。他のデバイス。
非同期パラメータ サーバーは分散データ センターでは成功していますが、遅延が数時間から数日のオーダーであるか、完全に無制限である可能性があるフェデレーション設定では、従来の制限された遅延の想定は非現実的である可能性があります。
2.2.2 アクティブサンプリング
フェデレーテッド ネットワークでは、通常、トレーニングの各ラウンドに参加するデバイスの小さなサブセットのみが使用されます。フェデレーション方法の大部分は、どのデバイスが参加するかに影響を与えるように設計されていないという点で受動的です。もう 1 つのアプローチは、各ラウンドで参加デバイスを積極的に選択することです。
2.2.3 フォールトトレランス
フォールト トレランスはシステム コミュニティで広く研究されており、古典的な分散システムでは基本的な考慮事項です。リモート デバイスで学習する場合、特定のトレーニング反復が完了する前のある時点で一部の参加デバイスがドロップアウトするのが一般的であるため、フォールト トレランスはさらに重要になります。たとえば、遠隔地にあるデバイスは、ネットワーク接続が不十分なためにドロップアウトが発生しやすい可能性があるため、トレーニングされた結合モデルは、ネットワーク状態が良好なデバイスに偏ることになります。
実際的な戦略は、このようなデバイスの障害を単純に無視することです。障害が発生したデバイスに特定のデータ特性がある場合、デバイスのサンプリング スキームに偏りが生じる可能性があります。エンコードされた計算は、アルゴリズムの冗長性を導入することでデバイスの障害を許容するためのもう 1 つのオプションです。最近の研究では、分散型機械学習トレーニングを加速するためのコードの使用が検討されています。
2.3 統計的不均一性 (依然としてそのようなもの)
2.4 プライバシーの問題
モデルの更新などの他の情報を共有すると、ユーザーの機密情報が漏洩する可能性があります。卒業制作の焦点ではなかったので、ざっと読んでみました。
3. 仕事の未来
- 極端なコミュニケーションスキーム
- コミュニケーションの減少とパレートフロント
- 非同期の新しいモデル
- 異質性の診断
- きめ細かなプライバシー制限
- 教師あり学習を超えて
- 製品化された共同学習
- 主題のベンチマーク