这是张老师的二作文章,可得好好读。
まとめ
従来のフェデレーテッド ラーニング アルゴリズムには、デバイスの参加率に関する厳しい要件があり、フェデレーテッド ラーニングの潜在的な範囲が制限されます。このペーパーでは、現在の学習パラダイムを拡張して、トレーニング中に非アクティブになり、不完全な更新を計算し、出発または到着する可能性のあるデバイスを含めます。データが非 IID である場合、より柔軟なデバイスの参加を許可することが学習の収束に影響を与えることを示す分析結果を示します。
次に、デバイスが非アクティブであっても、不完全な更新を返しても、収束する新しいフェデレーション集約スキームを提案します。また、学習プロセスが早退や遅刻にどのように対応するかを調査し、それらが収束に及ぼす影響を分析します。
1 はじめに
通常、フェデレーテッド ラーニングでは収束するまでに数千回の通信ラウンドが必要であることを考慮すると、トレーニング プロセス全体を通じてすべてのデバイスを確実に利用できるようにすることは実際には困難です。さらに、多くの場合、ユーザー デバイス上で複数のアプリケーションが同時に実行され、すでに高度に制約されたハードウェア リソースをめぐって競合します。したがって、デバイスがトレーニングの各ラウンドで指定されたトレーニング タスクを期待どおりに完了できるという保証はありません。
ウェイト圧縮やフェデレーション ドロップアウトなど、個々のデバイスの作業負荷を軽減するための多くの方法が提案されていますが、デバイスがトレーニング義務を実行できなくなる可能性を完全に排除することはできません。したがって、大規模なフェデレーテッド ラーニングでは、まずリソースに制約のある多くのデバイスをフェデレーテッド ラーニングへの参加から除外する必要があり、これによりトレーニング データセットの潜在的な可用性が制限され、フェデレーテッド ラーニングの適用性が弱まります。さらに、既存の研究では、予期しないデバイスの動作に遭遇したときにどのように反応するかについては規定されておらず、これらの動作がトレーニングの進行に及ぼす(マイナスの)影響も分析されていません。
このペーパーでは、これらの制限を緩和し、デバイスがより柔軟な参加モデルに従うことができるようにします。
- 不完全性: デバイスはラウンド内で部分的に完了した作業のみを送信できます。
- 非アクティブ: さらに、デバイスは更新を完了しないか、コーディネーターにまったく応答しない可能性があります。
- 早期終了: 極端な場合、既存の機器はすべてのトレーニング エポックを完了する前にトレーニングを終了する可能性があります。
- 遅れて到着: 既存の装備に加えて、訓練開始後に新しい装備が参加する場合があります。
デバイス参加の柔軟性を高めるための当社のアプローチには、既存の FedAvg アルゴリズムを補完し、柔軟なデバイス参加によってもたらされる課題に対処する次のコンポーネントが含まれています。
- 部分的なモデル更新のバイアス除去
- デバイス到着時の高速再起動
- デバイスの逸脱に対するモデルの適合性の再定義
2 関連作品
(非同期トレーニングに関する一部の研究) アルゴリズムの非同期集計は、ランダムな非アクティブなデバイスに自然に適用できますが、著者らは、アルゴリズムの収束が非アクティブまたは不完全なデバイスとデータの異種性によってどのような影響を受けるかを分析していません。
(参加デバイスの要件を緩和するいくつかの研究) これらの研究は、デバイスの変更がトレーニングの収束にどのような影響を与えるかを示しておらず、ユーザー データの異質性をアルゴリズム設計に組み込んでいるわけでもありません。
関連作品の調査を待ちます。
3 収束解析
3.1 アルゴリズムの説明
ここにNN があるとします。N 個のデバイス、各デバイスについてkk しk は局所目的関数F k ( w ) F_k(w)Fk(w)。其中 w w wは明らかに機械学習の重みパラメータF k ( w ) F_k(w)Fk( w )はデバイスkkkを超えるすべてのポイントにおける平均経験損失私たちの世界的な目標は、次の機能を最小限に抑えることです。
F ( w ) = ∑ k = 1 N pk F k ( w ) F(w)=\sum_{k=1}^Np_kF_k(w)F ( w )=k = 1∑NpkFk( w )
ここで、pk = nknp^k=\frac{n_k}{n}pk=nnk,nk n_knkデバイスはkkですkが所有するデータの数n = ∑ k = 1 N nkn=\sum_{k=1}^Nn_kn=∑k = 1Nnk。令 w ∗ w^* w∗は関数F ( w ) F(w)F ( w )は最小値の重みパラメータをとります。F k ∗ F_k^*を使用しますFk∗F k F_kを表しますFk最小値。
デバイスkkについて説明するにはkのデータ分布が他のデバイスのデータ分布とどの程度異なるかをΓ k = F k ( w ∗ ) − F k ∗ \Gamma_k=F_k(w^*)-F_k^*Ck=Fk( w∗ )−Fk∗、同時にΓ = ∑ k = 1 N pk Γ k \Gamma=\sum_{k=1}^Np_k\Gamma_kC=∑k = 1NpkCk。
離散時間ステップt = 0 , 1 , ⋯ t=0,1,\cdotsを考慮します。t=0 、1 、⋯ .ときttEEです_Eの倍数の場合、モデルの重みは同期されます。最大でもTT があると仮定します。Tラウンドの場合、各ラウンドごとに (たとえば、τ \tauτラウンド)、次の 3 つのステップを実行します。
- 同期: サーバーは最新の重みw τ EG w_{\tau E}^\mathcal{G} をブロードキャストします。wτE _Gすべてのクライアントへ。各クライアントは独自の重みパラメータを更新します: w τ E k = w τ EG w_{\tau E}^k=w_{\tau E}^\mathcal{G}wτE _k=wτE _G
- ローカルトレーニング: i = 0 , ⋯ , s τ k − 1 の場合 i=0,\cdots,s_\tau^k-1私=0 、⋯、stk−1の場合、各デバイスは独自の損失関数F k F_kFk运行SGD算法: w τ E + i + 1 k = w τ E + i k − η τ g τ E + i k w_{\tau E+i+1}^k=w_{\tau E+i}^k-\eta_\tau g_{\tau E+i}^k wτ E + i + 1k=wτ E + ik−のtgτ E + ikここでη τ \eta_\tauのtτ \tauと一緒ですτ減衰学習率、0 ≤ s τ k ≤ E 0\le s_\tau^k\le E0≤stk≤E は、このラウンドで行われたローカル更新のタイム ステップ数を表します。gtk = ∇ F k ( wtk , ξ tk ) g_t^k=\nabla F_k(w_t^k,\xi_t^k)gtk=∇F _k( wtk、バツtk)はデバイスkkkの確率的勾配、ここでξ tk \xi_t^kバツtkローカル ミニバッチのデータを表します。また、 g ˉ tk = ∇ F k ( wtk ) \bar g_t^k=\nabla F_k(w_t^k) も定義します。gˉtk=∇F _k( wtk) はデバイスkkkの完全なバッチ勾配g ˉ tk = E ξ tk [ gtk ] \bar g_t^k=\mathbb E_{\xi_t^k}[g_t^k]gˉtk=Eバツtk[ gtk】
- 暗号回線:テレビの回線勾配は安全な環境で生存可能です 重パラメータ:w ( τ + 1 ) EG = w τ EG + ∑ k = 1 N p τ k ( w τ E + s τ k − w τ EG ) w ( τ + 1 ) EG = w τ EG − ∑ k = 1 N p τ k ∑ i = 0 s τ k η τ g τ E + ik w_{(\tau+1) E}^\mathcal{G}=w_ { \tau E}^\mathcal{G}+\sum_{k=1}^Np_\tau^k(w_{\tau E+s_{\tau}^k}-w_{\tau E}^\mathcal { G})\\w_{(\tau+1) E}^\mathcal{G}=w_{\tau E}^\mathcal{G}-\sum_{k=1}^Np_\tau^k\ sum_ {i=0}^{s_\tau^k}\eta_\tau g_{\tau E+i}^kw( τ + 1 ) EG=wτE _G+k = 1∑Nptk( wτ E + stk−wτE _G)w( τ + 1 ) EG=wτE _G−k = 1∑Nptki = 0∑stkのtgτ E + iks τ k = 0の場合s_\tau^k=0stk=0 (つまり、デバイスkkτ \tauのkτ は更新なしで丸めます)、デバイスkkと言いますτ \tauのkタウラウンドは非アクティブ。0 < s τ k < Eの場合0<stk<Eの場合、デバイスkkk は不完全です。私たちはそれぞれs τ k s_\tau^kstk任意の分布に従う確率変数として、異なるデバイスのs τ k s_\tau^kの場合stk分布が異なる場合は不均一であり、そうでない場合は均一です。同時に、集約された重み係数p τ k p_\tau^kを許可します。ptk時間ステップτ \tau付きτが変化します。(一般にp τ k p_\tau^kptkはs τ k s_\tau^kstk関数)
特殊なケースとして、従来の FedAvg は、すべてのデバイスがラウンドごとにすべてのEEを完了すると仮定します。Eタイム ステップ トレーニング、つまりs τ k ≡ E s_\tau^k\equiv Estk≡E._ _ そして、すべてのデバイスが参加する FedAvg によって使用されるp τ k ≡ pk p_\tau^k\equiv p^kptk≡pkであるため、前の式の右辺は次のように書くことができます:w ( τ + 1 ) EG = ∑ k = 1 N p τ kw τ E k w_{(\tau+1) E}^\mathcal{G} =\sum_ {k=1}^Np_\tau^kw_{\tau E}^kw( τ + 1 ) EG=k = 1∑NptkwτE _kこれは、勾配集計がモデル パラメーターを直接集計することと同等であるためです。
3.2 一般的な収束限界
この部分では、さまざまな仮定 (リプシッツ勾配などを含む) を通じて次の収束限界を証明します。
3.3 グローバル目標の転送
この章では、特定のデバイスの重みを受け入れることにより、全体的な損失関数がデバイスに向かってシフトする現象について説明します。この記事には次の定理があります。
次に、この記事では、グローバルなターゲットが変更された場合の新しい収束限界を導き出します。