[文献を読む] 堅牢なフェデレーテッド ラーニング: アフィン変換

        主に収束の証明を見て、ついでにこの論文も読み直してください。


        文章力を鍛えるために、ここからは英語論文に適した文章をいくつかまとめます。

  • は主な理由の 1 つです: ... の主な理由です。
  • ことが示されています:ことが示されています...
  • に著しく苦しむ: に深刻な影響を受ける
  • diverge : (データまたは結果の逸脱を示します)
  • デバイス依存性: デバイス依存性
  • 必要とする: 必要とする; 強制する
  • 通信オーバーヘッド: 通信オーバーヘッド

0. 概要

        この論文の主な目標は、ユーザー サンプルの分布変動において満足のいくパフォーマンスを達成できる堅牢な連合学習アルゴリズムを開発することです。この目標を達成するために、著者らはまず、フェデレーテッド設定におけるデバイス依存のデータの異質性を捉えるユーザー データの構造化アフィン分布変換を検討します。この摂動モデルは、さまざまな強度、コントラスト、明るさなどのデバイス依存の不完全性が画像に発生する画像分類など、さまざまな連合学習の問題に適用できます。

        ユーザー間のアフィン分布の変化に対処するために、著者らは、観測されたサンプル分布のアフィン分布の変化に対して堅牢な、アフィン分布変更のための堅牢な統合学習フレームワーク(FLRA) を提案しています。

        数値実験により、アフィン分布シフトは実際にモデルのパフォーマンスを大幅に低下させるのに十分であること、およびこのアルゴリズムが標準的なフェデレーテッド ラーニングおよび敵対的トレーニング方法と比較して大幅な利益をもたらすことが実証されています。


1 はじめに

        多くのことを述べましたが、既存の FedAvg がデータの異質性の問題を完全には解決しておらず、単純な線形分類器でも画像認識タスクにおける FedAvg のパフォーマンスを大幅に低下させるのに十分であるため、精度に重大な影響が出ることが示されています。

        次に、いわゆる FLRA のキー ポイントにつながります。つまり、チーム トレーニング データの不均一性がモデル化されます。つまり、i 番目のデバイス xi に保存されているサンプルは、アフィン変換によって正しい分布からオフセットされます。

x^i\rightarrow \Lambda ^ix^i+\delta^i

        実際の制作シナリオでは、これらの変換はカメラの歪み、データ伝送ノイズなどになる可能性があります。

        特に、この変換は一般的なアプリケーション シナリオ、つまり摂動歪みに拡張できます。

x^i\rightarrow x^i+\delta^i

        さらに一般化すると、この歪みはグローバルに同じになる可能性もあります。

x^i\rightarrow x^i+\delta

        上記のモデルに基づいて、FLRA はタスクを最大ロバスト最適化問題に要約します。これは、w^*最悪の場合 (ローカル アフィン変換によって引き起こされる) の総損失関数を最小化するグローバル最適モデルを見つけることです。この記事では、この種の問題を解決する 1 つの方法は、敵対的トレーニングのテクニックを使用することであると述べています。

(対決トレーニングについての知識はこちらの記事:対決トレーニング方法を詳しく解説

        ただし、このアプローチは、反復ごとに敵対的最適化問題を完全に解決するために各デバイスで大量の計算リソースを使用する必要があるため、フェデレーテッド ラーニングではお勧めできません。

        FLRA ミニマックス問題は一般に非凸でも非凹でもありますが、この論文は、FedRobust が摂動モデル変数とパラメトリック モデル変数を交互に使用すると、Polyak-Łojasiewicz (PL) 条件を満たすミニマックス目標の安定点に収束することを示しています。このアルゴリズムは、より一般的な非凸および非凹の分散ミニマックス最適化問題にも拡張できます

        この論文のもう 1 つの主要な貢献として、この論文では PAC ベイジアン フレームワークを使用して FLRA 学習分類器の一般化誤差限界を証明しています。さらに、トレーニングされた分類子は、標準的な FGSM および PGD 攻撃に対して堅牢に機能し、FedAvg を上回ります。


2. 連合学習のシナリオ

        n 個のノードがある場合、各ノード i は次のように表されるサイズ m のデータセットにアクセスできます。

S^i=\{(\mathbf x^i_j,y^i_j)\in \mathbb{R}^d\times\mathbb{R}:1\leq j\leq m\}

        与えられた損失関数 私 と損失関数セット について\mathcal{F}=\{f_w:w\in\mathcal{W}\} 、古典的な連合学習の問題は、 w 次の経験的リスク最小化問題 (ERM) を解くことによってモデルを nm データに適合させることです。

\min_{w\in \mathcal{W}}\frac{1}{nm}\sum_{i=1}^n\sum_{j=1}^ml\left(f_w(\mathbf x_j^i), y_j^i\right)

        連合学習におけるデータの不均一な分布特性をモデル化するために、各ノードのデータ ポイントが共通の分布から局所的にシフトしていると仮定します。正確に言うと、 の各サンプルは S_i 共通分布 P_{\mathbf X,Y} のアフィン変換 に従ってこんにちは 取得され 、各主題は アフィン変換を通過  し P_{\mathbf X,Y} ます  。 それが入力変数  の次元であることを理解するのは難しくありません 。このモデルによれば、異なるノードは異なるアフィン変換を持ちます が、特定のノードに保存されているすべてのサンプルは同じアフィン変換の影響を受けます。(\mathbf x,y)h^i(\mathbf x):= \Lambda^i\mathbf x+\delta^i\Lambda^i \in \mathbb{R}^{d\times d}\delta^i \in \mathbb{R}^{d}d\数学xh^i(\mathbf x)私

        このようなモデルは、多くの実世界の状況に適用できます。たとえば、各デバイスで生成および保存されたデータは同じ分布の歪みの影響を受けますが、デバイスが異なれば歪みも異なります。携帯電話デバイスによって撮影および維持され、統合画像分類タスクを実行する一対の画像を考慮します。提案されたモデルによれば、この分布シフトはアフィン変換として捕捉されます。

        摂動の大きさを制御するために、ここではフロベニウス ノルムと L2 ノルムの合計を考慮し \Vert \Lambda-I_d\Vert_F\leq\epsilon_1 、 \Vert \delta\Vert_2\leq\epsilon_2 アフィン変換に恒等変換から一定の距離を持たせるようにします。したがって、上記のモデルに基づいて、私たちの目標は、次の分散型の堅牢な連合学習モデルを解決することです。

\min_{w\in \mathcal{W}}\frac{1}{n}\sum_{i=1}^n \max_{\Vert \Lambda^iI\Vert_F\leq\epsilon_1,\Vert \delta^ i\Vert_2\leq\epsilon_2}\frac{1}{m}\sum_{j=1}^ml\left(f_w(\Lambda^i \mathbf x_j^i+\delta^i),y_j^i) \右 )

        上の式は、n+1 個の結合された最適化問題として解釈できます。まず、与えられたグローバル モデルの n 個の内部最大化問題について、 各ノードは、w 所有する m 個のデータに従って解くことにより、 \max_{\Lambda^i,\delta^i}\frac{1}{m}\sum_{j=1}^ml\left(f_w(\Lambda^i \mathbf x_j^i+\delta^i), y_j^i) \右) 損失関数を最大化できるアフィン パラメータを見つけます (\ラムダ^i,\デルタ^i) 。次に、外側の最小化問題により、n 個のノードにわたって最小の累積損失値を生成するグローバル モデルが見つかります。

        つまり、最初にサーバーからのグローバル モデルを使用して w アフィン パラメータを計算し、次にアフィン パラメータを使用してローカル モデルを最適化します(ただし、通信量と計算コストが大きすぎると作者から指摘がありました)

        この記事では、アフィン分布のシフトを防ぐために、各ノードが代わりに次の問題を解決することを提案しています。ここで、 \ラムダ>0 ラグランジュ乗数は次のとおりです。

\max_{\Lambda^i,\delta^i}\frac{1}{m}\sum_{j=1}^ml\left(f_w(\Lambda^i \mathbf x_j^i+\delta^i), y_j^i) \right )-\lambda\Vert\Lambda^iI\Vert_F^2-\lambda\Vert\delta^i\Vert_2^2

(なぜラグランジュ乗数なのかについては、KKT条件とラグランジュ乗数法の知識を参照してください)

        ここでは、二乗ノルム ペナルティを使用し、実行可能なアフィン変換と恒等マップの間の制限された距離を必要とし、ノード i に最大のサンプル損失を引き起こす最悪の場合のアフィン変換を見つけます。これは、堅牢なフェデレーテッド ラーニングの問題に対するアプローチを形式化したものであり、これを「ロバスト アフィン分布転送によるフェデレーテッド ラーニングのフレームワーク」 (略してFLRA ) と呼んでいます。全体的な問題は次のように書くことができます。

\min_{w\in \mathcal W}\max_{(\Lambda^i,\delta^i)^n_{i=1}}\frac{1}{nm}\sum_{i=1}^n\ sum_{j=1}^ml\left(f_w(\Lambda^i \mathbf x_j^i+\delta^i),y_j^i) \right )-\lambda\Vert\Lambda^iI\Vert_F^2-\ラムダ\Vert\delta^i\Vert_2^2

        次に、FLRA を解決する手法である FedRobust を紹介します。


3. FedRobust 集計アルゴリズム

        提案された FedRobust アルゴリズムは、確率的勾配降下上昇 (SGDA) 更新を適用してミニマックス問題を解決する反復スキームです。アルゴリズムのフローチャートは次のとおりです。

         実際、各ローカル更新反復では t 、各ノードは確率的勾配上昇法を採用してアフィン パラメーターを更新します (\ラムダ^i_t,\デルタ^i_t) (これは最大問題であるため、勾配上昇の方向は最大点の方向であるため、学習率の前のシンボルはただです)。同時に、局所的な重みが確率的勾配降下法によって更新されます w_t^i 。各ノードは反復ごとに 1 回だけ摂動パラメータを更新するため、標準的な敵対的トレーニング方法と比較して計算コストが低くなることに注意してください。\ できるホイールはローカルで更新されてサーバーと対話するため、通信コストも\ できる2 分の 1 に削減されます。

        ローカル アフィン パラメータが (\ラムダ^i,\デルタ^i) 結合されていることは注目に値します。これは、新しいモデルが w すべてのノードの更新されたモデルの平均から得られるため、ノードの更新は 次の反復の ノードに  さらに影響を 私 与えるためです  。これは、セクション 4.1 の FedRobust の最適化証明で生じる重要な技術的課題です。(\ラムダ^i,\デルタ^i)j(\ラムダ^j,\デルタ^j)


4. 理論的保証: 最適化、一般化、堅牢性。

        このセクションは非常に重要で、これまでのものを見ていただければわかるほど重要なポイントです。

        このセクションでは、著者の主な理論的結果を確立します。

  • アルゴリズムにおける FedRobust の収束について説明します
  • 学習した仮定をトレーニング データから未確認のテスト サンプルまで適切に一般化できることを実証します。
  • 最終的に、FLRA のミニマックス問題を解くと、ノード間のワッサーシュタイン シフトに対する堅牢な分類器が生成されることが示されます

4.1 最適化保証(収束の証明)

        このセクションでは収束の証明を示し、FedRobust が 2 種類の損失関数について (2) のミニマックス問題の鞍点を見つけることを示します。まず、次のシンボル定義が行われます。これを \psi^i=(\Lambda^i,\delta^i)\in \mathbb R^{d\times(d+1)} アフィン パラメータの拡張行列とし、n 個のノードの n 個の変数セットに対して行列が使用されるため、 \Psi=(\psi^1;\cdots;\psi^n) 最大値問題は次のように書き換えることができます。

\min_{w}\max_\Psi f(w,\Psi):=\min_w\max_{\psi^1,\cdots,\psi^n}\frac{1}{n}\sum_{i=1 }^nf^i(w,\psi^i)

        ここで f 、 と は f^i ペナルティを課されたグローバル損失関数とローカル損失関数を示します。つまり、各ノードには次の 私 ものがあります。

f^i(w,\psi^i):=\frac{1}{m}\sum_{j=1}^ml\left(f_w(\Lambda^i \mathbf x_j^i+\delta^i), y_j^i) \right )-\lambda\Vert\Lambda^iI\Vert_F^2-\lambda\Vert\delta^i\Vert_2^2

        同時に、  \Phi(w):=\max_\Psi f(w,\Psi) max の計算後にアフィン パラメーターが決定されることを意味する損失関数も定義します。これは、  \ファイ^*:=\min_w\ファイ(w) min の計算後に最適なモデル パラメーター ネットワークを決定した後の損失関数の値として定義されます。

        上に示したように、各ローカル データは異種混合です。次に、データの不均一性の程度を定量化できるいくつかの概念を紹介します。


仮定 1 (境界のある異質性)

        摂動がない場合、グローバル勾配に対するローカル勾配の分散は制限されている、つまり、 および任意のモデルの重み に対して次のようなものが存在すると  仮定 し \rho ^2_f ます \psi^i=(I,0)\Psi=(\psi^1;\cdots;\psi^n)w

\large \frac{1}{n}\sum_{i=1}^n\Vert\nabla_wf^i(w,\psi^i)-\nabla_wf(w,\Psi)\Vert^2\leq\rho ^2_f

仮定 2 (確率的勾配)

        各ノードについて \大私 、確率的勾配の合計は 同じ不偏推定値に\チルダ{\nabla}_{w}f^i 属し  、 \チルダ{\nabla}_{\psi}f^i それぞれの分散は  その合計によって制限されます: (不偏推定値が分散係数の分母として n-1 である理由については、この記事で良い証明が得られます。( メッセージ 1 件) 不偏推定_牛肉のマリネを食べたことがありますか?ブログ-CSDN ブログ_不偏推定)\シグマ^2_w\sigma^2_\psi

\mathbb E\Vert \tilde{\nabla}_{w}f^i(w,\psi)-\nabla_{w}f^i(w,\psi) \Vert^2\leq\sigma^2_w, ~~~~\forall w,\psi

 \mathbb E\Vert \tilde{\nabla}_{\psi}f^i(w,\psi)-\nabla_{\psi}f^i(w,\psi) \Vert^2\leq\sigma^ 2_\psi, ~~~~\forall w,\psi

 仮定 3 (リプシッツ勾配)

        すべての局所損失関数にはリプシッツ勾配があります。(リプシッツ条件と勾配については、深層学習におけるリプシッツ条件の詳細な分析を参照してください - Zhihu (zhihu.com) ) つまり、ノードについては私 次のようになりw、w'、\psi、\psi'ます。

\Vert \nabla_wf^i(w,\psi)-\nabla_wf^i(w',\psi)\Vert\leq L_1\Vert ww'\Vert

\Vert \nabla_wf^i(w,\psi)-\nabla_wf^i(w,\psi')\Vert\leq L_{12}\Vert \psi-\psi'\Vert_F

\Vert \nabla_\psi f^i(w,\psi)-\nabla_\psi f^i(w',\psi)\Vert_F\leq L_{21}\Vert ww'\Vert

\Vert \nabla_\psi f^i(w,\psi)-\nabla_\psi f^i(w,\psi')\Vert_F\leq L_{2}\Vert \psi-\psi'\Vert_F

        つまり、これら 4 つの定数を通じて L_1、L_2、L_{12}、L_{21}、勾配の増大を制限します。リプシッツ連続は、関数値が急激に変化するのを防ぎ、関数が際限なく増大しないようにするために関数値に使用されます。


        次の記事では、PL-PL と非凸 PL の 2 種類の損失関数に対する FedRobust の収束を証明し、主な結果について簡単に説明します。

        関数がg(x) PL 条件 (Polyak-Lojasiewicz) を満たすと言います。これは、関数の最小値が存在し、制限されている場合、 任意の独立変数に対して次のような g^*=\min_x g(x) 定数が存在する必要があることを 意味し ます。 \mu>0バツ\Vert \nabla g(x) \Vert^2\geq2\mu\left(g(x)-g^* \right )

        同様に、ミニマックス目的関数の両側 PL 条件を定義できます。


仮定4(PL条件)

        グローバル目的関数は f 両側 PL 条件を満たします。つまり、次 \mu_1>0、\mu_2>0 のような定数が存在します。

\frac{1}{2\mu_1}\Vert \nabla_w f(w,\Psi) \Vert^2\geq f(w,\Psi)-\min_w f(w,\Psi)

\frac{1}{2\mu_2}\Vert \nabla_\Psi f(w,\Psi) \Vert_F^2\geq \max_\Psi f(w,\Psi)-f(w,\Psi)

        つまり、仮定 4 は、f(\cdot,\Psi),f(w,\cdot)各 PL 条件が満たされていることを示しています。tラウンドタイムにおける最適な距離を定量化するために、ポテンシャル関数 P_t:=a_t+\beta b_tを定義します 。このうち 、 はアフィン最適化後の損失関数の期待値とa_t:=\mathbb{E}\left[\Phi\left(\overline w_t \right )\right]-\Phi^*現時点で t の最適な損失関数値との差であり b_t:=\mathbb{E}\left[\Phi\left(\overline w_t \right )-f(\overline w_t,\Psi_t)\right] 、 はアフィン最適化後の損失関数値と元の経験的な損失関数値との差の期待値です。

で と は両方とも b_t 負ではない        ことに注意してください。P_t これらがゼロに近い場合は、 (\overline{w}_t,\Psi_t) 最大点と最小点に近いことを意味します。

定理 1 (PL-PL 損失の収束の証明)

        アルゴリズム 1 での FedRobust の反復を考え、仮定 1、3、および 4 が成立するとします。

        次に t 、任意の について、最適なギャップは P_t:=a_t+\frac{1}{2}b_t 次の不等式を満たします。

おすすめ

転載: blog.csdn.net/m0_51562349/article/details/127677998