[文献学習] グループ知識の伝達: エッジにおける大規模 CNN のフェデレーテッド ラーニング

        エッジ デバイス上のリソース制約の現実に対処するために、この論文では FL を FedGKT と呼ばれるグループ知識伝達トレーニング アルゴリズムとして再定義します。FedGKT は、エッジ ノードで小規模な CNN をトレーニングし、知識の蒸留を通じてその知識を大規模なサーバー側 CNN に定期的に転送する交互最小化手法の変形を設計しました。

        これにより、エッジ コンピューティングの必要性が減り、大規模な CNN の通信帯域幅が削減され、FedAvg に匹敵するモデルの精度を維持しながら非同期でトレーニングが行われます。結果は、FedGKT が FedAvg と同等か、わずかに高い精度を達成できることを示しています。さらに、FedGKT はエッジ トレーニングを手頃な価格で提供します。FedAvg を使用したエッジ トレーニングと比較して、FedGKT はエッジ デバイスで必要な計算能力 (FLOP) が 9 ~ 17 倍少なく、エッジ CNN のパラメータが 54 ~ 105 倍少なくなります。


        FedGKT は、エッジでトレーニングされた多くのコンパクトな CNN からクラウド サーバーでトレーニングされた大規模な CNN に知識を転送できます。FedGKT の本質は、FL を代替最小化 (AM) 手法として再定義することです。これは、一方の確率変数を交互に固定し、もう一方の確率変数を最適化することで 2 つの確率変数 (エッジ モデルとサーバー モデル) を最適化します。

        一般に、CNN ベースの連合学習は分散最適化問題として定式化できます。

         著者らは、既存のフェデレーテッド最適化手法の主な欠点は、リソースに制約のあるエッジデバイス上で大規模な CNN をトレーニングするための GPU アクセラレータと十分なメモリが不足していることにあると指摘しています。


        既存の FL のリソース制約に対処するには、FL 問題を解決する別の方法を検討します。それは、重み W を小規模な特徴抽出器 We と大規模なサーバー側モデル Ws に分割することです。また、We に分類子 Wc を追加して、小さいながらも完全にトレーニング可能なモデルをマージン上に作成します。したがって、単一のグローバル モデルの最適化を、サーバー モデル Fs とエッジ モデル Fc の両方を解く必要がある非凸最適化問題として再定式化します

         式 5 はクライアントが独立して解くことができることに注意してください。大規模な CNN トレーニングの場合、H^(k)_i をサーバーに転送するための通信帯域幅は、従来のフェデレーテッド ラーニングですべてのモデル パラメーターを通信するための帯域幅よりもはるかに小さくなります。最初はこれらの式を理解できませんでした。次の図と組み合わせて分析する必要があると思います。

         式 4 から式 5 への変化は、実は別の言い方であり、前者は f、後者は fc で表されます。サーバー モデル fs は、トレーニング用の入力特徴として H(k)i を使用します。

        上記の再構成の主な利点は、f(k) のモデル サイズが fs よりも桁違いに小さいと仮定すると、限界トレーニングが手頃な価格であることです。

        直感的には、サーバー モデルから転送された知識により、エッジでの最適化が容易になります (式 (5))。サーバー CNN は複数のエッジから知識を吸収し、単一エッジ CNN はサーバー CNN から強化された知識を取得します。

         ここでは KL ダイバージェンス (D_KL) が使用されます。ls と lc は、それぞれエッジ モデル f(k) とサーバー モデル fs の確率的予測です。zs と z(k)c は、それぞれサーバー モデルとクライアント モデルの最後に完全に接続された層の出力です。次の論文では、再定式化された最適化問題を解決するための Alternating Minimization (AM) の変形を提案します。

         ((8) の 2 番目の入力パラメータに k があるのはなぜですか?)

        上式の上付き文字 * は、関連する確率変数が最適化プロセス中に固定されることを示します。W(k) は W(k)e と W(k)c の組み合わせです。

        (8) では、W(k) を固定し、数サイクルにわたって W s を最適化 (トレーニング) します。次に、(10) に切り替えて、W s を固定し、数サイクルにわたって W(k) を最適化します。この最適化は、収束状態に達するまで、式 (8) と (10) の間で多くのラウンドで実行されます。

 

おすすめ

転載: blog.csdn.net/m0_51562349/article/details/128268828