連邦継続学習

この言葉を初めて聞いたのはプライバシー計算で、あそこには毎日最初の人を騙す大嘘つきがいるから、自分で勉強するために今回この投稿を移動しました

データプライバシーの制限により、複数のセンター間のデータ共有は制限されており、フェデレーテッドラーニングアーキテクチャの下での高性能ディープラーニングモデルの開発における複数センターの協力の効果に影響を与えます。ポイントツーポイント共同学習の方法として、継続学習ではトレーニング データの代わりに中間モデルを共有することでデータ プライバシーの制限を回避でき、それによって深層学習アルゴリズムの多施設共同開発が促進されます。最近、研究者らは、フェデレーテッド連続学習法 (Federated Continual Learning、FCL) の探索を続けています。つまり、フェデレーテッド ラーニング アーキテクチャの下での連続学習における多施設共同作業の実現可能性を研究しています。

継続的な学習

まず、継続学習とは何かを確認してみましょう。現在、継続的学習 (Continual Learning)、増分学習 (Incremental Learning)、生涯学習 (Lifelong Learning) は同等の表現であると一般的に考えられています。これらはすべて、連続的なデータ ストリームでモデルをトレーニングします。時間が経つにつれて、データはより多くなります。古いデータは徐々に利用可能になりますが、ストレージの制約やプライバシー保護などの理由により、古いデータは徐々に利用できなくなる可能性があり、学習タスクの種類と数は事前に定義されていません (分類タスク内のカテゴリの数など)。

モデルが新しいデータセットまたはタスクで再トレーニングされると、深層学習は壊滅的な忘却の問題に遭遇します。つまり、深層学習モデルは学習した古い知識を壊滅的に忘れてしまいます。継続的学習手法の目的は、以前に学習した知識を保持しながら、機械学習モデルを新しいデータで更新できるようにすることです。継続学習には 2 つの利点があります。 1) 以前のタスクで学習したトレーニング データを保存する必要がないため、物理デバイスの制限 (マシン メモリなど) や学習戦略 (プライバシー保護など) によって引き起こされる問題を解決しながらメモリを節約できます。 2) モデルは、以前のタスクで学習した知識を保存でき、以前のタスクで学習した知識を次のタスクの学習に大幅に適用できるため、学習効率が向上します。

現在、継続的な学習の方法はまだ開発中であり、厳密な数学的定義はまだありません。Han らは、論文 [1] で、図 1 に示すような連続学習の概略図を示しています。エージェントは各サンプルを 1 回だけ訪問します。この学習方法は動物の学習プロセスに近いです。各タスクの順序を無視して個別にトレーニングすると、壊滅的な忘却につながります。これも継続的な学習です。したがって、継続的な学習の本質は、学習した知識をさまざまな方法で効率的に変換して使用し、新しいタスクの学習を完了し、忘れることによって引き起こされる問題を大幅に減らすことです。[1]」。

図 1. 継続学習の概念図 [1]

これまでに多くの継続学習アルゴリズムが存在しており、主にメモリ応答、動的構造モデル、正則化モデルの 3 つのタイプに分類されます。1) 再生メソッドは、学習した知識を保存するために以前のデータセットから代表的なサンプルを選択します。この方法の研究の焦点は、「古いタスクのデータのどの部分を保持する必要があるか、および古いデータを使用して新しいデータでモデルをトレーニングする方法」であり、データストレージの制限を克服することが可能です。ただし、データプライバシーの懸念により、他のセンターからのサンプルが入手できないため、複数センターの協力は不可能です [6-8]。2) 動的構造モデルは、マルチタスク シナリオの動的ネットワーク アーキテクチャまたは動的パラメータを設計し、ネットワークの各部分 (特定の重みや特定のニューロン接続など) が対応する各タスクを担当します [9] [10]。3) 正則化手法は同じ従来のニューラル ネットワークを使用しますが、学習した知識の重要なパラメータを保存するために損失関数に新しい正則化項を追加します。この方法の主なアイデアは、「新しいタスクの損失関数に制約を課すことによって、古い知識が新しい知識によって覆われるのを防ぐ」というものです [11][12]。

フェデレーションによる継続的学習

フェデレーテッド ラーニングの主なアイデアは分散化であり、モデルは共同トレーニングに参加している各クライアントにローカルに配布され、ユーザー データを中央サーバーにアップロードすることなくローカル クライアントのデータに基づいてモデル トレーニングが実行されるため、ユーザーのデータが保護されます。各クライアントのデータ、プライバシー。ただし、既存の手法のほとんどは、フェデレーテッド ラーニング フレームワーク全体のデータ カテゴリが時間の経過とともに固定されることを前提としています。実際には、既にフェデレーテッド ラーニングに参加しているクライアントは、新しいカテゴリのデータを収集することがよくありますが、各クライアントのローカル デバイスの限られたストレージ容量を考慮すると、収集したすべてのカテゴリに対して十分な量のデータを保存することは困難です。この場合、現実世界のフェデレーテッド ラーニング モデルでは、古いクラスのデータのパフォーマンスについて重大な壊滅的な忘却が発生する可能性があります。さらに、フェデレーテッド ラーニング フレームワークには、多数の新しいデータ カテゴリを使用して新しいユーザーが継続的に参加することが多く、グローバル モデルの壊滅的な忘却がさらに悪化します。

近年、一部の研究者は、フェデレーテッド ラーニングと継続的学習のアイデアを組み合わせて、フェデレーテッド コンティニュアス ラーニング フレームワークを構築することを次々と提案しています。ただし、フェデレーション ラーニングと継続的学習を直接的かつ単純に組み合わせると、新たな問題が発生します。まず、フェデレーテッド継続学習は、他のクライアントからの潜在的な干渉に加えて、壊滅的な忘却に依然として直面しています。したがって、他のクライアントからの知識を選択的に利用して、クライアント間の干渉を最小限に抑え、クライアント間の知識の伝達を最大化する必要があります。2つ目の問題は、Federated Learningが通信して知識を交換する場合、通信コストが高くなりすぎる可能性があり、「通信コスト」が無視できない問題となっています。

最近公開された 4 つの記事を通じて、フェデレーテッド継続学習における最先端の概要を提供します。

  • 最初の論文では、フェデレーテッド継続学習のための新しいフレームワークである Federated Weighted Inter-Client Transfer (FedWeIT) を提案しています。FedWeIT は、より効率的な通信を実現するために、各クライアントのローカル モデル パラメータを密な基本パラメータ (密な基本パラメータ) と疎なタスク適応パラメータ (疎なタスク適応パラメータ) に分解します [2]。

  • 2 番目の記事では、まったく新しいグローバル - ローカル忘却補償 (GLFC) モデルを提案しています。つまり、グローバルとローカルの両方の観点から、壊滅的な忘却を可能な限り弱めることで、連合学習が最終的にグローバル増分モデルをトレーニングできるようになります [3] ]。

  • 3 番目の記事では、連合相互相関と継続的学習のアプローチを提案しています。異種問題の場合、この方法はラベルのない公開データを通信に利用し、相互相関行列を構築してドメイン シフトの下で一般化可能な表現を学習します。一方、壊滅的な忘却の場合、クロスドメインおよびローカルドメインの情報は知識蒸留のためのローカル更新に利用され、参加者のプライバシーを明らかにすることなくドメイン間およびドメイン内の知識を効果的に提供します[4]。

  • 4 番目の論文では、フェデレーテッド多言語 TTS システムである Fed-Speech と呼ばれるフェデレーテッド ラーニング アーキテクチャを提案しています。このアーキテクチャでは、プログレッシブ プルーニング マスクを使用してパラメータを分離し、話者のイントネーションを維持します。さらに、タスク内で知識を効率的に再利用するために選択的マスクが適用されます。最後に、ユーザーのプライバシーを維持するために、プライベート スピーカーの埋め込みが導入されています [5]。

重み付けされたクライアント間転送によるフェデレーテッド継続的学習

現実世界のディープ ニューラル ネットワークでは、継続学習と連合学習の両方が重要です。ただし、各クライアントがプライベートな再帰データ ストリームから一連のタスクを学習するケースについては十分に研究されていません。このフェデレーテッド ラーニングの問題は、継続的学習に新たな課題をもたらします。たとえば、無関係な知識の干渉を防ぎながら、他のクライアントの知識を効果的に使用する方法などです。これらの問題を解決するために、この論文は新しいフェデレーテッド連続学習フレームワークである Federated Weighted Inter-client Transfer (FedWeIT) を提案します。これは、ネットワーク ワークの重みをグローバルフェデレーテッド パラメータ (グローバル フェデレーテッド パラメータ) とスパース タスク固有パラメータ (スパース) に分解します。タスク固有のパラメータ)を使用すると、各クライアントは、そのタスク固有のパラメータの重み付けされた組み合わせによって、他のクライアントから選択的な知識を取得できます。具体的には、中央サーバーは他のクライアントのタスク固有のパラメーターを取得し、これらのパラメーターに対して加重集計を実行して選択的な知識を取得し、それによって類似のタスク間でのコンセンサス知識の伝達を最大化します。FedWeIT は、互換性のないタスク間の干渉を最小限に抑え、学習プロセス中にクライアント間で積極的に知識を伝達できるようにします。

著者は、Fed-WeIT と既存のフェデレーテッド ラーニングおよび異なるレベルのクライアント間での継続的学習手法との間のタスクの類似性を検証しました。この論文のモデルは明らかに優れており、通信コストは大幅に削減されます。コードは https://github.com/wyjeong/FedWeIT で公開されています。

メソッドの紹介

著者は、間接的な経験から得た人間の学習プロセスにインスピレーションを得て、継続学習のための新しい連合学習環境である Federated Continuous Learning (FCL) を紹介します。FCL は、複数のクライアントが学習されたパラメーターについて中央サーバーと対話しながら、プライベート データ ストリーム内の一連のタスクでトレーニングを行うことを前提としています。標準的な継続学習 (単一マシン上) では、モデルは一連のタスク {T (1)、T (2)、...、T (T)} から繰り返し学習します。ここで、T (t) は最初の A t 個のタスクのラベル付きデータセット。タスク シーケンスが到着順序が不明なタスクのストリームであり、モデルが T(t) にアクセスできるのはタスク t のトレーニング期間中にのみであり、その後はアクセスできないという現実を想定します。T(t) とこれまでに学習したモデルを考慮すると、タスク t の学習目標は次のようになります。

次に、従来の継続的学習は、複数のクライアントと中央サーバーを備えた連合学習環境に拡張されます。C 個のクライアントがあり、各クライアント c_c∈{c_1, ..., c_C } がプライベートにアクセス可能なタスク シーケンス {T^(1)_c , T^(2)_c , ..., T ^(t)_c 内にあるとします。 }⊆ T はモデルをトレーニングします。ステップ t で受信したクロスクライアント タスク間には関係がないことに注意してください。

現在の目標は、各クライアントから送信されたパラメータを集約してクライアントに再割り当てる中央サーバーとモデル パラメーターを通信することにより、クラス C 継続学習モデルを独自のプライベート タスク ストリームで効率的にトレーニングすることです。フェデレーテッド連続学習フレームワークでは、パラメーターはグローバル パラメーター θ_G に集約され、これによりクライアント間の知識の伝達が可能になります。これは、ラウンド q でクライアント c_i が学習したタスクが、ラウンド r でクライアント c_j が学習したタスクと類似しているか、関連している可能性があるためです。ただし、関連のないタスクからの知識は役に立たない可能性があり、パラメータを誤った方向に変更することで各クライアントの妨げになる可能性があるため、単一の包括的なパラメータ θ_G を使用することは、この目標を達成するには最適ではない可能性があると著者らは分析しています。著者らは、これをクライアント間の干渉と説明しています。

実はもう一つ重要なのは、コミュニケーションの効率化です。クライアントから中央サーバーへ、および中央サーバーからクライアントへのパラメーターの転送には多大な通信コストがかかりますが、クライアントは無限のタスク ストリームでトレーニングする可能性があるため、継続的な学習環境では問題になります。前述したように、これらの問題の主な理由は、複数のクライアントにわたって学習されたすべてのタスクの知識がパラメータのセット θ_G に格納されることです。ただし、知識の伝達を効果的に行うためには、各クライアントは、他のクライアントでトレーニングされた関連タスクの知識のみを選択的に活用する必要があります。この選択的転送は、学習を妨げる可能性のある無関係なタスクの知識を考慮しないため、クライアント間の干渉を最小限に抑えるための鍵でもあります。
著者らは、パラメータを役割の異なる 3 つの異なるタイプに分解することでこの問題に対処しています: グローバル パラメータ (θ_G) はすべてのクライアントのグローバルな共通知識を取得し、ローカル ベース パラメータ (B) はクライアントごとの一般知識を取得します。クライアント、各クライアントの特定のタスクごとのタスク適応パラメータ (A)。連続学習クライアント c_c のタスク t のモデル パラメーター θ^(t)_c のセットを次のように定義します。

このうち、B^(t)_c は c 番目のクライアントの基本パラメータ セットであり、クライアントのすべてのタスクで共有されます。m^(t)_c はタスク t の B^(t)_c の適応変換を可能にするスパース ベクトル マスクのセットであり、A^(t)_c はクライアント c_c のスパース タスク適応パラメータのセットです。L はニューラル ネットワークの層の数、I_l と O_l はそれぞれ l 番目の層の重みの入力次元と出力次元です。

上の方程式の最初の項により、グローバルな知識を選択的に利用できるようになります。著者らは、各クライアントの基本パラメータ B^(t)_c が、すべてのクライアントのすべてのタスクにわたる共通の知識を取得できることを期待しています。図 2(a) に示すように、各ラウンド t では、前の反復のグローバル パラメータ θ^(t-1)_G を使用して初期化が行われ、クライアントから送信されたパラメータが要約されます。これにより、B^(t)_c はすべてのタスクに関するグローバルな知識からも恩恵を受けることができます。ただし、θ^(t-1)_Gには今回のタスクに関係のない知識も含まれているため、それをそのまま使用するのではなく、関連するパラメータのみを選択するスパースマスクm^(t)_cを学習します。このまばらなパラメータの選択により、クライアント間の干渉が最小限に抑えられ、効率的な通信が可能になります。上式の 2 番目の項目は、タスク適応性パラメーター A^(t)_c です。パラメーターの加法分解は、最初の項では取得できなかったタスクに関する知識を取得することを学習できるため、タスク T^(t)_c に関する特定の知識を取得することになります。上の方程式の最後の項は、重み付けされたクライアント間の知識伝達を表します。すべてのクライアントに対するすべてのタスク適応パラメータを含む、中央サーバーから送信された一連のパラメータがあります。他のクライアントからのこれらの間接的なエクスペリエンスを選択的に利用するために、重み付けされた組み合わせでこれらのパラメータに注意 α^(t)_c をさらに分散します。この注意を学習することにより、各クライアントは、特定のタスクの学習に役立つ、関連するタスク適応パラメータのみを選択できます。著者らは A^(j)_i を高度にスパースになるように設計し、実際にはパラメータ メモリ全体の約 2 ~ 3% を使用しますが、それでもすべてのタスクの知識を送信することはお勧めできません。したがって、著者らは、ランダムにサンプリングされたタスク適応パラメータをすべてのタイム ステップのナレッジ ベースから転送することを選択し、経験的に、このアプローチが実際に良好な結果を達成することがわかりました。

図 2. FedWeIT の更新。(a) クライアントはスパース フェデレーション パラメータ B_c ⊙m^(t)_c を送信します。その後、中央サーバーは集約されたパラメーターをクライアントに再配布します。(b) 知識ベースはクライアントの前のタスク適合性パラメータを保存し、各クライアントはこれらのパラメータを選択的に利用し、attention_mask を持ちます。

訓練。 次の目的関数を最適化することで、分解可能なパラメータ θ^(t)_c を学習します。

ここで、L は損失関数、Ω(・) はすべてのタスク適応パラメータとマスク変数をスパースにするためのスパース誘導正則化項です。2 番目の正則化項は、過去のタスク適応パラメータを遡って更新するために使用されます。これは、タスク適応パラメータが、基礎となるパラメータの変更を反映することによってターゲット タスクの元の解を維持するのに役立ちます。ΔB^(t)_c は、現在の期間と前の期間の基礎となるパラメーターの差です。∆A^(i)_c は、現在の期間と前の期間におけるタスク i のタスク適合度パラメータの差です。この規則化は、致命的な物忘れを防ぐために非常に重要です。λ1 と λ2 は、2 つの正則化の効果を制御するハイパーパラメータです。 

クライアント。 各ラウンド r で、各クライアント c_c は、中央サーバーから送信されたグローバル パラメーターの非ゼロ成分を使用して基本パラメーターを更新します。つまり、B_c (n) = θ_G (n) (n は非ゼロ要素)。新しいタスクのスパース基本パラメータ ^Bb^(t)_c とタスク適応パラメータ A^(t)_c を取得し、FCL ベースライン方法と比較して低コストでこれら 2 つのパラメータを中央サーバーに送信します。FCL ベースライン方式では、クライアントから中央サーバーへの通信に |C|×R×|θ| リソースが必要ですが、FedWeIT では |C|×(R×|Bb|+|A|) が必要です。ここで、R は|・| はパラメータの数です。

中央サーバー。 中央サーバーはまず、すべてのクライアントから送信された基本パラメータを要約し、加重平均 θ_G を取得します。次に、θ_G をすべてのクライアントにブロードキャストします。t-1 のタスク適合性パラメーターは、トレーニング タスク t 中にクライアントごとに 1 回ブロードキャストされます。FCL ベースラインでは、中央サーバーとクライアントの通信コスト |C|×R×|θ| が必要ですが、FedWeIT では |C|×(R×|θG|+(|C|-1)×|A|) が必要です。 θ_G 、 A は高度にスパースです。アルゴリズム 1 は、FedWeIT アルゴリズムを説明します。

実験の紹介

著者らは、さまざまなタスク シーケンス構成の下で、ベースライン メソッド (Overlapped-CIFAR-100 および NonIID-50) に対して FedWeIT を検証しました。1) Overlapped-CIFAR-100: 100 個の CIFAR-100 データセット クラスを 20 個の NonIID スーパークラスにグループ化するタスク。次に、20 個のタスクから 10 個のタスクをランダムにサンプリングしてインスタンスを分割し、タスクが重複するクライアントごとにタスク シーケンスを作成します。2) NonIID-50: 次の 8 つのベンチマーク データセットを使用します: MNIST、CIFAR-10/-100、SVHN、Fashion MNIST、Not MNIST、および TrafficSigns。8 つのデータセット内のクラスは 50 の NonIID タスクに分割されており、各タスクは他のタスクに使用されるクラスから独立した 5 つのクラスで構成されます。

実験で使用した比較モデルは次のとおりです。 1) STL: 到着した各タスクに対する単一タスク学習。2) EWC: 各クライアントに対する個別の継続的な学習。3) Stable-SGD: 各クライアントは Stable-SGD を継続的に学習します。4) APD: 各クライアントは個人的な継続学習のために APD を使用します。5) FedProx: FedProx アルゴリズムを使用する FCL。6) Scaffold: Scaffold アルゴリズムを使用した FCL。7) FedCurv: FedCurv アルゴリズムを使用した FCL。8) FedProx-[モデル]: [モデル] を使用して FedProx アルゴリズムを使用してトレーニングされた FCL。9) FedWeIT: FedWeIT アルゴリズム。

表 1 は、2 つのデータセットに対する (フェデレーテッド) 継続学習後の各タスクの最終的な平均パフォーマンスを示しています。FedProx ベースの FCL メソッドでは、フェデレーテッド ラーニングを使用しない同じメソッドと比較して、継続学習 (CL) メソッドのパフォーマンスが低下することが観察されています。これは、無関係なタスクで学習されたすべてのクライアント パラメータを集約すると、タスクごとの学習に深刻な混乱が生じ、壊滅的な忘却と次善のタスク適応につながるためです。Scaffold は、すべてのクライアントが異なるタスク シーケンスから学習するため、ローカル グラデーションでの正則化が FCL にとって有害で​​あるため、FCL ではパフォーマンスが低下します。FedCurv はタスク間のパラメーターの差異を軽減しますが、タスク間の干渉を最小限に抑えることができないため、単一マシンの CL メソッドよりもパフォーマンスが低下します。一方、FedWeIT は、両方のデータセットでスタンドアロンの CL および FCL ベースラインを大幅に上回っています。クライアント数が多くても (C = 100)、FedWeIT は一貫してすべてのベースラインを上回っています (図 3)。この改善は主に、他のクライアントの知識を選択的に活用して目標タスクに迅速に適応し、より良い最終パフォーマンスを達成する FedWeIT の能力によるものです。

表 1. FCL 中の 2 つのデータセットにおける 5 つのクライアントのタスクごとの平均パフォーマンス (スコア = 1.0)。著者らは、すべての学習段階について 3 回の個別のトライアルを完了した後、タスクの精度とモデルのサイズを測定しました。著者らは、各タスクのトレーニングにかかる​​ C2S/S2C 通信コストも測定しています。 

図 3. クライアント 5 人および 100 人で最後の 2 つのタスク (9 番目と 10 番目) をトレーニングした場合の平均タスク適合度

新しいタスクへの迅速な適応も、クライアント間の知識伝達の明らかな利点です。この論文の手法がより大規模なネットワークで実行可能であることをさらに証明するために、著者は ResNet-18 の NonIID データセットで実験を実施しました (表 2)。使用するパラメーターが少ない場合でも、FedWeIT は依然として最強のベースラインよりも大幅に優れています ( FedProx -APD)。

表 2. ResNet-18 を使用した NonIID-50 データセットの FCL 結果

さらに著者らは、各方法における壊滅的な忘却の深刻さを理解するために、継続的な学習中に過去のタスクのパフォーマンスがどのように変化するかを調べています。図 4 は、3 番目、6 番目、および 8 番目のタスクにおける FedWeIT および FCL ベースラインのパフォーマンスを示しています。FCL ベースラインでは、クライアント間干渉により、EWC によるローカル継続学習よりも深刻な壊滅的な忘却が発生し、過去のタスクの知識が他のクライアントからの無関係なタスクの知識によって上書きされることが観察されています。対照的に、私たちのモデルには壊滅的な忘却の兆候は見られません。これは主に、グローバル/タスク適応パラメータを介して他のクライアントから学習した事前知識を選択的に利用するためで、これによりクライアント間の干渉を効果的に軽減できます。FedProx-APD も致命的な忘却には悩まされませんが、知識伝達の非効率性によりパフォーマンスが低下します。

図 4. 壊滅的な忘却。現在のタスク適応に関する NonIID-50 での連合継続学習中のタスク 3、6、および 8 のパフォーマンスの比較

フェデレーションクラスの増分学習

地域の壊滅的な忘れられた補償

フェデレーション ラーニングは、分散型クライアントでのデータ プライベートの共同トレーニングを通じて注目を集めています。ただし、既存の手法のほとんどは、フレームワーク全体のオブジェクト カテゴリが固定されていることを前提としています。これにより、グローバル モデルは、現実世界のシナリオでは深刻な壊滅的な忘却に悩まされることになります。ローカル クライアントは、古いカテゴリを保存するためのストレージ スペースが非常に限られている一方で、新しいカテゴリを常に収集していることが多いためです。さらに、これまで見たことのない新しいカテゴリのデータを持つ新しいクライアントが FL トレーニングに参加する可能性があり、グローバル モデルの壊滅的な忘却がさらに悪化します。これらの課題に対処するために、この論文では、壊滅的な物忘れを軽減するために、ローカルとグローバルの両方の観点からグローバル カテゴリの増分モデルを学習する、新しいグローバル-ローカル忘却補償 (GLFC) モデルを提案します。著者らによると、これはフロリダ州環境でグローバルなクラス増分モデルを学習する初めての試みだという。具体的には、ローカルクライアントのカテゴリの不均衡によって引き起こされるローカル忘却を解決するために、著者らは、古いカテゴリの忘却のバランスをとり、クラス間の一貫した関係を蒸留するために、カテゴリを意識した勾配補償損失カテゴリ意味関係蒸留損失を設計します。非 IID クラスの不均衡によって引き起こされるグローバルな忘却問題に対処するために、著者らは、ローカルな関係の抽出を支援するために最適な古いグローバル モデルを選択するプロキシ サーバーを提案します。プライバシー保護を考慮して、プロキシ サーバーは、プロトタイプの勾配ベースの通信メカニズムを通じてローカル クライアントから新しいクラスの摂動されたプロトタイプ サンプルを収集し、それらを利用してグローバル モデルのパフォーマンスを監視し、最適なモデルを選択します。代表的なベンチマーク データセットに対するモデルの平均精度は、SOTA 手法より 4.4% ~ 15.1% 高いです。コードは https://github.com/conditionWang/FCIL で公開されています。

図 5 に、本稿のモデルの概要を示します。FCIL の要件を満たすために、私たちのモデルは、カテゴリを意識した勾配補償損失とカテゴリ意味関係蒸留損失を通じてローカル忘却問題を解決すると同時に、ローカル クライアントに最適な古いモデルを選択するプロキシ サーバーを通じてグローバル忘却問題を解決します。

図 5. GLFC モデルの概要。これは主に、局所的なカテゴリの不均衡によって引き起こされる局所的な壊滅的な忘却を克服するためのカテゴリ認識勾配補償損失 L_GC とカテゴリ意味関係蒸留損失 L_RD で構成されます。プロキシ サーバー S_P は、非 II.D. クラスの不均衡によって引き起こされるクライアント間でのグローバルな壊滅的な忘却を解決するために使用され、そこでは、最良の古き良きグローバル モデルを選択しながら、プライベート通信用のプロトタイプの勾配通信メカニズムが S_P とクライアントの間で開発されます。

t 番目の増分タスクでは、新しいカテゴリのトレーニング データと l 番目のローカル クライアント S_l∈S_b のサンプル メモリ M_l が与えられると、ミニバッチの分類損失 L_CE は次のようになります。

このうち、b はバッチ サイズ、Θ_r,t は中央サーバーからローカル クライアントに送信される r 番目のグローバル タスクの分類モデルです。P^t_l (x_t^(l_i, Θ_r,t) ∈ R^(C^p+C^t) は Θ_r,t によって予測されるシグモイド確率を表し、DCE (・,・) はバイナリのクロスエントロピー損失です。

前述したように、古いカテゴリと新しいカテゴリ (T^t_l と M_l) は局所的にアンバランスになっており、古いカテゴリでローカル トレーニングのパフォーマンスが大幅に低下します (つまり、局所的な壊滅的な忘却)。図 5 に示すように、ローカルの忘却を防ぐために、この論文では、不均衡な勾配伝播を修正し、カテゴリ間の意味の一貫性を確保できる、ローカル クライアントに対するカテゴリを意識した勾配補償損失とカテゴリの意味関係の蒸留損失を開発します。

  • クラス認識勾配補償損失: S_G が Θ^r,t をローカル クライアントに配布した後、ローカル クライアントでのクラスの不均衡な分散により、Θ^r,t の最後の出力層で不均衡な勾配逆伝播が発生します。これにより、ローカル モデル Θ^r,t_l の更新により、ローカル トレーニング後に新しいカテゴリでは異なる学習ペースが実行され、古いカテゴリでは異なる忘却ペースが実行されます。新しいストリーミング データが古いカテゴリの一部になり続けると、この現象はローカルでの古いカテゴリの忘却を深刻に悪化させます。

この問題に対応して、本論文では、勾配伝播の重み付けを変更することによって、新しいカテゴリの学習速度と古いカテゴリの忘却速度をそれぞれ調整する、カテゴリを意識した勾配補償損失L_GCを設計する。具体的には、単一サンプル (x^t_li, y^t_li) について、Θ^r,t_l の最後の出力層の y^t_lith ニューロンに関する勾配測定 G^t_li を取得します。

新しいカテゴリの学習速度と古いカテゴリの忘却速度を正規化するために、古いカテゴリと新しいカテゴリに別々に勾配正規化を適用し、それを使用して L_CE を再推定します。次のように定義されたミニバッチ {x^t_li, y^t_li} があるとします。

新旧カテゴリの勾配平均として、I(・)は指標関数であり、添え字条件が真の場合はI(True)=1、それ以外の場合はI(False)=0となります。したがって、再重み付けされた L_CE 損失は次のように定式化されます。

カテゴリと意味の関係の蒸留損失。現在のグローバル モデル Θ^r,t として初期化されたローカル モデル Θ^r,t_l のトレーニング プロセス中に、Θ^r,t_l によって予測される確率は、クラス間の意味論的な類似性関係を表します。異なる増分タスク間のクラス間の意味的一貫性を確保するために、著者らは、古いクラスと新しいクラスの間の基本的な関係を考慮して、カテゴリと意味的な関係の蒸留損失 L_RD を設計します。図 5 に示すように、データセット {X^t_lb, Y^t_lb} のミニバッチが、保存されている古いモデル Θ^t-1_l と現在のローカル モデル Θ^r,t_l にそれぞれ転送されます。これらの確率は、古いクラスと新しいクラスの間のクラス間関係を反映しています。既存の知識蒸留戦略とは異なり、著者はL_RDを最適化することによって新旧クラス間のクラス間関係を考慮し、Θ^t-1_lとΘ^r,t_lの間の旧クラスの意味的一貫性のみを保証します。つまり、Y^t_lb の最初の C^p 次元を P^t-1_l (X^t_lb, Θ^t-1_l) に置き換え、これを追加することで、ワンホット エンコードされたラベル Y^t_lb のバリアントを利用します。は次のように表現されます。

タスク転送検出。FCIL では、ローカル クライアントがいつ新しいクラス データを受信するかについて先験的な知識がありません。この問題に対処するために、著者らは解決策を検討します。それは、トレーニング データのラベルが以前に観察されたことがあるかどうかを識別することです。ただし、クラス配布の非 iid 設定のため、このアプローチでは、新しく受信したラベルが新しいクラスからのものであるか、他のローカル クライアントによって監視されている古いクラスからのものであるかを判断できません。もう 1 つの直感的な解決策は、パフォーマンスの低下を信号として使用して、新しいクラスを収集することです。{So、Sb、Sn} とその非 iid クラス分布のランダムな選択は、新しいクラスが受信されない場合でもパフォーマンスが大幅に低下するため、この解決策は FCIL では実行できません。この目的を達成するために、著者らは、ローカル クライアントが新しいカテゴリをいつ受信したかを正確に識別するタスク転送検出メカニズムを提案します。具体的には、r 回目のグローバル ラウンドでは、各クライアントは、受信したグローバル モデル Θ^r,t を通じて、現在のトレーニング データ T^t_l の平均エントロピー H^r,t_l を計算します。 

世界的な壊滅的な物忘れの補償

式 (6) は、局所的なクラスの不均衡によって引き起こされる局所的な壊滅的な忘却を解決できますが、他のクライアントからの異質な忘却 (つまり、グローバルな壊滅的な忘却) を解決することはできません。言い換えれば、ローカル クライアント上の非 iid クラスの不均衡な分散は、一部の古いクラスのグローバルな壊滅的な忘却につながり、ローカルの壊滅的な忘却をさらに悪化させます。したがって、グローバルな観点から、さまざまなクライアントの異質な忘却問題に対処する必要があります。前に述べたように、式 (5) で提案されたクラス意味関係抽出損失 L_RD は、クラス間関係を抽出するために以前のタスクの古い分類モデル Θ^t-1_l を保存する必要があります。より優れた Θ^t-1_l は、以前のタスクの蒸留ゲインを全体的に増加させ、古いクラスの記憶を全体的に強化することができます。したがって、Θ^t-1_l の選択は世界的な壊滅的な忘却の補償において重要な役割を果たしており、世界的な観点から検討される必要があります。

しかし、FCILではプライバシー保護の観点から最適なΘ^t-1_lを選択することが困難である。直観的な解決策は、各クライアントが (t-1) 番目のタスク中にトレーニング データ T^t-1_l を持つ最良の古いモデル {Θ^t-1_l} を保存することです。残念ながら、このソリューションはローカルの観点から Θ^t-1_l の選択を考慮しており、各ローカル クライアントにはレガシー クラス サブセットが 1 つしかないため、選択された Θ^t-1_l がすべての古いクラスに対して最適なメモリを備えているという保証はありません。 (非 IID)。この目的を達成するために、図 5 に示すように、著者はプロキシ サーバー S_P を導入して、グローバルな観点からすべてのクライアントに最適な Θ^t-1 を選択します。具体的には、ローカル クライアントがタスク遷移検出を通じて t 番目のタスクの開始時に新しいクラス (つまり T^t_l) を識別すると、プロトタイプ勾配ベースの通信を介して新しいクラスの摂動されたプロトタイプ サンプルを S_P に送信します。仕組みです。これらの勾配を受け取った後、S_P は摂動されたプロトタイプ サンプルを再構築し、最適なモデルが見つかるまでそれらを使用してグローバル モデル Θ^r,t (S_G から受け取った) のパフォーマンスを監視します。次のタスク (t+1) にステップインするとき、S_P は最適な Θ^r,t をローカル クライアントに配布し、ローカル クライアントはそれを L_RD を実行するための最適な古いモデルとみなします。

  • 勾配ベースのプロトタイプ通信。新しいクラスのトレーニングデータ T^t_l を受信する l 番目のローカルクライアント Sl∈Sb∪Sn が与えられると、Sl はタスク遷移の保持を通じて新しいクラスを認識します。次に、Sl は、新しいクラスごとに T^t_l から代表的なプロトタイプ サンプル x^t_lc∗ を 1 つだけ選択します (c = C^p_l + 1, - -, C^p_l + C^t_l)。ここで、x^ t_lc∗ の特徴は次のとおりです。潜在特徴空間内のクラス c に属するすべてのサンプルの平均埋め込みに最も近い値。これらのプロトタイプ サンプルとそのラベルは、L 層勾配エンコーディング ネットワーク Γ = {Wi} に供給されて、勾配 ∇Γ_lc が計算されます。S_P は、このラウンドで選択されたクライアントからグローバルに受信したすべての勾配をランダムに処理して、このプールに N^t_g 個の勾配があると仮定して、勾配プールを構築します。この操作により、S_P が特別な勾配分布に注釈を付けることで一部の選択されたクライアントを追跡できなくなります。∇Γ^t の n 番目の要素 ∇Γ^t_n については、∇Γ の最後の層の勾配符号を観察することで、対応するグラウンドトゥルース ラベル y^t_n を取得できます (ワンホット エンコードされたラベル y^t_n があります) )。標準ガウス (N0,1) によって初期化された偽のサンプル x ̄^t_n が与えられ、すべての {x ̄^t_n, ∇Γ^t_n, y^t_n} ペアが、ローカル クライアントとのネットワークである Γ = {Wi} に転送されます。は、同じ勾配エンコーディング ネットワークを使用して、新しいクラスごとにプロトタイプ サンプルを復元します。再構成損失 L_RT は次のとおりです。 

  • 旧モデルのベストセレクション。新しいクラスが検出されると、S_P は t 番目のタスクの最初のラウンドでのみローカル クライアントから勾配を受け取ることができます。次に、S_P は、式 (9) を最適化することによって、新しいカテゴリとそのラベル (つまり、{x ̄^t_n, y^t_n}) の N^t_g 個のプロトタイプ サンプルを再構成します。タスク t では、S_P はこれらの再構成されたサンプルをグローバル モデル Θ^r,t (S_G から受信) に転送し、タスクの新しいクラスの次の勾配まで、どのモデルが最高の精度を持つかを評価することによって最適な Θ^t を選択します。2 番目のタスクから始まるグローバル処理の各ラウンド中に、S_P は前のタスクと現在のタスクの最適モデル (つまり、Θ^t-1 と Θ^t) を選択されたすべてのクライアントに配布します。これらの選択されたクライアントが t 番目のタスクで T^t+1_l の新しいクラスを検出した場合、Θ^t を古いモデル Θ^t-1_l に設定します。そうでない場合は、Θ^t-1 を Θ^t- に設定します。 1_l で L_RD を実行します。

  • 混乱したプロトタイプサンプルの構築。ネットワーク Γ は S_P とローカル クライアントのみがプライベートにアクセスできますが、悪意のある攻撃者は Γ とこれらの勾配を盗んで、l 番目のローカル クライアントの元のプロトタイプ サンプル {x^t_lc∗ , y^t_lc∗ } を再構築することができます。プライバシー保護を実現するために、著者らはこれらのプロトタイプ サンプルに摂動を追加することを提案しています。たとえ攻撃者がプロトタイプ サンプルを再構築できたとしても、混乱したプロトタイプ サンプルからは有益な情報しか得られません。プロトタイプ サンプル {x^t_lc∗ , y^t_lc∗ } が与えられると、それを式 (6) でトレーニングされたローカル モデル Θ^r,t_l に転送し、バックプロパゲーションを適用してこのサンプルを更新します。摂動されたプロトタイプ サンプルを生成するために、著者はプロトタイプ サンプルの潜在特徴にガウス ノイズを導入し、式 (11) によって x^t_lc∗ を更新します。

 このうちΦ(x^t_lc∗)はx^t_lc∗の潜在的な特徴を表しており、Φ(xにはP^t_l(Φ(x^t_lc∗)+γN(0,σ2),Θ^r,t_l)が含まれている。 ^t_lc ∗) Θ^r,t_l で予測された確率にガウスノイズ N (0, σ2) が加算されます。σ2 は y^t_lc∗ に属するすべてのサンプルの特徴分散を表し、本論文ではガウス ノイズの影響を制御するために著者は経験的に γ=0.1 を設定します。図 6 は、再構成されたプロトタイプ サンプルの一部を示しています。

図 6. CIFAR-100 のプロキシ サーバーを介した、元のプロトタイプ サンプル (上段)、摂動されたプロトタイプ サンプル (中段)、および再構成されたプロトタイプ サンプル (下段) の視覚化

実験の紹介

本稿では CIFAR-100、ImageNetSubset、TinyImageNet について実験を行い、比較実験結果を表 3-5 に示します。このうち、△は他の比較手法と比べて本モデルが改善していることを表します。FCIL 設定では、モデルが既存のクラス増分法の平均精度を 4.4% ~ 15.1% 上回っていることがわかります。これにより、私たちのモデルがローカル クライアントがグローバルなクラス増分モデルを共同でトレーニングできることが検証されます。さらに、他の方法と比較して、私たちのモデルはすべての増分タスクで安定したパフォーマンスの向上を示しており、FCIL の忘却問題を解決する際のモデルの有効性が検証されています。

さらに、著者らは、GLFC のパフォーマンスを検証するために、ベンチマーク データセットのさまざまな増分タスク (T=5、10、20) の定性分析を実行します。これらの曲線によれば、さまざまなタスク番号設定 (T=5、10、20) の下で、すべての増分タスクにおいて、モデルが他のベースライン手法よりも優れたパフォーマンスを発揮することが簡単に観察できます。これは、GLFC モデルが、ローカルおよびグローバルの忘却に同時に対処しながら、複数のローカル クライアントが新しいクラスをストリーミング形式で学習できることを示しています。図 7 と 8 に示すように。

異種混合のフェデレーテッド ラーニングで他者から学び、自分らしく

フェデレーション ラーニングは重要な分散学習パラダイムとして浮上しており、多くの場合、他者との共同更新やプライベート データのローカル更新が含まれます。ただし、異質性の問題と壊滅的な忘却は、フェデレーション ラーニングにとって課題となっています。まず、非 IID データと異種構造により、他のドメインのモデルのパフォーマンスが低下し、参加者のモデルとの通信障壁が生じます。第 2 に、ローカル更新ではモデルがプライベート データに基づいて個別に最適化されるため、現在のデータ分布に容易に過剰適合し、以前に取得した知識を忘れてしまい、致命的な忘却につながる可能性があります。この論文では、Federated Cross-Correlation and Continual Learning (FCCL) を提案します。異質性の問題については、FCCL は通信にラベルのない公開データを活用し、相互相関行列を構築してドメイン シフトの一般化可能な表現を学習します。一方、致命的な忘却に対して、FCCL はローカル更新での知識の蒸留を利用して、プライバシーを明らかにすることなくドメイン間およびドメイン内の情報を提供します。著者らは、さまざまな画像分類タスクの経験的結果を通じて、私たちのアプローチの有効性とモジュールの効率を実証します。

標準的な連合学習セットアップに従って、K 人の参加者 (i でインデックス付け) があり、それぞれがローカル モデル θ_i とプライベート データ D_i = {(X_i,Y_i)|X_i∈R^(Ni×D) , Y_i∈R^( Ni×C) } ここで、N_iはプライベートデータの数を表し、Dは入力サイズを表し、Cは分類するカテゴリの数として定義されます。一方、プライベートデータ分布をP_i (X,Y)と表記し、P_i (X|Y) P_i (Y)と書き換える。さらに、異種フェデレーテッド ラーニングでは、データの異質性とモデルの異質性は次のように定義されます。

  • データの異質性。P_i (X|Y )≠P_j (X|Y )。プライベート データ間にはドメイン シフトが存在します。つまり、プライベート データの条件付き分布 P(X|Y) は、P(Y) が共有されているにもかかわらず、異なる参加者間で異なります。具体的には、同じラベル Y が、異なるドメインで異なる特徴 X を持ちます。

  • モデルの不均一性: 形状 (θ_i) ≠ 形状 (θ_j )。参加者はモデルを個別にカスタマイズします。つまり、分類タスクの場合、選択されたバックボーン (ResNet、EfficientNet、MobileNet など) は分類子モデルによって異なります。

著者らは、ラベルなしの公開データ D_0={X_0|X_0∈R^(N0×D)} を利用して通信を実現しています。実際のシナリオでは、公開データを比較的簡単に入手できます。最初の参加者の目標は、コミュニケーションを達成し、一般化可能なモデル θ_i を学習することです。さらに、壊滅的な問題を考慮すると、θ_k はドメイン間およびドメイン内のパフォーマンスがより高く、より安定する必要があります。私たちの手法のフレームワークを図 9 に示します。具体的には、共同更新では、著者らはラベルなしの公開データの出力ロジット間の相互相関行列を測定して、類似性を達成し、冗長性を削減します。一方、ローカル更新では、知識の蒸留を通じて複数のドメインからの情報のバランスが継続的に保たれます。

連邦相互関連学習

次元レベルの操作のインスピレーション。 著者らは、情報のボトルネックを伴う自己教師あり学習の成功体験に触発されて、一般化可能な表現は、サンプルに適用されるドメイン固有の変換の影響をできるだけ受けずに、画像についてできる限り情報を提供する必要があると提案しています。この研究では、ドメイン シフトにより、同じラベル Y が異なるドメインで異なる特徴 X を持つようになります。したがって、異なるドメインのロジット出力は、バッチ ディメンションに沿って異なる方法で分散されます。さらに、さまざまな次元のロジット出力はさまざまなカテゴリに対応します。したがって、同じ次元では不変性を、異なる次元では多様性を奨励する必要があります。プライベート データはドメイン固有の情報を運び、プライバシーが保護されます。これは自己教師あり学習には不適切であり、実行不可能です。したがって、私たちはラベルのない公開データを活用します。これらのデータは、多くの場合、複数のドメインから生成および収集され、すぐに利用できます。ロジット出力がドメイン シフトの影響を受けないことを要求し、ラベルのないパブリック データのロジット出力のさまざまな次元を変更することにより、プライベート モデルを最適化します。

相互相関行列の構築。 具体的には、i 番目の参加者の logits 出力を取得します。Z_i = f (θ_i, X_0) ∈ R^(N_0×C) 。ラベルなしの公開データのロジット出力は、i 番目と j 番目の参加者の Z_i と Z_j です。中央サーバー側の計算負荷を考慮して、平均 Logits 出力を計算することに注意してください。

連邦の継続的関連学習

典型的な監督喪失。 フェデレーテッド ラーニングにおけるローカル更新の場合、現在のアプローチでは通常、このプロセスが教師あり分類問題として扱われます。具体的には、協調更新後のt回目の通信において、i番目のプライベートモデルを(θ^t,im)_iと定義する。次に、固定エポックのプライベートデータ D_i (X_i, Y_i) に対して (θ^t,im)_i を最適化します。次のロジット出力があるとします。

ドメイン内知識の蒸留損失は次のように定義されます。 

事前トレーニングされたモデルによる知識の蒸留により、ソフトで豊富なドメイン内情報が提供されます。さらに、式 (14) の典型的な教師あり損失 (つまり、クロスエントロピー損失) と連携して、ドメイン内のパフォーマンスを保証するためのソフトおよびハードのドメイン内情報を提供します。ある程度、上記 2 つのモデル (更新モデル (θ^t-1)_i と事前学習モデル (θ^∗)_i) は、それぞれ教師間モデルと教師内モデルを表します。知識の蒸留により、他者と自己の知識のバランスがとれ、同時にドメイン間のパフォーマンスが向上します。デュアルドメイン知識蒸留の計算方法は次のとおりです。 

式 (14) の典型的な教師付き損失と式 (17) のデュアルドメイン知識蒸留損失は相互に補完的です。前者はモデルが分類タスクに意味のある識別表現を学習する必要があるのに対し、後者はドメイン内およびドメイン間のソフトリッチな情報を使用してモデルを正規化するのに役立ちます。したがって、全体的なトレーニング目標は次のとおりです。 

完全な FCCL プロセスは次のとおりです。 

実験の紹介

著者らは、2 つの分類タスク (Digits や Office-Home など) と 3 つの公開データセット (Cifar-100、ImageNet、および Fashion-MNIST など) に関して私たちの手法を広範囲に評価しています。具体的には、Digits タスクには 4 つのドメイン (MNIST(M)、USPS(U)、SVHN(SV)、および SYN(SY)) が含まれており、合計 10 のカテゴリがあります。Office-Home タスクにも 4 つのドメイン (アート (A)、クリップ アート (C)、製品 (P)、および現実世界 (R)) があります。どちらのタスクでも、異なるドメインから取得されたデータはドメイン シフト (データの異質性) 特性を示すことに注意してください。どちらの分類タスクでも、参加者に合わせたモデルを、差別化されたバックボーンや分類子から区別できます (モデルの異質性)。実験では、著者らはこれら 4 つのドメインのモデルを ResNet、EfficientNet、MobileNet、GoogLeNet として設定しました。著者らは、FCCL を、FedDF、FML、FedMD、RCFL、FedMatch などの最先端の手法と比較しています。さらに、参加者がフェデレーテッド ラーニングを行わずにプライベート データに基づいてモデルをトレーニングする SOLO も比較されます。特定の実験設定が完全​​に一致しているわけではないため、著者らは比較のためにいくつかの方法の重要な特徴を保持しています。

評価指標。 著者らは、メソッドの品質を測定するための標準的な指標である精度を報告しています。これは、ペアになったサンプルの数をサンプル数で割ったものとして定義されます。具体的には、ドメイン内およびドメイン間のパフォーマンスを評価するために、次のメトリックが定義されます。

ドメイン間分析。表 6 は、さまざまな方法のドメイン間のパフォーマンスを示しています。ドメイン シフトを使用すると、SOLO はこれら 2 つのタスクで最悪のパフォーマンスを発揮します。FCCL が他の同様の方法よりも大幅に優れていることがわかります。図 10 は、FCCL が参加者全体で同様のロジット出力とロジット出力の冗長性を達成していることを示しており、FCCL がパブリック データとプライベート データの両方で同じ次元の相関と異なる次元の相関を正常に実行していることを確認しています。 

表 6. ドメイン間のパフォーマンスと最先端の方法との比較。M → は、プライベート データが MNIST であり、それぞれのモデルが他のドメインでテストされていることを示します。AVG は、各フィールドから計算された平均精度を表します。 

図 10. Cifar-100 を使用した、さまざまなドメインの数値タスクの相互相関行列の視覚的分析

ドメイン内分析。 壊滅的な忘却を軽減する有効性を比較するために、表 7 にさまざまな方法のドメイン内パフォーマンスを報告します。Cifar-100 の Digits タスクを例にとると、この論文の方法は RCFL より 2.30% 優れています。さらに、図 11a の通信ラウンドのドメイン内精度と図 11b の最適化目標値を増加させることにより、FCCL が周期的なパフォーマンスへの影響を受けることが少なくなり、現在のデータ分布 (L^Loc) に過剰適合する傾向が少なくなることを示しています。 = 0.0225)、FCCL が複数種類の知識のバランスをとり、壊滅的な忘却を軽減できることを示しています。

モデルの均一性分析。 著者らはさらに、モデルの均一性について FCCL を他の方法と比較しています。共有モデルを ResNet-18 に設定し、共同更新とローカル更新の間に平均パラメーター操作を追加します。表 8 はドメイン間およびドメイン内のデータをリストしており、Office-Home タスクにおける Cifar-100 のドメイン間およびドメイン内のパフォーマンスを示しています。 

FedSpeech: 継続的な学習を備えたフェデレーテッド テキスト読み上げ 

フェデレーテッド ラーニングにより、厳格なプライバシー制約の下で機械学習モデルの共同トレーニングが可能になります。一方、フェデレーテッド テキスト読み上げアプリケーションは、デバイス上にローカルに保存された少数の音声トレーニング サンプルを使用して、複数のユーザーからの自然な音声を合成することを目的としています。ただし、フェデレーテッド テキスト読み上げにはいくつかの課題があります。話者ごとのトレーニング サンプルがほとんどないこと、トレーニング サンプルが各ユーザーのローカル デバイスに保存されること、グローバル モデルがさまざまな攻撃に対して脆弱であることです。この論文では、前述の問題を克服するための継続学習アプローチに基づいた、フェデレーテッド多言語テキスト読み上げ TTS システムである、Fed-Speech と呼ばれる新しいフェデレーテッド ラーニング アーキテクチャを提案します。詳細は次のとおりです。 1) 選択的マスキングを使用すると、FedSpeech は共同トレーニングから効果的に恩恵を受け、限られたトレーニング データの影響を軽減できます。2) プログレッシブ プルーニング マスクを使用して、さまざまな話者のパラメータを分離し、壊滅的な忘却の問題を克服します。したがって、FedSpeech はすべての話者のイントネーションの抑揚の問題を回避します。3) プライベート スピーカーの埋め込みを上記 2 種類のマスクと組み合わせて導入し、プライバシーを保護し、スピーカーに対するさまざまな攻撃を回避します。スケールダウンした VCTK データセット (リソースが少ない言語シナリオをシミュレートするために、話者あたりトレーニング セットを 4 分の 1 に縮小) での実験では、FedSpeech が音声品質の点で上限のマルチタスク トレーニングにほぼ匹敵し、すべてのシステムよりも大幅に優れていることがわかりました。話者の類似性実験で。

モデル構造

FedSpeech の全体的なモデル構造を図 12 に示します。エンコーダは音素埋め込みシーケンスを音素潜在シーケンスに変換し、次に持続時間やイントネーションなどのさまざまな差分情報を潜在シーケンスに追加します。最後に、適応された潜在シーケンスはメロディースペクトルデコーダによってメロディースペクトルシーケンスに変換されます。エンコーダとメロディースペクトログラムデコーダの基本構造として、FastSpeechのセルフアテンション層と1D畳み込みフィードフォワードネットワークを重ね合わせたフィードフォワードトランスフォーマーモジュールが使用されています。さらに、より多くの情報を導入するために、ピッチ予測子と持続時間予測子が採用されています。各ネットワークは、ReLU アクティベーションを備えた 2 層 1D 畳み込みネットワーク、その後に層正規化層と DropOut 層、および隠れ状態を出力シーケンスに投影するための追加の線形層で構成されます。トレーニング段階では、録音から抽出された継続時間とイントネーションのグランドトゥルース値が、ターゲット音声を予測するための潜在シーケンスへの入力として使用されます。同時に、実際の継続時間とピッチ値をターゲットとして使用して、予測子がトレーニングされます。これらの出力を推論に使用して、ターゲット音声を合成します。

 図 12. FedSpeech の全体的なアーキテクチャ。+ は要素を追加する操作を表します

潜在空間から話者の特徴​​を推定することで音声を制御し、プライバシーを保護するために、著者らはプライベート スピーカー モジュールを導入しました。これは、話者の識別番号 S_id を入力として受け取り、話者表現 R={r_1, r_2, を生成する学習可能なルックアップ テーブルです。 ..., r_n}、ここで n はモデルの潜在空間サイズです。次に、話者表現 R が、トレーニングと推論でイントネーション特徴を制御するための追加のキー情報としてエンコーダーの出力に渡されます。プライバシーの問題を考慮して、各話者は独自のモジュール パラメータのセットをトレーニングおよび維持するため、たとえ自分の S_id を使用しても他の人が自分の声を合成することはできません。

図 13. FedSpeech を使用した 2 ラウンドのトレーニング。最初のラウンドでは、マスクが段階的に枝刈りされて、各スピーカーの重みが分離されます。特定の話者に対して予約されている重みがしきい値よりも小さい場合、モデルは拡大されます。2 番目のラウンドでは、スピーカー 2 を例として取り上げます。選択的マスクは、他の話者のために予約された重みからの知識を再利用するように訓練されています

この手法には壊滅的な忘却の問題があるため、この論文ではフェデレーション集約トレーニングの手法は採用しません。図 13 に示すように、著者らは継続学習で一般的に使用される継続トレーニング設定を採用しました。古典的な設定に基づいて、この論文では 2 ラウンドの連続トレーニングを提案します。トレーニングの最初のラウンドでは、モデルは各話者の重みの一部を個別に学習して固定します。そのため、トレーニングの 2 ラウンドでは、前後の話者の知識を選択的に再利用できます。

具体的には、トレーニングの最初のラウンドでは、図 13 のプログレッシブ プルーニング マスクが計算されて、各話者のパラメータが分離されます。1 から N までのスピーカーを S_1:N と表します。S_1:N のタスクを T_1:N と表記します。S_t を例に挙げます。T_t が開始すると、グローバル モデル M_g が最初に S_t に送信され、収束するまでプライベート データを使用してトレーニングされます。層 i の学習重み行列を (W^l_i)_1 と表します。次に、各層 (W^l_i)_1 の最小の重みの一部を徐々に取り除き、それらを 0 に設定し、他の重みを再トレーニングしてパフォーマンスを回復します。最後に、重みは 3 つの部分に分割されます: 1) 後の話者によって解放されたゼロ値の重み S_t+1:N; 2) 前の話者によって予約された固定重み (W^1:t-1)_S S_1:t-1 。 3) S_t によって予約された重み W^t_S。後の話者のリリース重み S_t+1:N が閾値 λ より小さい場合、モデルの隠れサイズは μ に拡張されます。枝刈り状態は、m_p で示されるプログレッシブ枝刈りマスクに格納されます。次に、W^t_S を修正し、m_p と M_g (プライベート スピーカー モジュールを除く) を次のスピーカー S_t+1 のデバイスに送信して、逐次トレーニングを続行します。最初のラウンドが終了すると、各話者は (W^1:N)_S で示される重みの特定の部分を保持し、m_p で示されます。重みはタスクごとに固定されているため、各話者は推論時にイントネーションを完全に保持します。最後に、m_p と Mg を S_1:N のデバイスに送信します。したがって、各スピーカーは m_p、M_g、および彼が保持するプライベート スピーカー モジュールのパラメーターを持ちます。

トレーニングの 2 ラウンド目では、データ不足の問題に対処するために話者の知識を伝達するために選択的マスクが導入されます。図 13 の選択性マスクは、自動スピーカー選択に役立つ重みとしてトレーニングされています。著者らは、フェデレーション TTS タスクの各話者 (特に以前の話者) にとってより公平となる、すべてのタスクから重みを選択する修正された選択手順を提案しています。特定の話者 S_t の場合、2 ラウンドのトレーニングにより W^t_S と選択マスクの統合トレーニングが破棄され、パフォーマンスがわずかに低下します。ただし、スピーカーごとに、前後のタスクから重みを選択できるようになり、全体的なパフォーマンスが大幅に向上します。

最初のラウンドが終了したときに、M_g の重みがいくつかの部分 (W^1:N)_S に分割され、これらの部分が S_1:N によって保存されるとします。プライバシーを維持しながら共同トレーニングの恩恵を受けるために、著者らは、他の話者が保持するパラメータの知識を伝達するための学習可能なマスク m_b ∈ {0, 1} を導入しました。この論文では、ピギーバック法を使用し、実数値マスク m_s を学習し、二値化のしきい値を適用して m_b を構築します。特定の話者 S_t について、マスク (m^t)_b は、次の方法で他の話者の位置から選択された重みを使用して、そのローカル データセットでトレーニングされます。

簡単にするために、著者は S_t の例を使用して推論フェーズを説明します。これで、S_t には m_p、(m^t)_b、M_g のパラメータとローカルに保存されたスピーカー モジュールが含まれます。m_p を使用して重み W^t_S を選択し、(m^t)_b を使用して (W^1:t-1)_S∪(W^t+1:N)_S からの重みを選択的に再利用します。S_t のイントネーションを損なわないように、未使用の重みはゼロに固定されます。FedSpeech を使用した 2 ラウンドのトレーニングの全体的なプロセスについては、アルゴリズム 1 を参照してください。 

結果の分析

著者らは、さまざまなアクセントを持つ 109 人の英語ネイティブ スピーカーが話した約 44 時間の音声を含む VCTK データセットで実験を実施しました。各話者は、新聞から選ばれた約 400 の文に加えて、「虹の伝説」と話者のアクセントを認識するように設計された引き出し文を読み上げました。低リソースの言語シナリオをシミュレートするために、各話者のサンプルがランダムに選択され、トレーニング用の 100 サンプル、検証用の 20 サンプル、テスト用の 20 サンプルの 3 つのグループに分割されます。著者は、評価のためにタスク 1 ~ 10 として示される 10 人の話者をランダムに選択しました。発音の間違いの問題を軽減するために、著者らはオープンソースの文字から音素への変換ツールを使用して、テキストシーケンスを音素シーケンスに変換します。著者らは、生の波形をメル スペクトログラムに変換し、フレーム サイズとジャンプ サイズを 1024 と 256、サンプリング レートを 22050 に設定しました。

著者は、オーディオ品質を測定するためにテストセットの MOS (平均意見スコア) を評価します。異なるモデル間の設定とテキストの内容は一貫しているため、他の干渉要因を排除し、音声品質のみを検査します。各音声は 10 人の英語ネイティブ スピーカーによって審査されました。著者らは、モデルによって生成されたオーディオ サンプルの MOS を、以下を含む他のシステムと比較します。 1) GT、VCTK のグラウンド トゥルース オーディオ。2) GT (Mel + PWG)、最初にグラウンドトゥルース オーディオをメル スペクトログラムに変換し、次に ParallelWaveGAN (PWG) を使用してメル スペクトログラムをオーディオに変換; 3) プライバシー制限のないマルチタスクのフェデレーテッド トレーニング; 4) スクラッチ、各タスクを独立してゼロから学習します。 5) Finetune、ランダムに選択された以前のモデルから微調整し、5 回繰り返します (タスク 1 の場合、Finetune はスクラッチに相当します)。6) FedAvg。ローカル情報 (勾配やモデル パラメーターなど) を集約し、グローバル モデルをトレーニングします。7) CPG、継続学習のためのパラメータ分離方法。著者らは 3) を上限、その他をベースラインとしています。同様に、3)、4)、5)、6)、7) および FedSpeech のすべてのシステムは、公正な比較のために、事前にトレーニングされた PWG をボコーダーとして使用します。MOS の結果を表 9 に示します。表から、FedSpeech がすべてのベースラインと比較して最高の MOS を達成していることがわかります。FedSpeech が CPG よりも優れていることは言及する価値があり、これは前後の講演者からの知識を選択的に再利用することの有効性を示しています。さらに、FedAvg の結果は他の方法よりも大幅に悪く、他のスピーカーからの勾配が各スピーカーの音質に大きく影響することを意味します。さらに、VCTK 上の FedSpeech の MOS 値は、マルチタスク トレーニングの MOS 値 (上限) に近くなっています。これらの結果は、フェデレーション多言語 TTS タスクにおける FedSpeech の優位性を示しています。

表 9. MOS と 95% 信頼区間。

著者は、テスト セットでスピーカーの類似性評価を実行し、合成オーディオとグラウンド トゥルース オーディオの類似性を測定します。他の交絡因子を排除するために、著者はさまざまなモデルでテキストの内容の一貫性を維持しています。各タスクについて、著者らはエンコーダを活用して、話者の声の特徴を要約する高レベルの表現ベクトルを導き出します。具体的には、エンコーダは、話者のイントネーションの埋め込みを抽出するために事前にトレーニングされた投影を備えた 3 層 LSTM です。コサイン類似度は、話者表現ベクトルの類似性を測定するための基準であり、cos sim (A, B) =A - B/kAk kBk として定義されます。結果の範囲は -1 から 1 であり、値が大きいほどベクトルが類似していることを示します。著者らは、評価基準として、合成音声とグラウンドトゥルース音声の話者表現ベクトル間のコサイン類似度を計算しています。

最終的な実験結果を表 10 に示します。FedSpeech は、マルチタスクの上限を超えても、最も高い平均スコアを持っています。これは、FedSpeech が推論段階で各話者の音声をより適切に保存できることを意味し、パラメーター分離の有効性を示しています。また、タスク 1 では、FedSpeech の結果が CPG の結果よりも大幅に高くなっています。前後の話者の知識を選択的に再利用することで話者に大きなメリットがもたらされ、すべての話者がフェデレーテッド多言語 TTS タスクでより良い音声を実現できることがわかります。

表 10. ベースラインと FedSpeech の間の話者の類似性の比較。平均は 10 個のタスクの平均を指し、γ は 256 の暗黙的サイズの FedSpeech と比較したモデル拡張率を指します。

オーディオ品質を測定するために、著者らは MOS 評価を実行し、各オーディオを 10 人の英語ネイティブ スピーカーが評価しました。表 11 に示すように、プログレッシブ プルーニング マスクの削除も選択マスクの削除も、重大な品質の低下を引き起こしませんでした。これは、プログレッシブ プルーニング マスクによって保存された重みを選択マスクが自動的に選択する機能を備えていることを意味します。ただし、両方のタイプのマスクを削除すると、致命的な品質の低下が発生します。さらに、著者らは話者の類似性評価を実行しました。表 11 に示すように、これらの選択性マスクまたはプログレッシブ プルーニング マスクをわずかに削除するとパフォーマンスがわずかに低下し、両方のマスクを削除すると致命的な低下が生じます。プログレッシブ プルーニング マスクが各話者のイントネーションを完全に保持していることがわかります。さらに、選択マスクにはプログレッシブ プルーニング マスクによって保存された重みを自動的に選択する機能があり、それらを組み合わせることでより良い結果が得られます。

表 11. アブレーション実験における MOS とスピーカーの類似性の比較。SM は選択的マスクを指します。GPM はプログレッシブ プルーニング マスクを指します。類似度はコサイン類似度です。

今後の研究として、著者らは合成音声の品質を向上し続け、モデルを圧縮してトレーニングを高速化するための新しいマスキング戦略を提案することを提案しています。さらに、プライベート スピーカー モジュールを使用してマスクを生成することにより、FedSpeech をゼロショット マルチスピーカー セットアップに適用します。ワオソフト アイオット http://143ai.com

この記事の概要

この記事では、フェデレーション継続学習に関連する 4 つの最近の論文を簡単に分析します。これら 4 つの記事の焦点は、フェデレーション ラーニング フレームワークの下で異なるクライアント間の相互干渉の問題を解決することです。具体的には、パラメーターをグローバル パラメーターとローカル パラメーターに分解し、デバイスに保存されているデータのカテゴリ認識とカテゴリ セマンティクスに焦点を当てることを選択します。さまざまなデータドメイン間の関係のバランスを取るための蒸留などの方法は、この論文で示されたシナリオで良好な結果を達成しました。ただし、これらの記事はいずれも、このアプローチで発生する可能性のあるコミュニケーションコストの分析に焦点を当てていません。データプライバシー保護に対する現在の高い要件の下で、データ分析とアプリケーションの要件をより適切に満たすために、フェデレーテッド継続的学習の実用性についてはさらなる研究が必要です。

おすすめ

転載: blog.csdn.net/qq_29788741/article/details/131355242