(2023、ネットワーク プルーニング) 少数ショット画像生成における互換性のない知識伝達の探索

少数ショット画像生成における互換性のない知識伝達の探索

公式アカウント:EDPJ

目次

0. 概要

1 はじめに

2.関連作品

3. 基本

4. FSIG における互換性のない知識伝達

4.1 矛盾する知識の調査

4.2 実験のセットアップ

4.3 結果と分析

5. 提案されるアプローチ 

5.1 ネットワークプルーニングによる知識の切り捨て 

5.2 設計の選択

6. 実験

6.1 性能評価と比較

6.2 議論

7. 結論

付録 

F. アブレーションの研究: 重要度の高いフィルターの効果

H. アブレーション研究: 重要な追加の尺度

参考

S. まとめ

S.1 主なアイデア

S.2 ネットワークのプルーニング


0. 概要

少数ショット画像生成 (FSIG) は、少数 (例: 10) の参照サンプルを使用して、ターゲット ドメインから多様で忠実度の高い画像を生成する方法を学習します。既存の FSIG メソッドは、ターゲット ジェネレーターを学習するために、ソース ジェネレーター (関連ドメインで事前トレーニング済み) からの事前知識を選択、保存、転送します。この研究では、合成サンプルの信頼性を大幅に低下させる可能性がある、互換性のない知識伝達と呼ばれる FSIG の未調査の問題を調査します。経験的な観察によれば、この問題はソース ジェネレーター内の最も重要度の低いフィルターに起因していることがわかります。この目的を達成するために、FSIG でこの問題を軽減するために、知識の切り捨てを提案します。これは、知識の保存を補完する操作であり、軽量の枝刈りベースのアプローチによって実装されます。広範な実験により、知識の切り捨てがシンプルかつ効果的であり、ソース ドメインとターゲット ドメインが遠く離れた難しい設定を含め、常に最先端のパフォーマンスを達成できることが実証されています。

1 はじめに

互換性のない知識の伝達さまざまな知識保存方法によって達成された目覚ましい改善にもかかわらず、この研究では、互換性のない知識の伝達を防ぐことも同様に重要であると主張します。この互換性のない知識伝達は、予期しない意味論的特徴の存在下で綿密に設計された調査によって明らかになります。これらの特徴はターゲット ドメインと一致しないため、合成サンプルの現実性が低下します。図 1 に示すように、樹木や建物は Sailboat のドメインと互換性がありません (10 個の参照サンプルを調べることで確認できます)。ただし、既存の SOTA メソッド [41、75] を Church でトレーニングされたソース ジェネレーターとともに適用すると、合成画像に表示されます。これは、既存の方法では互換性のない知識の伝達を効果的に防止できないことを示しています。 

知識の切り捨て私たちの観察に基づいて、FSIG 適応中にエンコーディングに互換性のない知識 (つまり、適応の重要性が最も低いと推定されるフィルター) を削除するための軽量フィルター プルーニング ベースの方法である、互換性のない知識の削除 (RICK) を提案します。フィルター プルーニングは、計算量を削減してコンパクトなディープ ネットワークを実現するために広く使用されていますが、互換性のない知識の伝達を防止するためのその応用は十分に検討されていません。私たちが提案する知識の切り捨てと互換性のないフィルターの枝刈りは、FSIG の既存の知識保存方法と直交しており、補完的であることに注意してください。このようにして、私たちの方法は以前の研究と比較して互換性のない知識を効果的に削除し、生成された画像(FIDなど)の品質を大幅に向上させます。

2.関連作品

最近の最先端の方法では、適応のためにある程度の知識を保持することが提案されています。

  • FreezeD は適応のために識別子のいくつかの下位層を修正します
  • EWC はソース タスクの重要なパラメータを特定し、重みの変更にペナルティを課します
  • CDC は、適応の前後で生成された画像間の距離を一定に保つことを目的としています。
  • DCL は、同じ入力潜在コードから生成されたソース画像とターゲット画像の間の相互情報を最大化し、知識を保存します。
  • 最近、AdAM は、ターゲット ドメインにとって重要なソース知識を特定し、適応のために知識を保持するための変調ベースのアプローチを提案しています。

3. 基本

既存の FSIG 手法は転移学習 (TL) 手法を採用し、大規模なソース データセットで事前トレーニングされたソース GAN を利用します。ソースジェネレータを Gs (ソースディスクリミネータを Ds) と表します。適応プロセス中、ターゲット生成器 Gt (ターゲット弁別器 Dt) は、敵対的損失 L_adv を介して少数のターゲット画像上でソース GAN を微調整することによって取得されます。

ここで、z はノイズ分布 p_z(z) (ガウス分布など) からサンプリングされた 1 次元の隠れコードであり、p_data(x) は少数ショットのターゲット データ分布を表します。ソースデータにはアクセスできないことに注意してください。微調整では、Gs (および Ds) の重みを使用して Gt (および Dt) を初期化します (図 1(a) を参照)。FSIG の主な目標は、Gt が p_data(x) をキャプチャすることを学習することです。 

ターゲットサンプルが非常に限られていることに起因するモード崩壊を軽減するために、最近のアプローチでは、フリーズ、正則化、変調ベースの方法など、適応中にソース知識のサブセットを慎重に選択して保存するための知識保存による微調整が強化されています。これらの方法は、オブジェクト サンプル生成の多様性を高めるなど、オブジェクト ジェネレーターに役立つと考えられる知識を保存することを目的としています。あまり有用ではないと考えられる知識については、式 1 を使用して微調整することが一般的であり、適応プロセス中にそのような知識を更新します。

4. FSIG における互換性のない知識伝達

このセクションでは、最初の貢献として、既存の FSIG 手法における互換性のない知識伝達の気づかれない問題を観察および特定し、微調整ベースの知識更新では適応後に互換性のない知識を除去するのに十分ではないことを明らかにします。

私たちの主張を裏付け、互換性のない知識伝達の根本原因を見つけるために、異なる画像認識フィルターと特定のオブジェクト クラス (ツリーなど) のセマンティック セグメンテーション フレームワーク間の対応である GAN 解剖を適用して、微調整後に互換性のない知識を保持するフィルターを明らかにします。

4.1 矛盾する知識の調査

以前の SOTA FSIG メソッドは、少数ショット適応のために事前トレーニングされたソース知識を選択するためのさまざまな知識保存基準を提案しています。適応は通常、少数のターゲット サンプルを使用してソース ジェネレーターを (式 1 を介して) 微調整することによって行われます。これらの方法における前提の 1 つは、微調整によってソース ジェネレーターをターゲット ジェネレーターに適合させることができるため、無関係で互換性のないソースの知識を削除または更新できるということです。

この研究では、ソース ドメインとターゲット ドメインが意味的に離れている場合 (たとえば、図 1 の人間と猫の顔)、互換性のない知識伝達が生成された画像の信頼性を著しく損なう場合、この仮定が無効になることを示します。以前の SOTA FSIG の研究では、主にソースからの知識の保存 (セクション 2 を参照) に焦点を当てており、微調整ベースの知識の更新と互換性のない知識の伝達にはほとんど注意が払われていないため、これについては十分に研究されていないことに注意します。

畳み込みニューラル ネットワークでは、各フィルターは知識の特定の部分のエンコードと見なすことができます。直感的には、生成モデルでは、そのような知識は低レベルのテクスチャ (毛皮など) または人間が解釈可能な高レベルの概念 (目など) である可能性があります。したがって、ジェネレーターのフィルターに焦点を当てることで、互換性のない知識伝達の手がかりが見つかる可能性があると仮説を立てます。最近、AdAM は、ソース GAN フィルターが適応にとって重要かどうかを判断する重要性プローブ (IP) 方法を提案し、優れたパフォーマンスを達成しました。私たちの分析では、IP を使用して、ターゲット ドメインの適応のためのソース ジェネレーター フィルターの重要性を評価します (補足で IP を簡単に紹介します)。粒度の異なる 2 つの実験を提案します。

  • Exp-1: 固定ジェネレータ入力を使用して画像を生成します生成された画像をさまざまな方法で視覚化します。適応前後の知識伝達を理解するために、ソースとターゲットのジェネレーターへの入力として同じノイズを使用します。概念的には、これにより、知識の伝達を直感的かつ直接的に比較することができます。
  • Exp-2: 事前学習済みの適応ジェネレーターを分析するさまざまな画像にわたって特定の種類の知識に最も関連するフィルター (ターゲットと互換性のないソース特徴など) を見つけ、適応の前後でその転送を追跡するために、推定された重要度 (IP 経由) で Gs フィルターにラベルを付けます。 GAN 解剖は、Gs と Gt の同じフィルターに対応する意味論的特徴を視覚化するために適用されます。
  • これらの実験は、粗粒度 (ピクセル空間で生成された画像の視覚化) および粒度の細かい (フィルター空間での Gs と Gt の分析) 適応の前後の知識伝達を理解するのに役立ちます。次に、セットアップと結果について説明します。

4.2 実験のセットアップ

4.3 結果と分析

ソース知識の保存に焦点を当てた既存の SOTA FSIG アプローチが、互換性のない知識の移転につながることを明らかにします。さらに重要なのは、この互換性のない知識伝達の根本原因は、G 内の最も重要度の低いフィルターがターゲット ドメインの適応に無関係であると判断され、適応後に互換性のない知識を除去するには微調整だけでは十分ではないことです。具体的には、観察結果を図 1 と図 2 にまとめます。

  • 観察 1 : 図 1 (c) では、固定ノイズ入力を使用して、さまざまな方法で生成された画像を視覚化します。興味深いことに、ターゲットドメインと互換性のない特徴は、さまざまな知識保存基準を使用して適応後に実際に転送されます。たとえば、「海の木」(「木」は教会ドメインからのものです)、「眼鏡をかけた猫」(「眼鏡」が来ているもの) FFHQフィールドから。これらすべての互換性のないソース フィーチャは、生成されたターゲット イメージのリアリズムを大幅に弱めます。同様の観察は、明示的な知識を保存しないシンプルな微調整ベースのアプローチである TGAN でも行うことができます。それどころか、私たちの方法 (セクション 5 で説明します) はこの問題を解決できます。
  • 観察 2 : 図 2 では、図 1 で観察された互換性のない特徴を分析して視覚化し、Gs と Gt で最も関連性の高いフィルターを見つけます。驚くべきことに、ターゲット ドメインにとって最も重要ではないと識別された G 内のフィルターが、ソースから転送された互換性のない特徴と最も相関しており、これが生成された画像の信頼性低下の根本原因であることがわかりました。自己適応後も、同じフィルタによって同じタイプの互換性のない機能が発生するため、ナレッジの更新を微調整してもこの問題を効果的に解決することはできません。この観察は、ターゲット ドメインが遠くなるとより顕著になります。

5. 提案されるアプローチ 

5.1 ネットワークプルーニングによる知識の切り捨て 

プルーニングは、より大規模な完全モデルと同等のパフォーマンスを備えたコンパクトなニューラル ネットワークを実現するための便利なツールの 1 つです。圧縮ネットワークに関する初期の研究は、モデルの高速化、推論効率、展開に焦点を当てており、多くの場合最も重要度の低いニューロンを削除することによって、画像分類や機械翻訳などの識別タスクを対象としていました (重要性の定義は異なる場合があり、セクション 5.2 で説明します)。 。モデルのスパース性を追求した以前のネットワーク プルーニング作業と比較して、ターゲット ドメインの互換性のない知識に関連する最も重要度の低いフィルターを削除することで、特に FSIG タスクで生成される画像の品質を向上させることを目指しています。

我々が提案する方法は、2 つの主なステップで構成されます: 1) 適応中にオンザフライで軽量フィルタの重要性を推定する; 2) 推定された重要性に基づいてフィルタ アクションを決定します。ステップ 1) では、適応プロセス中に勾配情報を使用して、一定の反復回数ごとにターゲット適応に対するフィルターの重要性を評価します。次にステップ 2) では、推定されたフィルターの重要性に基づいて、ターゲット ドメインに無関係であると考えられる最も重要度の低いフィルターを除去し、適応のために互換性のない知識を削除します。一方、FSIG での知識の保存を実現するために重要度の高いフィルターを保持し、ソース ジェネレーターをターゲット ドメインに適応させるために残りのフィルターを微調整します。

提案されたフィルター重要度の推定FSIG 適応中の瞬間的な勾配情報を利用して、各フィルターの重要性を推定します。フィルターを次のように表します

ここで、k はフィルターの空間サイズ、c^in は入力特徴マップの次元 (数値) です。各フィルター F( W ) (セクション 5.2 で詳しく説明)の重要度推定量としてフィッシャー情報 (FI) を使用します。これにより、フィルターの重みと FSIG タスクの間の互換性に関する定量的な情報が得られます。

ここで、L_G は、弁別器の出力から計算されたバイナリのクロスエントロピー損失です。x は生成された画像のセットを表します。実際には、計算コストを削減するために FI の一次近似を使用します。 

知識選択のためのフィルター重要度推定は軽量かつ効率的です: さまざまな知識選択基準を提案する以前の SOTA 手法 (知識の保存のみに焦点を当てていますが) と比較して、私たちの手法は適応中に外部モデルを必要としません。追加の学習可能なパラメータや重要度推定のための事前適応反復を導入せず、トレーニング中の Gt と Dt の出力から恩恵を受けます。

フィルター枝刈り提案による知識の切り捨てセクション 4 では、最も重要度の低いフィルターが、ターゲット ドメインと互換性のない意味論的特徴 (例: 「海の樹木」や「海の建物構造」) に関連付けられているという豊富な証拠を示しました。重要なのは、知識保存基準が異なると、微調整ベースの知識更新では適応後に互換性のない知識を正しく削除できないことです。したがって、適応にとって最も重要でないフィルターを取り除く(ゼロにする)ことによって、知識の切り捨てに対するシンプルで新しいアプローチを提案します。

具体的には、ステップ 1) でフィルターの重要性を推定した後、ネットワーク内の i 番目のフィルター W^i に対して、しきい値 (q%、つまり、すべてのフィルター数と比較した重要度の分位数) を適用して、W^ が以下であるかどうかを判断します。私は剪定されるべきです:

フィルタが枝刈りされると決定されると、そのフィルタはトレーニング/推論に参加しなくなり、残りのトレーニング反復では復元されないことに気づきました。知識の切り捨てがジェネレーターとディスクリミネーターに適用され、Gt と Dt に別個のしきい値が使用されます。適応中のフィルターの重要性とプルーニングされたフィルターの「回復不能」特性を定期的に推定するため、式 3 を使用して無効化されたフィルターの数は、適応の終了時に特定の値 p% まで蓄積されます。 

知識の保存に焦点を当て、さまざまな知識の選択基準を提案した以前の研究と同様に、適応重要度の高いフィルターをトレーニング中にフリーズすることで保存します。残りのフィルターについては、式 3 を使用して微調整するだけです。フィルターを微調整する必要があるか、維持する必要があるかは、ターゲットに対するフィルターの重要性によって決まります。重要度の高いフィルターを選択した場合の影響については、補足資料で説明します。適応中にフィルターの重要性を複数回推定するため、フィルターがプルーニングされ復元されない限り、さまざまな評価後に特定のフィルターの操作が変更される可能性があります。

5.2 設計の選択

ここでは、提案した方法の設計上の選択と採用された重要な手段について説明します。フィルターの重要性を特定の反復ごとに動的に評価するため、次の推定まで各フィルターの操作 (「保持」、「微調整」、または「プルーン」) を維持する必要があります。計算コストを削減するために、各フィルターの演算決定 (フィルターの重要性を推定することで得られる) を軽量メモリ バンク M に保持します。高次元フィルター W ごとに、M の対応する演算に記録するのに必要な文字は 1 つだけです。たとえば、主な実験で使用された StyleGAN-V2 の場合、そのジェネレーターには約 30M のパラメーターが含まれています。ここで、M はサイズが約 5,000 の 1 次元配列です。

以前の研究と同様に、適応タスクにおけるネットワーク パラメーター (研究ではフィルター) のパフォーマンスを推定するための重要度の尺度として FI を使用します。クラス顕著性や再構成損失など、適応のためのフィルターの重要性を推定するための他の尺度があることに注意してください。補足資料では、研究を実施し、FI と同様のパフォーマンスを達成できることを経験的に発見しました。さらに、セクション 6.2 では、枝刈りを行わなくても (つまり、フィルターのみを保持または微調整できる)、提案された手法が SOTA 手法と比較して競争力のあるパフォーマンスを達成できることを発見して驚きました。これは、提案された手法の有効性を示唆しています。の動的重要度推定器。

6. 実験

6.1 性能評価と比較

定性的な結果上の図では、比較のために適応の前後でさまざまな方法で生成された画像を視覚化しています。各列では、同じノイズの多い入力から画像が生成されます。ソース ドメインとして FFHQ を使用します。Babies と AFHQ-Cat は、ソースに対するセマンティックな近接性が異なるターゲット ドメインです。私たちの提案した方法は、有用なソース知識を保持しながらターゲットと互換性のない知識を確実に削除することにより、生成された画像の品質を向上させることを示します。 

定量的な結果以前の研究によれば、ターゲット データセット全体には通常約 5,000 枚の画像 (AFHQ-Cat など) が含まれていることを考慮して、適応ジェネレーターを使用して 5,000 枚の画像をランダムに生成し、ターゲット データセット全体と比較して FID を計算します。表 1 に、6 つのベンチマーク データセットの完全な FID 結果を示します。上の図では、10 個のターゲット サンプルにわたる多様性の尺度として内部 LPIPS も計算し、同じチェックポイントを使用して FID を報告します。これらの結果はすべて、私たちが提案した方法の有効性を示しています。

6.2 議論

さまざまな方法に対する知識の切り捨て理想的には、我々が提案する FSIG 知識切り詰めの概念は、パラメータの重要性 (たとえば、我々の手法におけるフィルタの重要性) を推定できる限り、さまざまな手法に適用できます。文献では、EWC と AdAM は、パラメーターの重要性を評価するための異なるアプローチを提案しています。EWC は、G のソース データセット上のパラメーターの重要性を直接推定しますが、AdAM は、変調ベースのアプローチを使用して、ターゲット データセット上の G のパラメーターの重要性を推定します。したがって、表 1 には、提案した知識の切り捨てを EWC と AdAM に適用した結果も示します。私たちの方法では、最も重要度の低いフィルターを削除することで互換性のない知識を効果的に削除できるため、さまざまなデータセットで一貫したパフォーマンスの向上を実現できます。 

さまざまなパーセンテージでフィルタをトリムします私たちは、さまざまな割合のフィルターを枝刈りした場合の影響を経験的に研究しています。図 5 の結果によると、3 つの異なる方法で異なる数のフィルターをプルーニングしました。理想的には、より多くのフィルターを削除すると、一部の重要な知識が削除され、それに応じてパフォーマンスが低下します。したがって、さまざまな設定で 3% (つまり、セクション 5.1 では p=3) フィルターをプルーニングし、大幅かつ安定した改善を達成します。 

互換性のない知識を取り除くために、より長くトレーニングすることはできますか? 理想的には、互換性のない知識を削除する直感的で潜在的に役立つ方法は、単純に長い反復でトレーニングすることです。ただし、補足では、既存の FSIG 手法の場合、ターゲット セットにトレーニング画像が 10 枚しか含まれていないため、より長い反復のトレーニングではジェネレーターがオーバーフィットし、少数のターゲット サンプルを複製する傾向があることを示す研究を行っています。差別者を騙すことができる。生成される画像の多様性は大幅に減少します。したがって、過剰適合が深刻になる前に、互換性のない知識を削除することが重要です。 

7. 結論

この研究では、少数ショット画像生成 (FSIG) の問題に取り組みます。最初の貢献として、既存の SOTA 手法における互換性のない知識伝達という気づかれない問題を明らかにしました。これは、生成された画像のリアリズムの大幅な損失につながります。驚くべきことに、この互換性のない知識伝達の根本原因は、ターゲットの適応にとって最も重要ではないと考えられているフィルターであり、SOTA メソッドをベースにした微調整では適切に対処できないことがわかりました。したがって、我々は、適応度にとって最も重要でないフィルターを枝刈りすることによって、互換性のない知識を排除することを目的とした、新しい概念である FSIG の知識切り捨てを提案します。私たちが提案するフィルター重要度推定は、動的トレーニング プロセスからの勾配情報を活用しており、計算量が軽いです。広範な実験を通じて、提案した方法が異なる GAN アーキテクチャのさまざまな適応設定に適用できることを示します。私たちは、互換性のない知識をほとんど転送することなく、視覚的に心地よい生成画像や、定量的な結果の向上など、新たな最先端のパフォーマンスを実現します。

制限と倫理的問題私たちの実験の規模は以前の研究に匹敵します。それにもかかわらず、知識切り詰めアプローチの拡張、追加のデータセット、GAN を超える生成モデル (変分オートエンコーダーや拡散モデルなど) は将来の作業と考えられます。悪意のあるユーザーが当社の提案する FSIG 手法を使用すると、社会的に悪影響を及ぼす可能性があります。しかし、私たちの研究は、限定されたデータ画像生成についての理解を向上させることに貢献します。

付録 

F. アブレーションの研究: 重要度の高いフィルターの効果

本文では、互換性のない知識伝達の調査に対する私たちの貢献、最も重要度の低いフィルタとの関係、およびこの気づかれない問題に対処するために FSIG が提案した方法を強調します。知識の切り捨てに加えて、以前の研究に従って、適応のために有用なソース知識も保存します。具体的には、ターゲットの適応に重要と考えられるフィルターを凍結して保存します。分位数 (t_h、たとえば 75%) をしきい値として使用して、重要度の高いフィルターを選択します。このセクションでは、ターゲットの適応に最も関連すると考えられるさまざまな数のフィルターを保持することの有効性と影響を示す研究を実施します。結果を表 S1 に示します。この実験ではフィルタを削除しないことに注意してください。

表 S1 に示すように、保存するフィルターの数が異なると、実際にはさまざまな方法でパフォーマンスが向上します。実際には、FFHQ → Babies の場合は t_h = 50%、FFHQ → AFHQ-Cat の場合は t_h = 70% を選択します。この選択は直感的です: 意味的にソースに近いターゲット ドメインの場合、ソースの知識をより多く保持することでパフォーマンスが向上する可能性があります。 

H. アブレーション研究: 重要な追加の尺度

生成タスクにおける評価重みの重要性は、依然として十分に解明されていません。メインペーパーでは、いくつかの以前の研究に従い、重要度推定の尺度としてフィッシャー情報 (FI) を使用し、さまざまなデータセットにわたって優れたパフォーマンスを獲得しました (メインペーパーの表 1 を参照)。ただし、取得された重みに適応タスクがどの程度適切に与えられているかを評価するには、さまざまな方法が存在する可能性があります。文献では、クラス顕著性 (CS) は、勾配情報を利用する FI と同様に、特定の分類決定において特定の入力画像のどの領域/ピクセルが目立つかを推定するツールとして使用されています。したがって、CS は FI に関連している可能性があることに注意してください。なぜなら、CS はどちらも知識の重要度を推定するために勾配にエンコードされた知識を使用するからです。

参考

Zhao Y、Du C、Abdollahzadeh M、他 少数ショット画像生成における互換性のない知識伝達の探索[C]//コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議の議事録。2023: 7380-7391。

S. まとめ

S.1 主なアイデア

この論文では、少数ショット ドメイン適応における互換性のない知識伝達問題について研究します。ターゲット ドメインと一致しないソース ドメイン内のエンティティが、適応後にターゲット ドメインに出現する可能性があり、適応の品質に影響を及ぼします。著者らは、フィルタの重要性に基づいたネットワーク プルーニングを使用して、この問題に対処しています。

S.2 ネットワークのプルーニング

知識伝達に互換性がない理由は、適応に重要ではないフィルタ (重要でない特徴を抽出する) にあり、これらのフィルタを削除することで問題を解決できます。この操作は 2 つのステップに分かれています。 1) 適応のためのフィルターの重要性を推定します。 2) 重要性に基づいて、次の操作を実行します。

  • 重要度が低いフィルター: ターゲット ドメインとは無関係で、互換性のない知識の伝達を避けるために削除されます。
  • 重要度の高いフィルターの凍結: 少数ショットのドメイン適応における知識の保存用
  • 残差フィルターの微調整: ドメイン適応用

おすすめ

転載: blog.csdn.net/qq_44681809/article/details/131219242