背景: 既存の方法では、多くの異なるオブジェクトを含む画像を処理できないことがよくあります。インスタンスと背景の間、またはインスタンス内での大きなスタイルの違いを考慮せずに、グローバル スタイルを画像全体に適用します。
方法: ローカルスタイルの変動を明示的に考慮したクラス認識メモリネットワークを提案します。カテゴリ スタイルの変更を記録するために、一連の読み取り/更新操作を備えたキーと値のメモリ構造が導入されています。キー ストアはメモリ項目のドメインに依存しないコンテンツ表現を割り当てるために使用され、値はドメイン固有のスタイル表現をエンコードします。また、記憶項目の識別力を向上させるための特徴対比損失を提案します。
主なイノベーション: 機密扱い
私たちの貢献は次のように要約できます。 •ビジュアル ドメインでインスタンス レベルのスタイル情報を保存および伝達するメモリ ガイド付き教師なし I2I 変換 (MGUIT) フレームワークを
提案します。私たちの知る限り、これは I2I 変換におけるメモリ ネットワークを調査した最初の研究です。•さまざまなスタイルの変更を効率的に記録し、I2I 変換中にアクセスできるように、キーと値のメモリ構造を導入しました。私たちのモデルは、テスト時に明示的なオブジェクト検出モジュールを必要としません。また、記憶項目の多様性と識別力を向上させるために、特徴対比損失を提案します。• 私たちの方法は、インスタンスの詳細を適切に維持しながら現実的な翻訳結果を生成し、標準ベンチマークで最近の最先端の方法を上回ります。
この記事は、画像スタイル変換の分野における新しい方法であり、変換結果の品質を向上させるクラス認識メモリネットワークモジュールを紹介します。
スタイル変換の基本的な考え方は、畳み込み演算を使用して画像をコンテンツとスタイルに分割し、その後スタイルを置き換え、独自のコンテンツと新しいスタイルを使用して結果画像を生成し、スタイル変換の目的を達成することです。単一メソッドのほとんどは、グローバル スタイルの切り替えのみを考慮し、インスタンス オブジェクト間の違いを無視するため、結果グラフの詳細が失われます。
私たちの目標は、トレーニング時とテスト時の両方でインスタンス スタイルを推測して、より現実的な結果を生成することです。この目的を達成するために、トレーニング中にスタイル情報を保存し、推論のために適切なスタイル表現を読み取る新しいメモリ ネットワークを採用します。
メモリ ネットワークは、外部メモリに情報を保存し、メモリから関連するコンテンツを読み取る学習可能なニューラル ネットワーク モジュールです。キーと値の構造メモリを利用してドキュメントを読み取る、キーと値のメモリ ネットワークが導入されました。クエリが与えられると、キーを使用して関連するメモリが取得され、対応する値が返されます。
キー/値メモリを使用して、ドメインに依存しないコンテンツ表現とドメイン固有のスタイル表現を保存します。
ネットワーク構造:
クラスアウェア メモリ ネットワーク
Read は
、コンテンツ C を使用して項目を重み付けします。
アップデート
損失関数:
2.敵対的損失
の目的は、2 つの異なる関数コンテンツ弁別器間の分布の差を最小限に抑えることです
。Cx と Cy の間のコンテンツ対立損失関数により、
x のコンテンツが
y スタイルの下で元のコンテンツ ドメイン弁別子を維持します。X とY ドメインの敵対的損失関数
3. KL 損失: スタイル表現を以前のガウス分布に近づけます。
4. 潜在回帰損失 Llatent: スタイルと画像の間のマッピングが可逆であることを強制します。
5. 機能比較の損失:
アブレーション実験