アダプティブインスタンス正規化によるリアルタイムでの任意のスタイル転送
公式アカウント:EDPJ
目次
0.概要
0. 概要
Gatys ら [16] は最近、画像の内容を別の画像のスタイルにレンダリングするニューラル アルゴリズムを導入し、いわゆるスタイル転送を可能にしました。ただし、そのフレームワークは低速の反復的な最適化プロセスを必要とするため、実際の応用が制限されます。ニューラル スタイルの転送を高速化するために、フィードフォワード ニューラル ネットワークを使用した高速近似が提案されています。残念ながら、この高速化には代償が伴います。ネットワークは通常、固定されたスタイルのセットに束縛されており、任意の新しいスタイルに適応することができません。本稿では、リアルタイムの任意スタイル転送を可能にするシンプルかつ効果的な手法を初めて提案する。私たちのアプローチの中心となるのは、コンテンツの特徴の平均と分散をスタイルの特徴の平均と分散に一致させる新しい Adaptive Instance Normalization (AdaIN) レイヤーです。私たちの方法は、既存の最速の方法に匹敵する速度を達成し、事前定義されたスタイルのセットによって制限されません。さらに、私たちのアプローチは、単一のフィードフォワード ニューラル ネットワークをすべて使用して、コンテンツとスタイルのトレードオフ、スタイルの補間、色と空間の制御など、柔軟なユーザー制御を可能にします。
1 はじめに
この研究では、この基本的な柔軟性と速度のジレンマに対処する最初のニューラル スタイル転送アルゴリズムを提案します。私たちの方法は、最適化ベースのフレームワーク [16] の柔軟性と最速のフィードフォワード方法と同様の速度を組み合わせて、任意の新しいスタイルをリアルタイムで転送できます。私たちのアプローチは、フィードフォワード スタイルの転送で驚くほど効果的なインスタンス正規化 (IN) レイヤーからインスピレーションを得ています。インスタンス正規化の成功を説明するために、インスタンス正規化は画像のスタイル情報を運ぶことがわかっている特徴統計を正規化することによってスタイル正規化を実行するという新しい説明を提案します。私たちの説明に触発されて、IN の単純な拡張である Adaptive Instance Normalization (AdaIN) を紹介します。コンテンツとスタイルが与えられると、AdaIN はコンテンツ画像の平均と分散を調整して、スタイル画像の平均と分散を一致させるだけです。実験を通じて、AdaIN は特徴統計を転送することにより、前者のコンテンツと後者のスタイルを効果的に組み合わせていることがわかりました。次に、デコーダ ネットワークは、AdaIN 出力を反転して画像空間に戻すことで最終画像を生成するように学習します。私たちの方法は、入力を任意の新しいスタイルに転送する柔軟性を犠牲にすることなく、[16] よりもほぼ 3 桁高速です。さらに、私たちの方法は、トレーニング プロセスを変更することなく、実行時に豊富なユーザー制御を提供します。
2.関連作品
スタイル転送。スタイル転送の問題は、非フォトリアリスティックなレンダリングに起因し、テクスチャの合成と転送と密接に関連しています。初期の手法には、線形フィルター応答のヒストグラム マッチングやノンパラメトリック サンプリングが含まれていました。これらの方法は低レベルの統計に依存することが多く、意味構造を捕捉できないことがよくあります。Gatys ら [16] は、DNN の畳み込み層の特徴統計を照合することによって、印象的なスタイル転送結果を初めて実証しました。最近、[16] に対するいくつかの改良が提案されています。
- Li と Wand は、深い特徴空間に局所パターンを適用するマルコフ ランダム フィールド (MRF) ベースのフレームワークを導入しました。
- Gatys らは、色の保存、空間的位置、およびスタイルの転送のスケールを制御する方法を提案しました。
- Ruderらは、時間的制約を課すことによってビデオスタイル転送の品質を向上させた。
Gatys らのフレームワーク [16] は、損失ネットワークによって計算されるコンテンツの損失とスタイルの損失を最小限に抑えるために画像を反復的に更新する遅い最適化プロセスに基づいています。最新の GPU を使用しても、収束するまでに数分かかる場合があります。その結果、モバイル アプリのデバイス上での処理は遅すぎて実用的ではありません。
- 一般的な解決策は、最適化プロセスを、同じ目的を最小化するようにトレーニングされたフィードフォワード ニューラル ネットワークに置き換えることです。これらのフィードフォワード移行方法は、最適化ベースの代替方法よりも約 3 桁高速であり、リアルタイム アプリケーションへの扉を開きます。
- フィードフォワード転送の粒度は、Wang et al. の多重解像度アーキテクチャによって強化されています。
- Ulyanovらは、生成されたサンプルの品質と多様性を向上させる方法を提案しています。
- ただし、前述のフィードフォワード方法は、各ネットワークの固定スタイルに拘束されます。
- この問題に対処するために、Dumoulin らは、32 のスタイルとその補間をエンコードできるネットワークを導入しました。
- 私たちの研究と並行して、Li らは、最大 300 のテクスチャを合成し、16 のスタイルを転送できるフィードフォワード アーキテクチャを提案しました。
- それでも、上記の 2 つの方法は、トレーニング中に観察されなかった任意のスタイルに適応することはできません。
最近、Chen と Schmidt は、スタイル交換レイヤーを介して任意のスタイルを転送するフィードフォワード アプローチを導入しました。コンテンツおよびスタイル イメージの機能がアクティブ化されると、スタイル交換レイヤーは、パッチごとにコンテンツの機能を最も一致するスタイルの機能に置き換えます。ただし、スタイル交換レイヤーは新たな計算ボトルネックを生み出します。計算の 95% 以上が 512 × 512 入力画像のスタイル交換に費やされます。私たちの方法では、Chen や Schmidt よりも 1 ~ 2 桁高速でありながら、任意のスタイルの転送も可能です。
スタイル転送におけるもう 1 つの中心的な問題は、どのスタイル損失関数を使用するかです。Gatys et al. [16] のオリジナルのフレームワークは、グラム行列によって取得された機能アクティベーション間の 2 次統計を照合することによってスタイルを照合します。MRF 損失、敵対的損失、ヒストグラム損失、CORAL 損失、MMD 損失、チャネル平均と分散の間の距離など、他の効果的な損失関数も提案されています。上記の損失関数はすべて、スタイル付き画像と合成画像の間でいくつかの特徴統計を一致させることを目的としていることに注意してください。
深い生成画像モデリング。画像生成には、変分オートエンコーダー、自己回帰モデル、敵対的生成ネットワーク (GAN) など、代替フレームワークがいくつかあります。特に、GAN は最も印象的なビジュアル品質を実現しています。条件付き生成、多段階処理、トレーニング目標の改善など、GAN フレームワークに対するさまざまな改善が提案されています。GAN は、スタイル転送やクロスドメイン画像生成にも適用されています。
3. 背景
3.1 バッチ正規化 (バッチ正規化、BN)
Ioffe と Szegedy の独創的な研究により、バッチ正規化 (BN) 層が導入されました。これにより、特徴統計を正規化することでフィードフォワード ネットワークのトレーニングが大幅に簡素化されます。BN 層は元々、識別ネットワークのトレーニングを高速化するために設計されましたが、生成画像モデリングにも効果的であることがわかっています。入力バッチ x ∈ R^(N×C×H×W) が与えられると、BN は個々の特徴チャネルの平均と標準偏差を正規化します。
ここで、γ、β ∈ R^C はデータから学習されたアフィン パラメーター、μ(x)、σ(x) ∈ R^C は平均と標準偏差、バッチ サイズと空間次元はフィーチャごとに個別に計算されます。チャネル:
BN はトレーニング時にミニバッチ統計を使用し、推論時にそれらを母集団統計に置き換えるため、トレーニングと推論の間に違いが生じます。
- バッチ繰り込みは、トレーニング中に母集団の統計を段階的に使用することでこの問題に対処するために最近提案されました。
- BN のもう 1 つの興味深い応用例として、Li らは、BN がターゲット ドメイン内の人口統計を再計算することでドメイン シフトを軽減できることを発見しました。
- 最近、BN の有効性をリカレント アーキテクチャに拡張するために、いくつかの代替正規化スキームが提案されています。
3.2 インスタンスの正規化 (IN)
オリジナルのフィードフォワード様式化手法では、様式伝達ネットワークは各畳み込み層の後の BN 層で構成されます。驚くべきことに、Ulyanov らは、BN 層を IN 層に置き換えるだけで大幅な改善が得られることを発見しました。
BN 層とは異なり、ここではμ(x) と σ(x) が各チャネルと各サンプルの空間次元で独立して計算されます。
もう 1 つの違いは、IN 層はテスト時に不変であるのに対し、BN 層は通常、ミニバッチ統計を母集団統計に置き換えることです。
3.3 条件付きインスタンス正規化 (CIN)
Dumoulin らは、アフィン パラメータ γ および β のセットを学習する代わりに、スタイル s ごとに異なるパラメータ セット γ^s および β^s を学習する条件付きインスタンス正規化 (CIN) 層を提案しています。
トレーニング中、スタイル イメージとそのインデックス s は、固定スタイル s ∈ {1, 2, ..., S} のセットからランダムに選択されます (実験では S = 32)。次に、コンテンツはスタイル転送ネットワークによって処理され、対応する γ^ と β^ が CIN 層に使用されます。驚くべきことに、ネットワークは、IN 層で同じ畳み込みパラメータと異なるアフィン パラメータを使用することにより、まったく異なるスタイルの画像を生成できます。
正規化層のないネットワークと比較して、CIN 層のあるネットワークには 2FS の追加パラメーターが必要です。ここで、F はネットワーク内の特徴マップの総数です。追加パラメータの数はスタイルの数に比例して増加するため、多数のスタイル (たとえば、数万) をモデル化するためにメソッドを拡張するのは困難です。さらに、彼らの方法は、ネットワークを再トレーニングしない限り、任意の新しいスタイルに適応することはできません。
4. インスタンスの正規化について説明する
(条件付き) インスタンス正規化は大きな成功を収めていますが、スタイル転送において特に効果的である理由は依然としてわかりません。Ulyanovらは、INの成功は画像コンテンツのコントラストに対する不変性のおかげであると考えている。ただし、IN は特徴空間で発生するため、ピクセル空間での単純なコントラスト正規化よりも大きな影響を与えるはずです。おそらくもっと驚くべきことは、IN のアフィン パラメータによって出力イメージのスタイルが完全に変更される可能性があることです。
DNN の畳み込み特徴統計によって画像のスタイルをキャプチャできることはよく知られています。Gatys et al. [16] は最適化の目的として 2 次統計を使用しましたが、Li et al. は最近、チャネル平均や分散を含む他の多くの統計のマッチングもスタイル転送に効果的であることを示しました。これらの観察に触発されて、特徴統計 (つまり、平均と分散) を正規化することによって、ある形式のスタイル正規化を実行するインスタンス正規化を検討します。[16] では DNN が画像記述子として使用されていますが、生成ネットワークの特徴統計によって生成される画像のスタイルも制御できると主張します。
変更されたテクスチャ ネットワークのコードを実行して、IN レイヤーまたは BN レイヤーのいずれかを使用して単一スタイルの転送を実行します。予想どおり、IN を使用したモデルは BN モデルよりも速く収束します (図 1(a))。改良されたテクスチャ ネットワークでの解釈をテストするために、輝度チャネルでヒストグラム イコライゼーションを実行することにより、すべてのトレーニング イメージを同じコントラストに正規化します。図 1(b) に示すように、IN はまだ機能しており、改良されたテクスチャ ネットワークの解釈が不完全であることを示しています。仮説を検証するために、事前トレーニングされたスタイル転送ネットワークを使用して、すべてのトレーニング画像を同じスタイル (ターゲット スタイルとは異なる) に正規化します。図 1(c) によれば、画像がスタイルごとに正規化されている場合、IN によってもたらされる改善は非常に小さくなります。残りのギャップは、不完全なスタイルの正規化によって説明できます。さらに、スタイル正規化画像に対して BN でトレーニングしたモデルは、元の画像に対して IN でトレーニングしたモデルと同じくらい速く収束できます。結果は、IN がスタイルの正規化を実行していることを示しています。
単一のサンプルではなく多数のサンプルは、単一のスタイルを中心にサンプルのバッチを正規化するものとして直感的に理解できます。ただし、各サンプルのスタイルは依然として異なる場合があります。これは、元のフィードフォワード スタイル転送アルゴリズムの場合のように、すべての画像を同じスタイルに転送したい場合には望ましくありません。畳み込み層はバッチ内のスタイルの違いを補うことを学習する可能性がありますが、トレーニングにさらなる課題が生じます。一方、IN では、個々のサンプルのスタイルを目的のスタイルに正規化できます。トレーニングは、生のスタイル情報を破棄しながら、ネットワークの残りの部分がコンテンツ操作に集中できるため便利です。CIN の成功の背後にある理由も明らかになります。異なるアフィン パラメーターにより、特徴統計を異なる値に正規化できるため、出力イメージが異なるスタイルに正規化されます。
5. アダプティブインスタンス正規化 (AdaIN)
IN が入力を Affine パラメーターで指定された単一のスタイルに正規化する場合、適応アフィン変換を使用して入力を任意のスタイルに適応させることができますか? ここでは、適応インスタンス正規化 (AdaIN) と呼ばれる IN の単純な拡張を提案します。AdaIN はコンテンツ x とスタイル y を受け取り、x と y のチャネル平均と分散を単純に調整します。BN、IN、CIN とは異なり、AdaIN には学習可能なアフィン パラメータがありません。代わりに、スタイル入力に基づいてアフィン パラメータを適応的に計算します。
ここで、正規化されたコンテンツを σ(y) でスケールし、μ(y) でオフセットします。IN と同様に、これらの統計は空間的な位置にわたって計算されます。
直感的に、スタイル固有のストロークを検出する機能チャネルを考えてみましょう。このようなストロークを含むスタイル付き画像は、この機能の平均アクティベーションを高くします。AdaIN の出力では、コンテンツ イメージの空間構造を維持しながら、この機能に対して同じ高い平均アクティベーションが行われます。ストローク特徴は、フィードフォワード デコーダを使用して画像空間に反転できます。この機能チャネルの分散により、より微妙なスタイル情報をエンコードでき、これは AdaIN 出力と最終出力イメージにも渡されます。
つまり、AdaIN は、特徴統計量、特にチャネル平均と分散を転送することにより、特徴空間でスタイル転送を実行します。私たちの AdaIN 層は、[6] で提案されているスタイル交換層と同様の役割を果たします。スタイル交換操作は時間とメモリを非常に消費しますが、AdaIN レイヤーは IN レイヤーと同じくらい単純で、追加の計算コストはほとんどありません。
6. 実験のセットアップ
6.1 構造
私たちのスタイル転送ネットワーク T は、コンテンツ画像 c と任意のスタイル画像 s を入力として受け取り、前者のコンテンツと後者のスタイルを再結合した出力画像を合成します。我々は、事前学習済み VGG-19 の最初の数層 (relu4_1 まで) でエンコーダー f が固定される、単純なエンコーダー - デコーダー アーキテクチャを採用しています。コンテンツ イメージとスタイル イメージを特徴空間でエンコードした後、両方の特徴マップを AdaIN レイヤーにフィードします。これにより、コンテンツ マップとスタイル フィーチャ マップの平均と分散が調整され、ターゲットの特徴マップ t が得られます。
ランダムに初期化されたデコーダ g を学習させて t を画像空間にマッピングし、様式化された画像 T(c, s) を生成します。
デコーダーはほとんどがエンコーダーの鏡像であり、チェッカーボード効果を軽減するためにすべてのプーリング層が最新のアップサンプリングに置き換えられます。f と g の両方で反射パディングを使用して、境界アーティファクトを回避します。もう 1 つの重要なアーキテクチャ上の選択は、デコーダが IN、BN を使用するか、または正規化を使用しないかどうかです。セクション 2 で説明したように、IN は各サンプルを単一のスタイルに正規化しますが、BN はサンプルのバッチを単一のスタイルを中心に正規化します。デコーダに大幅に異なるスタイルの画像を生成させたい場合には、どちらも望ましくありません。したがって、デコーダでは正規化層を使用しません。セクション 7.1 では、デコーダの IN/BN 層がパフォーマンスに影響を与えることを示します。
6.2 トレーニング
[6] のセットアップに続いて、コンテンツ画像として MS-COCO を使用し、スタイル画像として主に WikiArt から収集された絵画のデータセットを使用してネットワークをトレーニングします。各データセットには約 80,000 のトレーニング サンプルが含まれています。adam オプティマイザーを使用し、1 つのバッチは 8 つのコンテンツ スタイル イメージ ペアで構成されます。トレーニング中に、まずアスペクト比を維持しながら 2 つの画像の最小サイズを 512 にサイズ変更し、次にサイズ 256 × 256 の領域をランダムにトリミングします。私たちのネットワークは完全に畳み込み型であるため、テスト中にあらゆるサイズの画像に適用できます。
事前トレーニングされた VGG-19 を使用して、デコーダーをトレーニングするための損失関数を計算します。
これは、コンテンツ損失 L_c とスタイル損失 L_s をスタイル損失重み λ で重み付けした組み合わせです。コンテンツ損失は、ターゲット フィーチャと出力画像フィーチャの間のユークリッド距離です。コンテンツ イメージに対する通常の機能応答の代わりに、AdaIN 出力 t をコンテンツ ターゲットとして使用します。これにより、収束がわずかに速くなり、AdaIN 出力 t を反転するという目標も満たされることがわかりました。
AdaIN 層はスタイル特徴の平均と標準偏差のみを転送するため、スタイル損失はこれらの統計にのみ一致します。一般的に使用されるグラム行列損失でも同様の結果が得られることがわかりましたが、概念的には IN 統計の方が明確であるため、IN 統計と一致させます。このスタイルの損失は、Li らによっても調査されました。
ここで、各 φ_i は、スタイル損失の計算に使用される VGG-19 のレイヤーを表します。私たちの実験では、同じ重みを持つ relu1_1、relu2_1、relu3_1、relu4_1 レイヤーを使用します。
7. 結果
このサブセクションでは、私たちの方法を 3 つのスタイル転送方法と比較します。
- 柔軟だが遅い最適化ベースの手法、Gatys [16]、
- 単一のスタイルに限定された高速フィードフォワード手法、Ulyanov [52]、
- 柔軟なパッチベースの中速手法、Chen と M. Schmidt [6]。
特に明記されていない限り、比較されたメソッドの結果は、デフォルト構成でコードを実行することによって取得されました。[6] では、著者が提供する事前学習済み逆ネットワークを使用します。すべてのテスト画像のサイズは 512×512 です。
7.1 他の手法との比較
定性的な結果。図 4 に、比較方法によって生成されたスタイル転送結果の例を示します。
- モデルのトレーニング中にすべてのテスト スタイルの画像が観察されることはありませんが、Ulyanov の結果はネットワークを各テスト スタイルに当てはめることによって得られることに注意してください。
- それでも、多くの画像 (行 1、2、3 など) では、様式化された画像の品質は、Ulyanov や Gatys の品質と非常に匹敵します。
- 他のいくつかのケース (行 5 など) では、私たちの方法は Ulyanov と Gatys の品質よりわずかに遅れています。スピード、柔軟性、品質の間には 3 つのトレードオフがあると考えているため、これは驚くべきことではありません。
- Chen と M. Schmidt と比較して、私たちの方法はほとんどの比較画像でスタイルをより忠実に転送しているようです。
- 最後の例は、各コンテンツ パッチを最もよく一致するスタイル パッチと一致させるという Chen と M. Schmidt の試みの大きな制限を明確に示しています。ただし、ほとんどのコンテンツ パッチが、ターゲット スタイルを表さないいくつかのスタイル パッチと一致する場合、スタイルの転送は失敗します。
- したがって、場合によっては (行 3 など) Chen と M. Schmidt の方法でも魅力的な結果が得られる場合もありますが、グローバル特徴統計のマッチングがより一般的な解決策であると考えられます。
定量的な評価。私たちのアルゴリズムは、速度と柔軟性を高めるためにある程度の品質を犠牲にしていますか?もしそうであれば、どの程度犠牲にしますか? この質問に定量的に答えるために、コンテンツとスタイルの損失に関して、私たちの方法を最適化ベースの方法 (Gatys) および高速単一スタイル転送方法 (Ulyanov) と比較します。私たちの方法では IN 統計に基づくスタイル損失を使用するため、公正な比較のために (Gatys) と (Ulyanov) の損失関数も変更します (図 4 の結果は、デフォルトのグラム行列損失を使用して得られます)。ここで示されているコンテンツの損失は、(Ulyanov、Gatys) のものと同じです。報告された数値は、WikiArt データセットと MS-COCO のテスト セットからランダムに選択された 10 個のスタイル イメージと 50 個のコンテンツ イメージの平均です。
図 3 に示すように、合成画像の平均コンテンツとスタイルの損失はわずかに高くなりますが、Ulyanov らの単一スタイル転送方法に匹敵します。特に、私たちの方法と Ulyanov は、50 ~ 100 回の最適化反復の間で Gatys のようなスタイルの損失を達成します。これは、Gatys の各ネットワークがテスト パターンのみでトレーニングされるのに対し、ネットワークがトレーニング中にテスト パターンをまったく参照しないことを考慮すると、このメソッドの強力な一般化能力を示しています。また、スタイルの損失が元のコンテンツ画像よりもはるかに小さいことにも注意してください。
速度分析。計算の大部分はコンテンツのエンコード、スタイルのエンコード、デコードに費やされ、それぞれに約 3 分の 1 の時間がかかります。ビデオ処理などの一部のアプリケーション シナリオでは、スタイル イメージを 1 回エンコードするだけで済み、AdaIN は保存されたスタイル統計を使用して後続のすべてのイメージを処理できます。他の場合 (たとえば、同じコンテンツを異なるスタイルに変換する場合)、コンテンツのエンコードに費やされる計算を共有できます。
表 1 では、私たちの方法の速度を以前の方法と比較しています。スタイルのエンコード時間を除き、アルゴリズムは 256 × 256 および 512 × 512 の画像に対してそれぞれ 56 および 15 FPS で実行され、ユーザーがアップロードした任意のスタイルをリアルタイムで処理できます。任意のスタイルに適用できるアルゴリズムの中で、私たちの方法は (Gatys) よりも 3 桁近く速く、(Chen と Schmidt) よりも 1 ~ 2 桁高速です。(Chen と Schmidt) のスタイル交換レイヤーは高解像度のスタイル画像にうまく対応できないため、(Chen と Schmidt) よりも高速な改善は、高解像度画像の場合に特に重要です。さらに、私たちの方法は、いくつかのスタイルに限定されたフィードフォワード方法 (Ulyanov、Dumoulin) に匹敵する速度を達成します。私たちの方法の処理時間がわずかに長いのは、主に方法論的な制限ではなく、大規模な VGG ベースのネットワークによるものです。より効率的なアーキテクチャにより、速度はさらに向上します。
7.2 追加の実験
このサブセクションでは、重要なアーキテクチャ上の選択を正当化するために実験を実施します。セクション 6 で説明したメソッドを Enc-AdaIN-Dec と呼びます。私たちは、AdaIN をコンテンツとスタイル イメージからの情報を組み合わせるための自然なベースライン戦略である連結に置き換えた、Enc-Concat-Dec と呼ばれるモデルを実験しました。さらに、デコーダー内の BN/IN レイヤーを使用してモデルを実行します。それぞれ、Enc-AdaIN-BNDec および Enc-AdaIN-INDec で示されます。他のトレーニング設定は変更されません。
図 5 と 6 に、さまざまな方法の例とトレーニング曲線を示します。Enc-Concat-Dec ベースラインによって生成された画像 (図 5(d)) では、スタイル イメージのオブジェクトの輪郭がはっきりと観察できます。これは、ネットワークがスタイル イメージの内容からスタイル情報を分離できなかったことを示しています。これは、図 6 Consistent とも一致しており、Enc-Concat-Dec は低いスタイル損失を達成できますが、コンテンツ損失を減らすことはできません。BN/IN 層を備えたモデルでも、品質が低下し、損失が一貫して高くなります。IN 層の結果は特に悪いです。これは、IN レイヤーは出力を単一のスタイルに正規化する傾向があるため、異なるスタイルの画像を生成する場合は避ける必要があるというステートメントを再度検証します。
7.3 リアルタイム制御
私たちの方法の柔軟性をさらに強調するために、私たちのスタイル転送ネットワークにより、ユーザーが様式化の程度を制御し、異なるスタイル間で補間し、色を維持しながらスタイルを転送し、異なる空間領域で異なるスタイルを使用できることを示します。これらすべてのコントロールは、トレーニング プロセスを変更せずに、実行時のみに同じ Web アプリケーションを使用することに注意してください。
コンテンツスタイルのトレードオフ。スタイル転送の程度は、式 11 のスタイルの重み λ を調整することでトレーニング中に制御できます。さらに、私たちの方法では、デコーダーに提供される特徴マップ間を補間することにより、テスト時にコンテンツ スタイルのトレードオフが可能になります。これは、AdaIN のアフィン パラメータ間の補間と同等であることに注意してください。
α = 0 の場合、ネットワークはコンテンツ画像を忠実に再構築しようとし、α = 1 の場合、最も様式化された画像を合成します。
図 7 に示すように、α を (0 から 1 まで) 変化させることにより、コンテンツの類似性とスタイルの類似性の間の滑らかな遷移が観察されます。
スタイル補間。K スタイル イメージ s1、s2、...、sK のセット間を補間するには、次のような対応する重み w1、w2、...、wK を使用します。
同様に、特徴マップ間を補間します (結果を図 8 に示します)。
空間と色のコントロール。Gatys らは最近、色情報の空間的位置とスタイル転送に対するユーザー制御を導入し、私たちのフレームワークに簡単に組み込むことができます。コンテンツ イメージの色を維持するには、最初にスタイル イメージの色分布をコンテンツ イメージの色分布に一致させ、次に、色が調整されたスタイル イメージをスタイル入力として使用して通常のスタイル転送を実行します。結果の例を図 9 に示します。 。
図 10 では、私たちの方法がコンテンツ画像のさまざまな領域をさまざまなスタイルに変換できることを示しています。これは、完全なフィードフォワード方式と同様ですが、さまざまなスタイル入力からの統計を使用して、コンテンツ特徴マップ内のさまざまな領域で AdaIN を個別に実行することによって実現されます。私たちのデコーダーは同種のスタイルを持つ入力に対してのみトレーニングされますが、異なる領域の異なるスタイルを持つ入力に対して自然に一般化されます。
8. 議論と結論
この論文では、リアルタイムの任意のスタイル転送を初めて可能にする、単純な Adaptive Instance Normalization (AdaIN) レイヤーを提案します。魅力的なアプリケーションに加えて、この研究は一般的な深度画像表現の理解に光を当てると私たちは信じています。
特徴統計に基づいて、私たちの方法と以前のニューラル スタイル転送方法の間の概念的な違いを検討することは興味深いです。Gatysらは、特徴統計に一致するようにピクセル値を操作する最適化プロセスを採用しています。一部の論文では、最適化プロセスがフィードフォワード ニューラル ネットワークに置き換えられています。それでも、ネットワークは、間接的に特徴統計と一致するようにピクセル値を変更するようにトレーニングされています。私たちは、一度に特徴空間内の統計を直接整列させ、次に特徴をピクセル空間に反転させるという、非常に異なるアプローチを採用しています。
私たちの方法は単純であるため、改善の余地はまだたくさんあると考えています。将来の作業では、残留アーキテクチャやエンコーダからの追加のスキップ接続を備えたアーキテクチャなど、より高度なネットワーク アーキテクチャを検討する予定です。また、増分トレーニングなど、より複雑なトレーニング スキームも調査する予定です。さらに、AdaIN レイヤーは、最も基本的な特徴統計 (平均と分散) のみを調整します。AdaIN を相関アライメントまたはヒストグラム マッチングに置き換えると、高次の統計を転送することで品質がさらに向上する可能性があります。もう 1 つの興味深い方向性は、AdaIN をテクスチャ合成に適用することです。
付録
4. 異なるレイヤーで AdaIN を使用する効果
図 2 は、さまざまなレイヤーで AdaIN を実装した場合の効果を示しています。relu4_1 を使用すると、以前のレイヤーよりも優れた知覚結果が得られます。
参考
[16] LA ゲイティス、AS エッカー、M. ベスジ。畳み込みニューラル ネットワークを使用した画像スタイルの転送。CVPRにて、2016年。
[52] D.ウリヤノフ、A.ヴェダルディ、V.レンピツキー。改善されたテクスチャ ネットワーク: フィードフォワード スタイライゼーションとテクスチャ合成の品質と多様性を最大化します。CVPRにて、2017年。
[6] TQ チェンと M. シュミット。任意のスタイルのパッチベースの高速スタイル転送。arXiv プレプリント arXiv:1612.04337、2016。
Huang X、Belongie S. 適応インスタンス正規化を使用したリアルタイムの任意のスタイル転送[C]//コンピューター ビジョンに関する IEEE 国際会議の議事録。2017: 1501-1510。
S. まとめ
S.1 主なアイデア
インスタンス正規化の成功を説明するために、著者らは、インスタンス正規化が画像のスタイル情報を伝える特徴統計を正規化することによってスタイル正規化を実行するという新しい説明を提案しています。これに基づいて、著者は Adaptive Instance Normalization (AdaIN) を提案します。コンテンツとスタイルが与えられると、AdaIN はコンテンツ画像の平均と分散をスタイル画像の平均と分散に一致するように調整するだけでよく、生成される画像には前者のコンテンツと後者のスタイルが含まれます。
S.2 アダイン
AdaIN は式 8 に示されます。
ここで、x と y はそれぞれコンテンツ画像とスタイル画像を表します。μ(x) と σ(x) はコンテンツ画像の平均と標準偏差を示し、μ(y) と σ(y) はスタイル画像の平均と標準偏差を示します。画像の特徴量統計量には画像のスタイル情報が含まれているため、正規化によりコンテンツ画像のスタイル情報を除去し、スタイル画像の特徴量統計量(スタイル情報)を用いてアフィン変換を行うことで、スタイル転送を行うことができます。実現する。
S.3 異なる層での AdaIN の構造と使用の効果
この論文で使用されるネットワーク構造と、さまざまなレイヤーで AdaIN を使用する効果を上の 2 つの図に示します。
AdaIN は画像の特徴 (特徴空間) の統計に基づいて動作するため、ネットワーク内の後続の層はより正確な特徴を抽出できます。これらの正確な特徴の統計値に基づいて、インスタンスの正規化中にコンテンツ画像のスタイルをより完全にデスタイルできるため、より高品質のスタイル転送が実現します。