ニューラル スタイル転送の特性評価と安定性の向上

  この論文はスタンフォード大学がCVPR 2017で発表した論文です。主な内容はビデオスタイルの安定性を維持する方法です。

元のリンク: https://arxiv.org/abs/1705.02092


まとめ

  画像スタイルの転送に関する最近の研究は、合成画像の品質とアルゴリズムの速度の向上に焦点を当てています。しかし、リアルタイムのアプローチは非常に途切れが多く、ビデオに適用するとちらつきが目立ちます。この論文では、スタイル伝達目的方程式の解セットを調べることによって、これらの方法の不安定性を特徴付けます。結果は、グラム行列のトレースがメソッドの安定性に反比例することを示しています。これに基づいて、以前の方法の不安定性を克服する、時間連続損失を組み込んだリカレント畳み込みネットワークを提案します。当社のネットワークはあらゆる解像度に適用でき、テスト段階ではオプティカル フローを必要とせず、高品質で時間の連続する合成ビデオをリアルタイムで生成します。

1 はじめに

  画像の芸術的スタイルの転送とは、画像のコンテンツと別の画像のスタイルを組み合わせて、まったく新しい画像を合成することです。この問題は最近、ディープ ニューラル ネットワーク技術を使用して再検討されています。その後の作業により、メソッドの速度と品質が向上し、単一のモデルで複数のスタイルをモデル化できるようになりました。
  最近の画像スタイルの転送方法は2つに分類できます。最適化ベースの方法では、合成画像ごとに最適化問題を解決します。この方法では高品質の結果が得られますが、時間がかかります。フィードフォワード手法は、最適化問題の解を近似するようにニューラル ネットワークをトレーニングします。トレーニング後、この手法はリアルタイムで適用できます。ただし、これらの方法はすべて非常に不安定であり、図 1 に示すように、ビデオに適用すると目に見えるちらつきが発生します。Ruder らは、最適化ベースの手法を画像からビデオに拡張しました。彼らの方法では高品質の合成ビデオが生成されますが、リアルタイム アプリケーションには遅すぎます。
  この論文では、フィードフォワード手法を使用してビデオ上でスタイル転送を実行し、最適化手法に匹敵する高品質の結果を生成することを目標としています。最近のスタイル転送方法では、画像のスタイルを表現するためにグラム行列の特徴を使用しています。スタイル画像のグラム行列を一致させることにより、様式化された画像が合成されます。スタイル画像のグラム行列のトレースがピクセルの不安定性と密接に関係していることがわかりました。特に、目的方程式のグラム行列マッチング解集合は、スタイル画像のグラム行列の軌跡によって半径が決定される球体である。この目的関数の非凸性により、コンテンツ画像の小さな変化により、合成画像が目的関数に一致するグラム行列の別の解に向かって押し出されます。すべての解が近い (小さなトレース) 場合、異なる解に対応する合成画像も同様になります (不安定性はありません)。しかし、解が遠く離れている場合 (トレースが大きい場合)、異なる解では非常に異なる合成画像が生成されます (非常に不安定です)。
  この洞察に基づいて、フィードフォワード形式の転送方法の安定性を大幅に向上させ、高品質の様式化されたビデオの合成を可能にする方法を提案します。特に、ビデオのスタイル化にはリカレント畳み込みネットワークを使用し、時間的一貫性の損失を考慮してトレーニングしました。これにより、ネットワークは各タイム ステップで目的関数に一致するグラム行列を見つけることができます。この文書での私たちの貢献は 2 つの部分に分かれています。

  • まず、スタイル伝達目的関数の解空間を調べることによって、最近のスタイル伝達方法の不安定性を特徴付け、スタイル画像のグラム行列の追跡と安定性が逆相関していることを示します。私たちの説明は、すべてのグラム行列マッチング ベースのニューラル スタイル転送方法に適用されます。
  • 第二に、以前の方法の不安定性を克服する、リアルタイムビデオ様式化のためのリカレント畳み込みネットワークを提案します。Ruder らの影響を受け、ネットワークが時間的に一貫した結果を生成することを促す、オプティカル フロー ベースの損失関数を組み込みました。私たちの手法は、フィードフォワード手法の速度と最適化ベースの手法の時間的安定性を組み合わせて、品質を犠牲にすることなくビデオの様式化を 1000 倍高速化します。

2.関連作品

  テクスチャ合成:テクスチャ合成はスタイル転送に非常に近く、その目標は、入力テクスチャに基づいて生成プロセスを推論し、同じテクスチャを持つサンプルをさらに生成することです。テクスチャ合成の問題に対処するコンピュータ ビジョンの分野における初期の試みは、パラメトリックとノンパラメトリックという 2 つの異なるクラスのアプローチに分類できます。パラメトリック手法は、画像が直接サンプリングされる特徴空間のグローバル統計を計算します。ノンパラメトリックなアプローチは、局所的な条件付き確率密度関数を推定し、ピクセルを段階的に合成することです。このメソッドは、元のテクスチャのピクセルまたは領域全体をリサンプリングします。
  パラメトリック手法は Julesz 特徴記述に基づいており、2 つの画像が特徴空間内で同様の統計的尺度を持っている場合、それらの画像は同じテクスチャを持つと言われます。Gatys らの研究は Portilla と Simoncelli に基づいており、高性能ニューラル ネットワークの特徴空間を使用し、総計量としてグラム行列を使用しています。Ulyanov らは、フィードフォワード テクスチャ合成における知覚品質の問題に対処するために、インスタンスの正規化と新しい学習方程式を提案し、ジェネレーターが Julesz テクスチャ アンサンブルから公平にサンプリングすることを促進します。Chen と Schmidt は、テクスチャ転送作業に基づいて、コンテンツ イメージ パッチと最も一致するスタイル アクティベーション パッチを交換して出力イメージ アクティベーションを作成する、新しい「スタイル スワップ」ベースのアプローチを提案しています。次に、交換されたアクティベーションが逆ネットワークに渡されて、様式化された画像が生成されます。彼らの最適化方法は [22, 34] よりもはるかに安定しているため、ビデオへの適用に特に適しています。彼らの方法は一般化されており安定していますが、実行には数秒かかり、
  リアルタイム ビデオでのスタイル転送には使用できません。Gatys らの研究は、高性能畳み込みニューラル ネットワークを使用した特徴表現により高品質の画像を生成できることを示しています。最適化ベースの手法の結果は視覚的に優れていますが、計算コストが高くなります。Johnson と Ulyanov らは、[12] よりも数千倍高速で、リアルタイムで様式化された画像を生成するために使用できるフィードフォワード ネットワークを提案しました。ただし、各スタイルではフィードフォワード ネットワークの個別のトレーニングが必要であり、生成された画像の視覚的な品質は最適化ベースの方法よりも劣ります。Dumoulinらは、条件付きインスタンス正規化層を使用してこの問題に対処し、1つのネットワークが複数のスタイルを学習できるようにすることを提案しています。[23、43] と比較すると、このシンプルで効果的なモデルは、速度と視覚的な品質を損なうことなく、より少ないパラメーターで任意の異なるスタイルを学習できます。
  オプティカル フロー:オプティカル フローの正確な推定は、コンピューター研究の注目の課題であり、実用化への幅広い応用の可能性があります。オプティカル フロー推定の古典的な方法は、Horn と Schunck に基づいて提案された変分法です。畳み込みニューラル ネットワーク (CNN) は、現在の最先端のオプティカル フロー検出アルゴリズムに匹敵することが示されています。FlowNet は、オプティカル フロー推定用の新しい CNN 構造を導入しており、変分法と同等のパフォーマンスを備えています。オプティカル フロー推定の完全なレビューはこの文書の範囲を超えています。興味のある読者は [1、33、3] を参照してください。
  ビデオのスタイル転送 従来のイメージ アートのスタイル化は、非フォトリアリスティック レンダリングというラベルの下で研究されています。Litwinowicz は、印象派のブラシストロークを画像に変換するアクションと、オプティカル フローを使用してビデオ フレーム間のピクセルを追跡するアクションを組み合わせて、イベント コヒーレントな出力ビデオ シーケンスを生成した最初の人物です。ヘイとエッサルは、ブラシストロークのちらつきを克服するために、光学的および空間的制約をさらに追加しました。Hertzmann は、複数のブラシ サイズと長い曲線ストロークを使用した画像ペイント技術を使用することで画像の視覚的品質を向上させ [18]、その後この作業をビデオに拡張しました。
  Ruder は最近、隣接するフレーム間の時間的一貫性を強制するオプティカル フロー ベースの制約を導入することで、[12] の最適化ベースの方法を拡張しました。彼らはまた、長期的なビデオの一貫性を確保するためのマルチパス アルゴリズムも提案しました。彼らのアルゴリズムの結果は、時間的な一貫性とフレームごとの視覚的な品質の点で非常に優れていますが、1 つのフレームを処理するのに数分かかります。

3. スタイル転送の安定性

3.1 画像スタイルの転送

  [12] でスタイル転送式を使用します。これについては、以下で簡単に説明します。スタイル転送は、コンテンツ画像を受け取る画像合成手法です。cとスタイル画像ssを入力として使用します出力画像pppStateSpecificEquation (1) L ( s , c , p ) = λ c L c ( p , c ) + λ s L ( p , s ) \mathcal{L}(s,c,p)=\ lambda_cL ( s ,c p )=cLc( p ,c )+sL ( p ,s ( 1 )ここで、L c \mathcal{L}_cLcそしてL s \mathcal{L}_sLsはそれぞれコンテンツ再構成損失とスタイル再構成損失です; λ c \lambda_ccλ s \lambda_ssは、それらの重要性を制御するハイパーパラメータ スカラーです。
  畳み込みニューラル ネットワークによるコンテンツとスタイルの再構築損失ϕ \phiϕの正式な定義には、ImageNet で事前トレーニングされた VGG-19 を使用します。ϕ j ( x ) \phi_j(x)ϕj( x )は画像xxxはネットワークjthj^{th}jt h層の活性化出力、形状はC j × H j × W j C_j\times H_j\times W_jCj×Hj×Wj一連のコンテンツ レイヤーC \mathcal{C}が与えられるとします。Cとスタイル層S \mathcal{S}S、コンテンツおよびスタイルの再構成損失は次のように定義されます。(2) L c ( p , c ) = ∑ j ∈ C 1 C j H j W j ∥ ϕ j ( p ) − ϕ j ( c ) ∥ 2 2 \ mathcal {L}_c(p,c)=\sum_{j \in \mathcal{C}}\frac{1}{C_jH_jW_j}\|\phi_j(p)-\phi_j(c)\|^2_2 \tag { 2}Lc( p ,c )=j CCjHjWj1ϕj( p )ϕj( c ) 22( 2 ) (3) L s ( p , s ) = ∑ j ∈ S 1 C j H j W j ∥ G ( ϕ j ( p ) ) − G ( ϕ j ( s ) ) ∥ F 2 \mathcal{L }_s(p,s)=\sum_{j \in \mathcal{S}}\frac{1}{C_jH_jW_j}\|G(\phi_j(p))-G(\phi_j(s))\|^ 2_F \タグ{3}Ls( p ,s =j SCjHjWj1G ( ϕj( p ) )G ( ϕj( s ) _F2( 3 )ここで、G ( ϕ j ( x ) ) G(\phi_j(x))G ( ϕj( x ) ) はjj番目ですC j × C j C_j\times C_j of j層活性化出力Cj×Cjグラム行列、G ( ϕ j ( x ) ) = Φ jx Φ jx TG(\phi_j(x))=\Phi_{jx}\Phi_{jx}^TG ( ϕj( × ) )=ファイjx _ファイjx _T, Φ jx \Phi_{jx}ファイjx _C j × H j W j C_j\times H_jW_jCj×HjWj列がϕ j ( x ) \phi_j(x)である行列ϕj( x )C j C_jCj次元特徴ベクトル。
  出力画像のピクセルを強制的にコンテンツおよびスタイル画像に一致させるのではなく、コンテンツおよびスタイルの再構成損失により、生成された画像がコンテンツ画像の高レベルの特徴およびスタイル画像の特徴関係と一致することが促進されます。

3.2 グラムマトリックスとスタイルの安定性

  図 1 に示すように、コンテンツ画像cccの小さな変更により、まったく異なるスタイルの画像が生成される可能性がありますpppしかし、すべてのスタイルがこの不安定性を共有しているわけではないことに気づきました。コンポジション XIV (図 1 を参照) などの一部のスタイルは非常に不安定ですが、The Great Wave (図 9 を参照) などの他のスタイルはより安定しています。

不安定性がスタイル イメージにどの程度依存するかを調べるために、単一レイヤーのスタイルの損失のみを考慮します。次に、スタイル伝達ネットワークは目的関数を最小化します (わかりやすくするために、次の表jjは省略されています)j ): (4) 分 ⁡ G ( ϕ ( p ) ) 1 CHW ∥ G ( ϕ ( o ) ) − G ( ϕ ( s ) ) ∥ F 2 分 ⁡ Φ p ∥ Φ p Φ p T − Φ s Φ s T ∥ F 2 \begin{aligned} \min_{G(\phi(p))}&\frac{1}{CHW}\|G(\phi(o))-G(\phi(s) )\|_F^2 \\ \min_{\Phi_p}&\|\Phi_p\Phi_p^T - \Phi_s\Phi_s^T\|^2_F \end{aligned}\tag{4}G ( ϕ ( p ) )ファイpCHW _ _1G ( ϕ ( o ) )G ( ϕ ( s ) ) F2∥Φ _pファイpTファイsファイsTF2( 4 )インスピレーションとして、まず単純なC = H = WC=H=WC=H=Wの場合、式 (4) は(Φ p 2 − Φ s 2 ) 2 (\Phi_p^2-\Phi_s^2)^2( Fp2ファイs2)2は非凸方程式であり、最小値はΦ p = ± Φ s \Phi_p=\pm \Phi_sファイp=± Φs図 2 (左) に示すように、得られます。同様に、C = H = 1 、 W = 2 の場合、 C=H=1,W=2C=H=1 W=図2 (右) に示すように、最小値は半径Φ s \Phi_sファイsサークル上で。どちらの場合も、最小値は原点からの距離Φ s \Phi_sにあります。ファイs距離。この発見は一般的な場合にも当てはまります。

  • 定理 1. γ \gammaとするγを原点として中心、半径はtr ( Φ s Φ s T ) 1 2 tr(\Phi_s\Phi_s^T)^{\frac{1}{2}}t r ( ΦsファイsT)21水面。そして、 Φ p ∈ γ \Phi_p \in \gammaの場合に限り、ファイpγ時、J ( Φ p ) = ∥ Φ p Φ p T − Φ s Φ s T ∥ F 2 J(\Phi_p)=\|\Phi_p\Phi_p^T-\Phi_s\Phi_s^T\|^2_FJ ( Fp)=∥Φ _pファイpTファイsファイsTF2最小値を取得します。

  この結論は、これらのグラム行列がtr ( Φ s Φ s T ) tr(\Phi_s\Phi_s^T) を追跡することを意味します。t r ( ΦsファイsT) tr ( Φ s Φ s T ) tr(\Phi_s\Phi_s^T)であるため、大きなスタイルはより不安定になります。t r ( ΦsファイsT)スタイル再構成損失の増加に伴い、特徴空間内の解が大きく異なる可能性があります。小さなビデオ データセット (カメラが固定され、動かない場合) でのスタイル転送の安定性とtr ( Φ s Φ s T ) tr(\Phi_s\Phi_s^T) を
  経験的に検証しますt r ( ΦsファイsT) ; フレーム間の唯一の違いは、照明の小さな変化と検出器のノイズです。

  [22] のアルゴリズムを使用して、12 スタイルの COCO データセット上で個別のフィードフォワード スタイルの転送モデルをトレーニングし、これらのモデルを使用してビデオ データセットの各フレームを様式化しました。入力ビデオの静的な性質により、スタイル化されたフレームの違いはスタイル伝達モデルの不安定性によるものです。隣接するスタイル フレーム間の平均二乗誤差を使用して各スタイルの不安定性を推定しました。各スタイルの不安定性と、 VGG-16relu1_1とグラム行列のトレースrelu2_1間の曲線を図 3 にプロットします。これらの結果は、スタイルの不安定性とトラックの間の相関関係を明らかにします。

4. アプローチ: 安定したスタイルの転送

  要約すると、グラム行列トレースが大きい場合、リアルタイム スタイル転送用のフィードフォワード ネットワークは不安定なスタイル化されたビデオを生成する可能性があります。私たちはこの問題を克服し、[22] の速度と [30] の安定性を同時に達成するフィードフォワード形式の転送方法を提案します。

4.1 全体構造

  私たちのメソッドの入力は、コンテンツ画像シーケンスc 1 , … , c T c_1,\dots,c_Tです。c1cTとスタイル画像SSs、様式化された画像シーケンスを出力しますp 1 , … , p T p_1,\dots,p_Tp1pT各入力はpt p_t のように表示されますpshould とct c_tc共有コンテンツとSSs はスタイルを共有し、pt − 1 p_{t-1}pt 1見た目も似てますね。各タイム ステップでの出力画像pt p_tpスタイル転送ネットワークf W f_WによるfW以下を決定します: pt = f W ( pt − 1 , ct ) p_t=f_W(p_{t-1}, c_t)p=fW( pt 1c
  【22、34】と同様にssを用意しておりますネットワークをトレーニングしました各タイム ステップで、ネットワークは 3 つの損失の合計を最小化するようにトレーニングされます。 (5) L ( W , c 1 : T , s ) = ∑ t = 1 T ( λ c L c ( pt , ct ) + λ s L s ( pt , s ) + λ t L t ( pt , pt − 1 ) ) \mathcal{L}(W,c_{1:T},s)=\sum_{t=1}^T(\lambda_c \ mathcal{L}_c(p_t,c_t)+\lambda_s\mathcal{L}_s(p_t,s)+\lambda_t\mathcal{L}_t(p_t,p_{t-1}))\tag{5}L ( W c1 : Ts =t = 1T( lcLc( pc)+sLs( ps +L( ppt 1) )( 5 )ここで、L c \mathcal{L}_cLcそしてL s \mathcal{L}_sLsは、それぞれセクション 3 で説明したコンテンツとスタイルの再構成損失です; L t \mathcal{L}_tLこれは時間一貫性の損失であり、隣接するタイム ステップからのネットワークの出力が大幅に変化するのを防ぎます。スカラーλ c 、 λ s 、 λ t \lambda_c,\lambda_s,\lambda_tcsは、これら 3 つの損失の重要性を測定するハイパーパラメータです。ネットワークf W f_WfWビデオ シーケンス{ c 1 : T } \{ c_{1:T}\}{ c1 : T}確率的勾配降下トレーニングによって式 (5) を最小化します。

4.2 スタイル転送ネットワーク

  ネットワークが時間的に一貫した出力を生成する場合、フレームを独立して処理することはできないため、ネットワークには一貫性を確保するために以前の出力をチェックする機能が必要です。したがって、私たちのネットワークは現在のコンテンツ画像ct c_tを取得します。cそして、前のフレームの様式化された結果pt − 1 p_{t-1}pt 1結果を合成するための入力としてpt = f W ( pt − 1 , ct ) p_t=f_W(p_{t-1},c_t)p=fW( pt 1c図 4 に示すように、各タイム ステップでのネットワークの出力は、次のタイム ステップのネットワーク入力として使用されます。したがってf W f_WfWは再帰畳み込みネットワークであり、時間をかけてバックプロパゲーションを通じてトレーニングする必要があります。
  fW f_WfWの 2 つの入力は、チャネル次元に沿って連結されます。fW f_WfW2 層のダウンサンプリング (その後にいくつかの残差ブロックが続く)、2 層の最近傍アップサンプリングと畳み込みが含まれます。すべての畳み込み層は、インスタンスの正規化と ReLU の非線形活性化に従います。

4.3 時間的一貫性の喪失

  私たちのスタイル転送ネットワークは、それ自体の以前の出力をチェックできますが、この構造変更だけでは、時間的に一貫した結果を保証するのに十分ではありません。したがって、Ruder らと同様に、時間的一貫性の損失L t \mathcal{L}_tをスタイルとコンテンツの損失に追加します。L、隣接するタイムステップ出力が大きく異なる場合にネットワークにペナルティを与えることで、時間的に安定した結果を促進します。
  最も単純な時間的一貫性の損失は、出力イメージ間のピクセルごとの差にペナルティを与えます。L t ( pt − 1 , pt ) = ∥ pt − 1 − pt ∥ 2 \mathcal{L}_t(p_{t-1} ,p_t)= \|p_{t-1}-p_t\|^2L( pt 1p)=∥p _t 1pただし、高品質の様式化されたビデオ シーケンスを生成するには、様式化されたビデオ フレームがタイム ステップ間でまったく同じになることは望ましくありません。様式化された各フレームのストローク、線、色がモーションに追従する必要があります。入力ビデオ 一貫した方法で後続のフレームに移行します。
  これを達成するために、時間的一貫性の損失はオプティカル フローを利用して、出力フレームの変更が入力フレームの変更と一致することを保証します。具体的には、w = ( u , v ) w=(u,v)w=(あなたv )は入力フレームct − 1 c_{t-1}ct 1そしてct c_tc間のオプティカル フロー ドメイン。完璧なオプティカル フローがct c_tを実現cそしてct − 1 c_{t-1}ct 1間のピクセルの相関; pt p_tが必要ですpそしてpt − 1 p_{t-1}pt 1対応するピクセルが一致します。したがって、時間的一貫性の損失により、すべてのピクセル座標( x , y ) (x,y) がペナルティを受けます。( x ,y )の差分: (6) pt − 1 ( x , y ) − pt ( x + u ( x , y ) , y + v ( x , y ) ) p_{t-1}(x,y)-p_t (x+u(x,y),y+v(x,y))\tag{6}pt 1( x ,y )p( ×+u ( x ,y ) y+v ( x ,( 6 )まずオプティカル フローを使用して出力フレームpt p_tpp ~ t \チルダ{p}_tを取得p~、そしてp ~ t \tilde{p}_tを計算します。p~そしてpt − 1 p_{t-1}pt 1この違いを効果的に実現するために、個々のピクセルの違いが使用されます。双一次補間の使用により、この歪みは微分可能になります。
  前景のオブジェクトの移動により、ct − 1 c_{t-1}ct 1ct c_t内の一部のピクセルは、cは で遮られます; 同様に、ct − 1 c_{t-1}ct 1ct でオクルージョンされているピクセルの一部がct c_tに含まれている可能性がありますcに現れた。したがって、強制的にp ~ t \tilde{p}_t とすると、p~そしてpt − 1 p_{t-1}pt 1すべてのピクセルで時間的一貫性の損失が発生し、移動する境界で不自然なアーティファクトが発生する可能性があります。したがって、オクルージョンマスクを使用しますmmmを使用して、遮蔽されたピクセルまたは遮蔽されていないピクセルに時間的一貫性の損失を使用することを回避し、最終的に時間的一貫性の損失は次のようになります。 (7) L ( pt − 1 , pt ) = 1 HW ∥ mt ⊙ pt − 1 − mt ⊙ p ~ t ∥ F 2 \mathcal{L}(p_{t-1},p_t)=\frac{1}{HW}\|m_t\odot p_{t-1}-m_t \odot \tilde{p}_t\ |_F^2 \タグ{7}L ( pt 1p)=HW _1メートルpt 1メートルp~F2( 7 )その中m ( h , w ) ∈ [ 0 , 1 ] m(h,w) \in [0,1]m ( h [ 0 ,1 ]オクルージョンとモーション境界領域の値 1 を取得します。⊙ \odotは内積、H、WH、WH Wは入力フレームの高さと幅です。損失関数の概要を図 5 に示します。

  この損失の計算にはオプティカル フロー マスクとオクルージョン マスクの両方が必要ですが、この損失はトレーニング中にのみ適用されるため、私たちの方法ではテスト中にオプティカル フロー マスクやオクルージョン マスクを計算する必要はありません。

おすすめ

転載: blog.csdn.net/qq_16137569/article/details/84987822