ニューラルスタイル転送の特性評価と安定性の向上

この論文はスタンフォード大学がCVPR 2017で発表した論文です。主な内容はビデオスタイルの安定性を維持する方法です。

元のリンク: https://arxiv.org/abs/1705.02092

まとめ

画像スタイルの転送に関する最近の研究は、合成画像の品質とアルゴリズムの速度の向上に焦点を当てています。しかし、リアルタイムのアプローチは非常に途切れが多く、ビデオに適用するとちらつきが目立ちます。この論文では、スタイル伝達目的方程式の解セットを調べることによって、これらの方法の不安定性を特徴付けます。結果は、グラム行列のトレースがメソッドの安定性に反比例することを示しています。これに基づいて、以前の方法の不安定性を克服する、時間連続損失を組み込んだリカレント畳み込みネットワークを提案します。当社のネットワークはあらゆる解像度に適用でき、テスト段階ではオプティカルフローを必要とせず、高品質で時間の連続する合成ビデオをリアルタイムで生成します。

1 はじめに

画像の芸術的スタイルの転送とは、画像のコンテンツと別の画像のスタイルを組み合わせて、まったく新しい画像を合成することです。この問題は最近、ディープニューラルネットワーク技術を使用して再検討されています。その後の作業により、メソッドの速度と品質が向上し、単一のモデルで複数のスタイルをモデル化できるようになりました。
　　最近の画像スタイルの転送方法は2つに分類できます。最適化ベースの方法では、合成画像ごとに最適化問題を解決します。この方法では高品質の結果が得られますが、時間がかかります。フィードフォワード手法は、最適化問題の解を近似するようにニューラルネットワークをトレーニングします。トレーニング後、この手法はリアルタイムで適用できます。ただし、これらの方法はすべて非常に不安定であり、図 1 に示すように、ビデオに適用すると目に見えるちらつきが発生します。Ruder らは、最適化ベースの手法を画像からビデオに拡張しました。彼らの方法では高品質の合成ビデオが生成されますが、リアルタイムアプリケーションには遅すぎます。
　　この論文では、フィードフォワード手法を使用してビデオ上でスタイル転送を実行し、最適化手法に匹敵する高品質の結果を生成することを目標としています。最近のスタイル転送方法では、画像のスタイルを表現するためにグラム行列の特徴を使用しています。スタイル画像のグラム行列を一致させることにより、様式化された画像が合成されます。スタイル画像のグラム行列のトレースがピクセルの不安定性と密接に関係していることがわかりました。特に、目的方程式のグラム行列マッチング解集合は、スタイル画像のグラム行列の軌跡によって半径が決定される球体である。この目的関数の非凸性により、コンテンツ画像の小さな変化により、合成画像が目的関数に一致するグラム行列の別の解に向かって押し出されます。すべての解が近い (小さなトレース) 場合、異なる解に対応する合成画像も同様になります (不安定性はありません)。しかし、解が遠く離れている場合 (トレースが大きい場合)、異なる解では非常に異なる合成画像が生成されます (非常に不安定です)。
　　この洞察に基づいて、フィードフォワード形式の転送方法の安定性を大幅に向上させ、高品質の様式化されたビデオの合成を可能にする方法を提案します。特に、ビデオのスタイル化にはリカレント畳み込みネットワークを使用し、時間的一貫性の損失を考慮してトレーニングしました。これにより、ネットワークは各タイムステップで目的関数に一致するグラム行列を見つけることができます。この文書での私たちの貢献は 2 つの部分に分かれています。

まず、スタイル伝達目的関数の解空間を調べることによって、最近のスタイル伝達方法の不安定性を特徴付け、スタイル画像のグラム行列の追跡と安定性が逆相関していることを示します。私たちの説明は、すべてのグラム行列マッチングベースのニューラルスタイル転送方法に適用されます。
第二に、以前の方法の不安定性を克服する、リアルタイムビデオ様式化のためのリカレント畳み込みネットワークを提案します。Ruder らの影響を受け、ネットワークが時間的に一貫した結果を生成することを促す、オプティカルフローベースの損失関数を組み込みました。私たちの手法は、フィードフォワード手法の速度と最適化ベースの手法の時間的安定性を組み合わせて、品質を犠牲にすることなくビデオの様式化を 1000 倍高速化します。

2.関連作品

テクスチャ合成:テクスチャ合成はスタイル転送に非常に近く、その目標は、入力テクスチャに基づいて生成プロセスを推論し、同じテクスチャを持つサンプルをさらに生成することです。テクスチャ合成の問題に対処するコンピュータビジョンの分野における初期の試みは、パラメトリックとノンパラメトリックという 2 つの異なるクラスのアプローチに分類できます。パラメトリック手法は、画像が直接サンプリングされる特徴空間のグローバル統計を計算します。ノンパラメトリックなアプローチは、局所的な条件付き確率密度関数を推定し、ピクセルを段階的に合成することです。このメソッドは、元のテクスチャのピクセルまたは領域全体をリサンプリングします。
　　パラメトリック手法は Julesz 特徴記述に基づいており、2 つの画像が特徴空間内で同様の統計的尺度を持っている場合、それらの画像は同じテクスチャを持つと言われます。Gatys らの研究は Portilla と Simoncelli に基づいており、高性能ニューラルネットワークの特徴空間を使用し、総計量としてグラム行列を使用しています。Ulyanov らは、フィードフォワードテクスチャ合成における知覚品質の問題に対処するために、インスタンスの正規化と新しい学習方程式を提案し、ジェネレーターが Julesz テクスチャアンサンブルから公平にサンプリングすることを促進します。Chen と Schmidt は、テクスチャ転送作業に基づいて、コンテンツイメージパッチと最も一致するスタイルアクティベーションパッチを交換して出力イメージアクティベーションを作成する、新しい「スタイルスワップ」ベースのアプローチを提案しています。次に、交換されたアクティベーションが逆ネットワークに渡されて、様式化された画像が生成されます。彼らの最適化方法は [22, 34] よりもはるかに安定しているため、ビデオへの適用に特に適しています。彼らの方法は一般化されており安定していますが、実行には数秒かかり、
　　リアルタイムビデオでのスタイル転送には使用できません。Gatys らの研究は、高性能畳み込みニューラルネットワークを使用した特徴表現により高品質の画像を生成できることを示しています。最適化ベースの手法の結果は視覚的に優れていますが、計算コストが高くなります。Johnson と Ulyanov らは、[12] よりも数千倍高速で、リアルタイムで様式化された画像を生成するために使用できるフィードフォワードネットワークを提案しました。ただし、各スタイルではフィードフォワードネットワークの個別のトレーニングが必要であり、生成された画像の視覚的な品質は最適化ベースの方法よりも劣ります。Dumoulinらは、条件付きインスタンス正規化層を使用してこの問題に対処し、1つのネットワークが複数のスタイルを学習できるようにすることを提案しています。[23、43] と比較すると、このシンプルで効果的なモデルは、速度と視覚的な品質を損なうことなく、より少ないパラメーターで任意の異なるスタイルを学習できます。
　　オプティカルフロー:オプティカルフローの正確な推定は、コンピューター研究の注目の課題であり、実用化への幅広い応用の可能性があります。オプティカルフロー推定の古典的な方法は、Horn と Schunck に基づいて提案された変分法です。畳み込みニューラルネットワーク (CNN) は、現在の最先端のオプティカルフロー検出アルゴリズムに匹敵することが示されています。FlowNet は、オプティカルフロー推定用の新しい CNN 構造を導入しており、変分法と同等のパフォーマンスを備えています。オプティカルフロー推定の完全なレビューはこの文書の範囲を超えています。興味のある読者は [1、33、3] を参照してください。
　　ビデオのスタイル転送従来のイメージアートのスタイル化は、非フォトリアリスティックレンダリングというラベルの下で研究されています。Litwinowicz は、印象派のブラシストロークを画像に変換するアクションと、オプティカルフローを使用してビデオフレーム間のピクセルを追跡するアクションを組み合わせて、イベントコヒーレントな出力ビデオシーケンスを生成した最初の人物です。ヘイとエッサルは、ブラシストロークのちらつきを克服するために、光学的および空間的制約をさらに追加しました。Hertzmann は、複数のブラシサイズと長い曲線ストロークを使用した画像ペイント技術を使用することで画像の視覚的品質を向上させ [18]、その後この作業をビデオに拡張しました。
　　Ruder は最近、隣接するフレーム間の時間的一貫性を強制するオプティカルフローベースの制約を導入することで、[12] の最適化ベースの方法を拡張しました。彼らはまた、長期的なビデオの一貫性を確保するためのマルチパスアルゴリズムも提案しました。彼らのアルゴリズムの結果は、時間的な一貫性とフレームごとの視覚的な品質の点で非常に優れていますが、1 つのフレームを処理するのに数分かかります。

3. スタイル転送の安定性

3.1 画像スタイルの転送

[12] でスタイル転送式を使用します。これについては、以下で簡単に説明します。を受け取る画像合成手法です。 $c$ とスタイル画像 $を入力として使用します$ 。出力画像 $pStateSpecificEquation$ $\mathcal{L}(s,c,p)=\$ lambda_c $L (s, c 、 p) = 私 L (p, c) + 私 L (p, s ） (1)$ ここで、 $\mathcal{L}_c$ そして $\mathcal{L}_s$ はそれぞれコンテンツ再構成損失とスタイル再構成損失です; $\lambda_c$ 和 $\lambda_s$ は、それらの重要性を制御するハイパーパラメータスカラーです。
　　畳み込みニューラルネットワークによるコンテンツとスタイルの再構築損失 $\phi$ の正式な定義には、ImageNet で事前トレーニングされた VGG-19 を使用します。 $\phi_j(x)$ は画像 $x$ はネットワーク $j^{th}$ 層の活性化出力、形状は $C_j\times H_j\times W_j$ 。一連のコンテンツレイヤー $\mathcal{C}が与えられるとします。$ とスタイル層 $\mathcal{S}$ 、コンテンツおよびスタイルの再構成損失は次のように定義されます。 $\ mathcal {L}_c(p,c)=\sum_{j \in \mathcal{C}}\frac{1}{C_jH_jW_j}\|\phi_j(p)-\phi_j(c)\|^2_2 \tag { 2}$ $\mathcal{L }_s(p,s)=\sum_{j \in \mathcal{S}}\frac{1}{C_jH_jW_j}\|G(\phi_j(p))-G(\phi_j(s))\|^ 2_F \タグ{3}$ ここで、 $G(\phi_j(x))$ です $C_j\times C_j$ $of j$ 層活性化出力 $C \times C$ グラム行列、 $TG(\phi_j(x))=\Phi_{jx}\Phi_{jx}^T$ , $\Phi_{jx}$ は $C_j\times H_jW_j$ 列が $\phi_j(x)である行列$ の $C_j$ 次元特徴ベクトル。
　　出力画像のピクセルを強制的にコンテンツおよびスタイル画像に一致させるのではなく、コンテンツおよびスタイルの再構成損失により、生成された画像がコンテンツ画像の高レベルの特徴およびスタイル画像の特徴関係と一致することが促進されます。

3.2 グラムマトリックスとスタイルの安定性

図 1 に示すように、コンテンツ画像 $c$ の小さな変更により、まったく異なるスタイルの画像が生成される可能性があります $p$ 。しかし、すべてのスタイルがこの不安定性を共有しているわけではないことに気づきました。コンポジション XIV (図 1 を参照) などの一部のスタイルは非常に不安定ですが、The Great Wave (図 9 を参照) などの他のスタイルはより安定しています。

不安定性がスタイルイメージにどの程度依存するかを調べるために、単一レイヤーのスタイルの損失のみを考慮します。次に、スタイル伝達ネットワークは目的関数を最小化します (わかりやすくするために、次の表 $j$ ): $\begin{aligned} \min_{G(\phi(p))}&\frac{1}{CHW}\|G(\phi(o))-G(\phi(s) )\|_F^2 \\ \min_{\Phi_p}&\|\Phi_p\Phi_p^T - \Phi_s\Phi_s^T\|^2_F \end{aligned}\tag{4}$ インスピレーションとして、まず単純な $C = H = W$ の場合、式 (4) は $(\Phi_p^2-\Phi_s^2)^2$ は非凸方程式であり、最小値は $\Phi_p=\pm \Phi_s$ 図 2 (左) に示すように、得られます。同様に、 $C = H = 1 、 W = 図2$ (右) に示すように、最小値は半径 $\Phi_s$ サークル上で。どちらの場合も、最小値は原点からの距離 $\Phi_sにあります。$ 距離。この発見は一般的な場合にも当てはまります。

定理 1. $\gamma$ とする $γ$ を原点として中心、半径は $tr(\Phi_s\Phi_s^T)^{\frac{1}{2}}$ 水面。 $\Phi_p \in \gamma$ の場合に限り、 $ファイ \in γ$ 時、 $J(\Phi_p)=\|\Phi_p\Phi_p^T-\Phi_s\Phi_s^T\|^2_F$ 最小値を取得します。

この結論は、これらのグラム行列が $tr(\Phi_s\Phi_s^T) を追跡することを意味します。$ $tr(\Phi_s\Phi_s^T)$ であるため、大きなスタイルはより不安定になります。 $t r (Φ ファイ_{s})$ スタイル再構成損失の増加に伴い、特徴空間内の解が大きく異なる可能性があります。 $tr(\Phi_s\Phi_s^T) を$
　　経験的に検証します $t r (Φ ファイ_{s})$ ; フレーム間の唯一の違いは、照明の小さな変化と検出器のノイズです。

[22] のアルゴリズムを使用して、12 スタイルの COCO データセット上で個別のフィードフォワードスタイルの転送モデルをトレーニングし、これらのモデルを使用してビデオデータセットの各フレームを様式化しました。入力ビデオの静的な性質により、スタイル化されたフレームの違いはスタイル伝達モデルの不安定性によるものです。隣接するスタイルフレーム間の平均二乗誤差を使用して各スタイルの不安定性を推定しました。各スタイルの不安定性と、 VGG-16relu1_1とグラム行列のトレースrelu2_1間の曲線を図 3 にプロットします。これらの結果は、スタイルの不安定性とトラックの間の相関関係を明らかにします。

4. アプローチ: 安定したスタイルの転送

要約すると、グラム行列トレースが大きい場合、リアルタイムスタイル転送用のフィードフォワードネットワークは不安定なスタイル化されたビデオを生成する可能性があります。私たちはこの問題を克服し、[22] の速度と [30] の安定性を同時に達成するフィードフォワード形式の転送方法を提案します。

4.1 全体構造

私たちのメソッドの入力は、コンテンツ画像シーケンス $c_1,\dots,c_Tです。$ とスタイル画像 $s$ 、様式化された画像シーケンスを出力します $p_1,\dots,p_T$ 。各入力は $p_t のように表示されます$ should と $c_t$ 共有コンテンツと $s は$ スタイルを共有し、 $p_{t-1}$ 見た目も似てますね。各タイムステップでの出力画像 $p_t$ スタイル転送ネットワーク $f_Wによる$ 以下を決定します: $p_t=f_W(p_{t-1}, c_t)$ 。
　　【22、34】と同様にネットワークをトレーニングしました $。$ 各タイムステップで、ネットワークは 3 つの損失の合計を最小化するようにトレーニングされます。 $\mathcal{L}(W,c_{1:T},s)=\sum_{t=1}^T(\lambda_c \ mathcal{L}_c(p_t,c_t)+\lambda_s\mathcal{L}_s(p_t,s)+\lambda_t\mathcal{L}_t(p_t,p_{t-1}))\tag{5}$ ここで、 $\mathcal{L}_c$ そして $\mathcal{L}_s$ は、それぞれセクション 3 で説明したコンテンツとスタイルの再構成損失です; $\mathcal{L}_t$ これは時間一貫性の損失であり、隣接するタイムステップからのネットワークの出力が大幅に変化するのを防ぎます。スカラー $\lambda_c,\lambda_s,\lambda_t$ は、これら 3 つの損失の重要性を測定するハイパーパラメータです。ネットワーク $f_W$ ビデオシーケンス ${ c_{1:T}\}$ 確率的勾配降下トレーニングによって式 (5) を最小化します。

4.2 スタイル転送ネットワーク

ネットワークが時間的に一貫した出力を生成する場合、フレームを独立して処理することはできないため、ネットワークには一貫性を確保するために以前の出力をチェックする機能が必要です。したがって、私たちのネットワークは現在のコンテンツ画像 $c_tを取得します。$ そして、前のフレームの様式化された結果 $p_{t-1}$ 結果を合成するための入力として $p_t=f_W(p_{t-1},c_t)$ 。図 4 に示すように、各タイムステップでのネットワークの出力は、次のタイムステップのネットワーク入力として使用されます。したがって $f_W$ は再帰畳み込みネットワークであり、時間をかけてバックプロパゲーションを通じてトレーニングする必要があります。
　　 $f_W$ の 2 つの入力は、チャネル次元に沿って連結されます。 $f_W$ 2 層のダウンサンプリング (その後にいくつかの残差ブロックが続く)、2 層の最近傍アップサンプリングと畳み込みが含まれます。すべての畳み込み層は、インスタンスの正規化と ReLU の非線形活性化に従います。

4.3 時間的一貫性の喪失

私たちのスタイル転送ネットワークは、それ自体の以前の出力をチェックできますが、この構造変更だけでは、時間的に一貫した結果を保証するのに十分ではありません。したがって、Ruder らと同様に、時間的一貫性の損失 $\mathcal{L}_tをスタイルとコンテンツの損失に追加します。$ 、隣接するタイムステップ出力が大きく異なる場合にネットワークにペナルティを与えることで、時間的に安定した結果を促進します。
　　最も単純な時間的一貫性の損失は、出力イメージ間のピクセルごとの差にペナルティを与えます。 $\mathcal{L}_t(p_{t-1} ,p_t)= \|p_{t-1}-p_t\|^2$ ．ただし、高品質の様式化されたビデオシーケンスを生成するには、様式化されたビデオフレームがタイムステップ間でまったく同じになることは望ましくありません。様式化された各フレームのストローク、線、色がモーションに追従する必要があります。入力ビデオ一貫した方法で後続のフレームに移行します。
　　これを達成するために、時間的一貫性の損失はオプティカルフローを利用して、出力フレームの変更が入力フレームの変更と一致することを保証します。具体的には、 $w = (あなた、 v)$ は入力フレーム $c_{t-1}$ そして $c_t$ 間のオプティカルフロードメイン。完璧なオプティカルフローが $c_tを実現$ そして $c_{t-1}$ 間のピクセルの相関; $p_tが必要です$ そして $p_{t-1}$ 対応するピクセルが一致します。したがって、時間的一貫性の損失により、すべてのピクセル座標 $(x, y)$ の差分： $p_{t-1}(x,y)-p_t (x+u(x,y),y+v(x,y))\tag{6}$ まずオプティカルフローを使用して出力フレーム $p_t$ $\チルダ{p}_t$ を取得 $p$ 、そして $\tilde{p}_tを計算します。$ そして $p_{t-1}$ この違いを効果的に実現するために、個々のピクセルの違いが使用されます。双一次補間の使用により、この歪みは微分可能になります。
　　前景のオブジェクトの移動により、 $c_{t-1}$ $c_t$ 内の一部のピクセルは、 $c$ はで遮られます; 同様に、 $c_{t-1}$ ct でオクルージョンされているピクセルの一部が $c_tに含まれている可能性があります$ に現れた。したがって、強制的に $\tilde{p}_t とすると、$ そして $p_{t-1}$ すべてのピクセルで時間的一貫性の損失が発生し、移動する境界で不自然なアーティファクトが発生する可能性があります。したがって、オクルージョンマスクを使用します $m$ を使用して、遮蔽されたピクセルまたは遮蔽されていないピクセルに時間的一貫性の損失を使用することを回避し、最終的に時間的一貫性の損失は次のようになります。 $\mathcal{L}(p_{t-1},p_t)=\frac{1}{HW}\|m_t\odot p_{t-1}-m_t \odot \tilde{p}_t\ |_F^2 \タグ{7}$ その中 $\in [0,1]$ オクルージョンとモーション境界領域の値 1 を取得します。 $\odot$ は内積、 $H 、 W$ は入力フレームの高さと幅です。損失関数の概要を図 5 に示します。

この損失の計算にはオプティカルフローマスクとオクルージョンマスクの両方が必要ですが、この損失はトレーニング中にのみ適用されるため、私たちの方法ではテスト中にオプティカルフローマスクやオクルージョンマスクを計算する必要はありません。