[スタイル転送]-芸術的なスタイルのニューラルアルゴリズム

スタイル転送-アーティスティックスタイルのニューラルアルゴリズム
From:Journal of Vision(2015)

概要

人々は、コンテンツのブレンドと絵画の描画を通じて独特の視覚的インパクトを生み出しますが、このプロセスの操作メカニズムはまだ不明です。また、DNNは、物体認識や顔認識など、他の分野でも人間に近い認識レベルに達しているため、この記事ではDNNを使用して画像の内容とスタイルを個別に学習し、芸術的な画像スタイルの転送を作成します。

セクションIはじめに

畳み込みニューラルネットワークは、画像処理タスクに広く使用されているDNNです。CNNには、視覚情報をフィードフォワード方式で階層的に処理および学習できる小さなコンピューティングユニットのレイヤーが含まれています。各レイヤーの画像フィルターは、理解に責任があります。コンボリューション処理の各レイヤーの後に、フィーチャマップと呼ばれる情報が出力されるように、特定のレベルの画像フィーチャ。オブジェクト認識のためにCNNネットワークをトレーニングする場合、処理レベルが深くなるにつれてますます複雑な特徴が抽出されるため、入力画像は、ピクセル値を表すだけでなく、畳み込みニューラルネットワークによる処理後に一連の実際の「コンテンツ」に変換されます。 。CNNの各レイヤーの機能マップを視覚化することで、ネットワークの深いレベルで抽出された機能がより高度なコンテンツ情報をキャプチャし、低レベルでは元の画像のピクセル値が繰り返されることが多いため、ネットワークのより深い機能を使用することがわかります応答はコンテンツ再提示と呼ばれ

、入力画像のスタイル表現を取得するには、画像のテクスチャ情報をキャプチャする必要があります。したがって、ネットワークの各レイヤーの最初のフィルタの応答間にフィーチャスペースが設計されます。この関係は、機能マップスペースでの関連付けを表します。これは、静的なマルチレベルの記述方法です。全体的なレイアウトの代わりにテクスチャ情報が使用されることに注意してください。
ここに写真の説明を挿入

図1から、元の画像がネットワークに入力された後、各レイヤーの異なるフィルターによって抽出された特徴マップが特徴付けられ、フィルターの数が増えると、特徴マップの各レイヤーのサイズがダウンサンプリングによって縮小されることがわかります。コンテンツの再構築:コン​​テンツの再構築a、b、cは、低レベルの機能マップの再構築を表します。元の画像はほぼ完全に復元されていますが、conv4_1とconv5_1は、ピクセル情報が失われているため、画像の詳細が失われています。スタイルの再構築の一部:スタイル情報画像空間のテクスチャの特徴は、さまざまなレベルの相関関係をキャプチャすることによって取得され、aeはそれぞれ、さまざまな部分空間の組み合わせの下で抽出されたスタイル情報を表します。視覚化の結果から、サブセットにさまざまなレベルが含まれているほど、より詳細な情報が失われますが、スタイルは元の画像の全体的なスタイルに近いことがわかります。

この論文の重要な発見は、畳み込みニューラルネットワークでは、画像のコンテンツ表現とスタイル表現が互いに分離されていることです。したがって、組み合わせを手動で操作して、2種類の異なるコンテンツとスタイルを組み合わせた新しい意味のある画像を生成することができます。この発見をよりよく説明するために、この記事では、ドイツの小さな町Neckarfrontの写真をコンテンツ写真として選択し、一連の有名なアートペインティングをスタイル写真として選択します。

ここに写真の説明を挿入

最終的な複合効果は、さまざまな芸術的スタイルの下での元の建物です。図2のスタイルは、すべてのレイヤーが収集された後に抽出されるスタイル表現です。または、レイヤーの一部で構成されるスタイルを選択することもできます。図3に示すように、画像全体の移行では、通常、すべてのレベルから抽出されたスタイル表現が使用されるため、視覚効果が向上します。平和で継続的。

もちろん、無向のコンテンツやスタイルは完全に無関係というわけではありません。画像生成の過程で、2つの画像が同時に完全に一致しないことがよくあります。トレーニングプロセス中に損失関数を調整することで、焦点を明確にすることができます。たとえば、スタイル学習を重視すると、生成された画像に芸術的な写真のテクスチャ情報が含まれるようになりますが、写真のコンテンツ情報が含まれない場合があります。コンテンツ学習を重視すると、芸術的なスタイルの不一致も発生します。実際の操作では、この2つをトレードオフする必要があります。 。

したがって、この記事で提案する深層学習フレームワークは、画像のコンテンツとスタイルを分離し、コンテンツの保持に基づいて元の画像を他のスタイルに転送できるようにします。この記事では、DNNを使用して、オブジェクト認識の事前トレーニングフレームワークを実行し、画像スタイルを取得します。特性評価とコンテンツ特性評価。この記事は、自然な画像コンテンツとスタイル特性の分離を初めて実現したものです。
ここに写真の説明を挿入

図3は、さまざまなレベルでのスタイルの効果を示しています。レベルが深くなるほど、高レベルの受容フィールドと機能の複雑さが増すため、スタイルが複雑になることがわかります。各列の上部にある数字は、コンテンツ/スタイルの比率を表しています。値が大きいほど、コンテンツが強調されます。

以前の関連研究では、主に風景、手書き、人間の顔などの比較的単純な小さな写真を使用していました。この記事では、実際の写真の一連の芸術的な画像スタイルのレンダリングを完了し、ピクセル値を直接操作するのではなく、DNNを使用しました。機能空間で実行される操作。

さらに、この記事では、スタイル表現の簡潔な単一ニューロンレベルの説明を提供し、主にさまざまなタイプのニューロン間の関係を説明します。


 #セクションIIメソッドの

 基本的なネットワークは、VGG-19のネットワークですコンボリューションカーネルプーリングレイヤーは、完全に接続されたレイヤーを使用しません。画像生成の過程で、最大プーリングを平均プーリングに置き換えると、勾配フローに役立つことがわかりました。

 一般に、ネットワーク内の各レイヤーは一連の非線形変換を定義します。入力された元の画像は、各レイヤーのフィルターによってさまざまな仕様のフィーチャマップにエンコードされ、損失は元の画像と生成された画像の平均二乗誤差として定義されます。
ここに写真の説明を挿入

 スタイル表現は、応答の各レイヤーの最上部に構築され、グラムマトリックスによって計算されるさまざまなフィルターの相関を計算し、グラムは内部積を計算します。

 グラムマトリックスリファレンス:
グラムマトリックス

 は、2つのグラムマトリックスを最適化することでスタイル学習の目的を達成し、さまざまなレイヤーの重みを表すwl重み係数も導入します。
ここに写真の説明を挿入コンテンツロスとスタイルロスを共同で最適化することで、生成された画像は元の写真のコンテンツと芸術的な画像のスタイルを同時に学習できます。アルファとベータは、2つの重みを決定します。
ここに写真の説明を挿入

おすすめ

転載: blog.csdn.net/qq_37151108/article/details/107318706