[スタイル転送]-ディープフォトスタイル転送


CVPR2017
ソース码からのディープフォトスタイル転送ディープフォトスタイル転送

概要

この論文では、深層学習に基づく写真のスタイル転送は、歪みによって引き起こされる歪みを導入することなく、参照画像のスタイル情報をより適切に保持することができます。Gatysは、ニューラルネットワークのさまざまなレイヤーを使用してスタイルの転送を完了しますが、選択したコンテンツイメージとスタイルイメージが写真であっても、変形されるため、写真のスタイルの転送には完全には適していません。この記事の主な貢献は、出力を特定の色に制限することです。空間の変形を抑制し、写真のリアリズムを維持するために、この制約は完全に区別できます。現在、タイムラプス変換、天気、季節、芸術的なスタイルなど、さまざまなアプリケーションシナリオで正常に適用されています。

セクションIはじめに

写真スタイルの転送には多くのアプリケーションがあります。たとえば、適切な参照画像を選択すると、さまざまな時間、季節、芸術的なスタイルで撮影された入力画像を作成できますが、Gatysニューラルネットワークベースのスタイル転送では、図1©の多くの直線エッジなどの歪みが発生します。すべてが曲がり、テクスチャが歪んで、非現実性は絵画のようになります。

この論文の貢献の1つは、色空間の変換を特定の範囲内に制限することによって、絵画の局所的な歪みと視覚的知覚を減らすことです。ここでの制約は、Matting Laplacianの関連作業に触発され、微分可能なエネルギー項を導入します。 ;制約を追加しますが、移行への影響はほとんどありません。


この記事の2番目の貢献は、コンテンツ内の入力画像と参照画像の違いを巧みに評価することです。たとえば、入力画像に「空」成分が少ない場合、スタイル転送によって発生する空のスタイル成分が他の部分に「オーバーフロー」することがあります。この記事では、セマンティックセグメンテーションを使用してこの問題を解決します。
ここに写真の説明を挿入(a)を参照画像、(b)を入力画像として、生成された画像に(b)のシーンを保持させ、(a)のスタイルにする方法を模索しています。Gatysの作品では色の転写に成功しましたが、画像にある程度の歪みが生じ、生成された画像が絵画のようになり、写真スタイルの転写には適していませんでした。Gatysの(c)と比較して、この論文の結果(d)は、写真のリアリズムをよりよく保存することができます。[拡大された食品の方が良い]

パートAの課題と貢献
実用化の観点から、写真のスタイル転送を効果的に解決するには、2つの主要な課題があります。構造の保存は、スタイル転送のプロセスに固有の矛盾を解決することです。比較的強力なローカル変更を形成することのみを望んでいます。たとえば、窓からの光源の明るさをオンにしても、窓がグリッド形状を維持している場合、構造を幾何学的に変形させることなく、色空間を大幅に変更できるアフィン変換を見つける必要があります。この記事では、色空間を写真画像に直接制限します。肖像画と写真を区別するという基本的な問題が解決されました。セマンティック精度と転送の忠実度セマンティック精度と転送の忠実度現実世界の複雑さは、スタイル転送に別の課題を生み出します。転送プロセスは、元のシーンのセマンティック情報にできるだけ近づける必要があります。たとえば、都会のストリートシーンの写真では、建物のスタイルと空と空のスタイルが一致している必要があり、移行後の空と建物のスタイルが同じであってはなりません。初期の研究では、スタイルの転送は、MRFが入力パッチに最も一致する領域を選択することに基づいていることがよくありますが、一致度が低い他の領域のスタイルは無視されるため、転送後に不十分な結果になることがよくあります。もう1つは、グラムマトリックスを計算してスタイル転送を行うことです。これにより、全体的なスタイル分布情報として人や地域が無視されることはありませんが、一部の詳細オブジェクトでは、参照画像では比較的小さい傾向があり、スタイル転送後にスタイルが転送されることがよくあります。より多くを占める他のスタイルに移行すると、空のテクスチャを構築するアーティファクトなどの歪みも作成されます。この記事の解決策は、移行プロセスにセマンティックラベルを導入し、同じセマンティックカテゴリのさまざまな領域で同じスタイルの移行を実行することです。移行の一貫した効果を図2に示します。
ここに写真の説明を挿入

(a)はコンテンツ画像(e)は参照であり、効果の比較を実現するためのスタイル転送を通じて、GatysまたはMRFベースの方法がある程度空や建物の変形を引き起こしていることがわかりました。この記事では、セマンティックタグを使用してテクスチャマッチングを行います。セックスが良いので、スタイル転送の効果が良くなります。
パートB関連作品の

グローバルスタイル転送アルゴリズムは、通常、中程度の色調やコントラストなど、画像全体の変換に対して空間的な不変性を持っていますが、より複雑なスタイル転送には無力です。ローカルスタイルの転送は、主に空間カラーマッチング情報に基づいているため、さまざまな日光、季節、天気、芸術的なスタイルの変化に対応できます。この作業の基本は、GatysのVGG-19ベースのフレームワークに従うことですが、ローカル変換とグローバル変換の一貫性を正しく処理する方法に焦点を当てた、フォトリアリスティックなスタイルの変換を目的としています。この部分は、画像処理に関連していますが、この論文の仕事はもっと用途が広い。

#セクションII方法は、


2つの画像を入力する方法です。Gatysの傑作に基づいて、入力画像と参照スタイル画像の2つの側面が強化されています。



(1)最適化プロセスでは、画像スタイルの正規用語が導入され、再構築された画像は入力画像に制限されます。カラースペースで;



(2)補助ガイドスタイルのセマンティックセグメンテーション移行プロセスを使用して、配線の移行後にコンテンツの損失が発生しないようにすることで、イメージのリアルなスタイルの移行が向上します。背景:Gatysの作業、コンテンツ損失とスタイル損失をスタイル転送に使用する方法を確認します。


ここに写真の説明を挿入

フォトリアリズムの正規化


は、主に最適化プロセス中に入力画像の構造情報を保持して出力をより現実的にするために使用されます。入力写真画像自体が現実的であるため、出力画像ではなく変換プロセスに制約を課しません。したがって、変換プロセス中に失われないようにすることをお勧めします。したがって、スタイル転送プロセスの全損失関数の後に正規化項を追加して、画像変形部分を罰することができます。これにより、出力画像変換は入力画像のカラースペースに制限されます。 、および異なる領域は、異なる空間位置のために異なる方法で変更されます。エッジ検出の原理と同様に、入力RGB値は変換されますが、検出されたエッジの位置は変更されず、各チャネルに表示されます。


セマンティックセグメンテーションによる拡張ス​​タイルロス



セマンティックエンハンスメントロス関数GramMatrixは、スタイルイメージのテクスチャ特性を適切に表すことができますが、イメージ全体に基づく計算では、セマンティックコンテンツの変更を処理する機能が制限されるため、この記事ではNeuralDoodleと同様のセグメンテーションのアイデアを採用します。入力画像と参照画像は一連のマスクを生成します。これらのマスクは、それぞれのチャネルの背後に連結されてカスケードされ、損失によって一緒に更新されます。また、「孤立カテゴリタグ」の使用を避けるため、この記事では入力画像カテゴリを参照画像カテゴリに限定して選択するため、「湖」や「海」などの厳密な意味の不一致があるかもしれませんが、内容は上記は類似しており、カテゴリラベルの精度は、ピクセルレベルである必要はありません。これは、最終的には、以前のフォトリアリスティックな正規化によって制約されるためです。




したがって、最終的な全損失関数は次のようになります。




ここに写真の説明を挿入

それらは、コンテンツの損失、セマンティックで強化されたスタイルの損失、および正規化の用語であり、それぞれに独自の重み係数があります。











#セクションIII実装の詳細






実験の詳細についてはGatysフレームワークを参照し、引き続きVGG-19を機能抽出機能として使用します。ここで、conv4_2はコンテンツ機能として使用され、conv1_1,2_1,3_1,4_1,5_1はスタイル機能として使用され、特定の重み設定は元のテキストにあります。





トータルロスの計算では、まずガティスのスタイルロスの計算を参考にすると、ノイズがランダムに初期化されます。この2段階の最適化戦略と、最初の正規化項の使用により、ローカルカラーが抑制されすぎる可能性があります。セマンティックエンハンスメント部分で採用されているセグメンテーションネットワークはDeepLabですが、このような細かい150のカテゴリは使用しませんが、同様のクラス(川、湖、海、水、その他の近似カテゴリなど)をマージして、セグメンテーション後のセグメンテーションマップを簡素化します。そして、生成された注釈情報。





ここに写真の説明を挿入上の図は、正規化項の重み係数がスタイル転送に与える影響を示しています。バリエーションが大きい、より極端なスタイル変換の場合、ラムダが小さすぎると歪み(b、c)を効果的に抑制できず、ラムダが大きいと効果的に抑制できないことが実験でわかっています。それはスタイル転送を妨げ、不完全な様式化(e、f)をもたらし、最終的にラムダ= 10000をスタイル転送のスイートスポットとして使用します。

#セクションIVの結果と比較






比較結果は





最初に他のスタイル転送アルゴリズムと比較されました。比較に関係するものは次のとおりです。Gatysのニューラルスタイル転送、MRF。図4に示すように、aeは入力画像、参照画像、Gatys、MRF、およびこの記事の移行効果。その中で、Gatysのニューラルスタイルはセマンティック情報を完全に無視します。CNNMRFは最近傍検索に基づいてパッチマッチングを実行し、ほとんどのセマンティック情報を無視します。この記事のメソッドは、スタイル転送にセマンティック情報をうまく利用します。





ここに写真の説明を挿入
図5は、他のグローバル変換アルゴリズムとの比較を示しています。グローバルスタイル転送は、入力画像とカラーマッチング用のスタイル画像の色統計に基づいているため、ローカルの変更に対処する能力が制限されていますが、この記事はコンテンツに敏感であり、コンテンツが変更されると、ローカルの色調整が行われます。
ここに写真の説明を挿入
図6は、この記事の移行効果と、1日以内の光と影の変化のShih [15]を示しています。どちらも非常に優れた移行効果を達成していますが、この記事には写真のみが必要であり、[15]はビデオに基づいている必要があります。大容量のストレージ、およびこの記事の方法は、他のシナリオにも適用できます。
ここに写真の説明を挿入図7は、火の玉のスタイルを芸術的創造に使用できる香水瓶に移すなど、セマンティックマスクを操作することによって特定のスタイルの移管を制御する方法を示しています。
ここに写真の説明を挿入ここに写真の説明を挿入

図8は、極端な不一致によって引き起こされたいくつかの障害ケースを示しています。これは、手動のセグメンテーションによって修正できます。
上記の結果はすべて、上記の2段階の最適化によって生成され、通常3〜5分かかります(Titan X GPUに基づく)。アルゴリズムを検証するために、
ユーザースタディで
は、それぞれNeural Style、Pitie、CNNMRF、およびこの記事の2セットのオブザーバー実験も実施しました。移行効果は、「完全に非現実的」から「完全に現実的」までの範囲で評価されます。各方法は8つの異なるシナリオでテストされ、さまざまなスタイルの移行アルゴリズムの忠実度/忠誠心がさらに比較されます。
図9は、2つのユーザー調査のスコアを示しています。この記事の方法は、リアリズムとスタイルの忠誠心の点で高いスコアを達成していることがわかります。
ここに写真の説明を挿入

セクションV結論

この記事では、ニューラルスタイルに基づいた正規化項目を紹介し、スタイル転送の範囲を制限して、元の画像構造をより適切に保持することに基づいてスタイル転送を実行します。改良されたセマンティックエンハンスメントロス部分は、構造変形の発生を効果的に低減します。このディープフォトスタイルトランスファーは、日中の光と影の変化、天気、季節、芸術作品で広く使用できます。

おすすめ

転載: blog.csdn.net/qq_37151108/article/details/107619808