CVPR 2022 {2} Kuaishou&Chinese AcademyofSciencesオープンソースStyTr^2:トランスフォーマーベースの画像スタイル化方法

下のカードをクリックして、「 CVer」パブリックアカウントをフォローしてください

AI / CVの重い乾物、できるだけ早く配達

この記事の複製元:Heart of the Machine |著者:Kuaishou Y-tech

本論文では、トランスフォーマーをベースにした画像スタイル転送法を提案し、この方法が画像様式化の最先端の研究と視野、特に画像生成におけるトランスフォーマーの応用を促進することを期待している。

5b6f0508bec8e678d35155e6ed54e635.png

  • 紙のリンク:https://arxiv.org/abs/2105.14576

  • コードアドレス:https://github.com/diyiiyiii/StyTR-2

画像の様式化は興味深く実用的なトピックであり、参照スタイルの画像を使用してコンテンツ画像を表示できます。これは長年にわたって学界で広く研究されており、短いビデオ分野を含む業界で広く使用されています。たとえば、モバイルインターネットユーザーは、快手中央駅、スピードエディション、Yitian Camera、Kuaiyingなどの一連のアプリを通じて、手描き、水彩、油絵、Qバージョンのかわいいスタイルなどのさまざまなポートレートスタイルの特殊効果を体験できます。

従来のテクスチャ合成ベースのスタイル化方法では、鮮やかなスタイル化された画像を生成できますが、ストロークの外観とペイントプロセスのモデリングが含まれているため、計算が複雑になります。その後、研究者は畳み込みニューラルネットワークに基づく神経様式化に焦点を合わせました。最適化ベースのスタイル化方法は、コンテンツ画像とスタイル画像を参照し、生成された結果を繰り返し最適化します。エンコーダー様式化モジュールデコーダーの設計によれば、任意の様式化方法は、エンドツーエンドのアプローチを利用して、スタイル画像に従ってコンテンツ画像の二次統計を調整し、様式化された結果を効率的に生成することができる。ただし、コンテンツとスタイルの関係をモデル化する機能が限られているため、これらの方法では多くの場合、満足のいく結果を得ることができません。この問題を克服するために、いくつかの研究方法は、様式化の結果を改善するために自己注意メカニズムを適用します。

現在の主流の様式化方法は、一般に畳み込みニューラルネットワークを使用してスタイルとコンテンツ表現を学習します。畳み込み操作の受容野が限られているため、画像の長距離依存関係をキャプチャできるのは、深い畳み込みネットワークだけです。ただし、ネットワークの深さを増やすと、画像の特徴の解像度が低下し、細部が失われます。様式化された結果に現れる詳細の欠如は、コンテンツ構造の保存とスタイルパターンの表示に影響を与えます。図1(a)に示すように、畳み込みニューラルネットワークに基づく様式化アルゴリズムは、特徴抽出のプロセスの一部の詳細を無視します。ネットワークの浅い層は局所的な特徴に焦点を合わせ、深い層は局所的な情報を統合することによってグローバルな情報を取得できます。 。さらに、いくつかの調査研究では、典型的なCNNベースの様式化方法によって得られたコンテンツ表現が不正確であり、コンテンツの漏洩の問題が発生することがわかりました。数回の様式化操作を繰り返した後、様式化で元の入力をほとんど保存できません。結果。コンテンツ構造情報。

e7d64f196f787fd718249fc80a687721.png

図1(a)CNNベースの定型化された中間層の視覚化の結果;(b)私たちの方法の中間層の視覚化の結果

自然言語処理(NLP)の分野でのTransformerの成功に続いて、Transformerベースのアーキテクチャがさまざまなビジョンタスクに使用されてきました。Transformerをコンピュータービジョンに適用することには2つの利点があります。1つは、自己注意メカニズムの助けを借りて、Transformerは入力のグローバル情報を簡単に学習できるため、各レイヤーで入力の全体的な理解を得ることができます。 Transformerこれはリレーショナルモデリング構造であり、さまざまなレイヤーで同様の構造情報を抽出できます(図1(b)を参照)。したがって、Transformerには強力な特徴表現機能があり、特徴抽出の過程で詳細が失われるのを防ぎ、生成された構造を適切に保持できます。

この論文は、CNNベースの定型化手法におけるコンテンツ表現のバイアスの問題のための新しい画像定型化アルゴリズム、すなわちStyTr^2を提案します。

方法

Transformerの長期的な依存関係をキャプチャして画像のスタイル設定を実現する機能を利用するために、このペーパーでは図2の構造を設計します。モデルには主にコンテンツTransformerエンコーダー、スタイルTransformerエンコーダー、Transformerデコーダーの3つの部分が含まれます。コンテンツトランスフォーマーエンコーダーとスタイルトランスフォーマーエンコーダーは、それぞれコンテンツドメインとスタイルドメインの画像の長距離情報をエンコードするために使用されます。このエンコード方法により、詳細が失われる問題を効果的に回避できます。Transformerデコーダーは、コンテンツの特徴をスタイル付きの画像の特徴を備えた定型化された結果に変換するために使用されます。

68404cb04681a9dec995481c840926f9.png

図2ネットワーク構造

さらに、この論文は、従来の位置符号化に関して2つの重要な問題を提起します。まず、画像生成タスクでは、PE(Position Encoding)を計算するときに画像セマンティクスを考慮する必要がありますか?従来のPEは論理的に順序付けられた文に基づいて設計されていますが、画像シーケンスは画像コンテンツセマンティクスに基づいて編成されています。2つの画像パッチ間の距離がd(。、。)であると仮定します。図3(a)の右側に示すように、d((0、3)、(1、3))(赤と緑のブロック)の違いはd((0、3)、(3 、3))(赤とシアンのブロック)の違いは同じである必要があります。これは、スタイル化タスクで同様のスタイル化結果を得るには、同様のコンテンツパッチが必要になるためです。第二に、入力画像サイズが指数関数的に増加する場合、従来の正弦波位置エンコーディングは視覚タスクでも機能しますか?3(a)に示すように、画像サイズが変化すると、同じ意味位置にパッチが適用されます(青色で小さい間の相対距離長方形)は大幅に異なりますが、これは視覚タスクのマルチスケール入力要件には適していません。

40ef6c5283e3735a621f9ba6a9c91d72.png

図3CAPE計算の概略図

この目的のために、この論文は、スケール不変であり、意味的に関連性があり、様式化タスクにより適したコンテンツ認識位置符号化(CAPE)を提案します。

結果が表示されます

図4に示すように、StyTr ^ 2は、最先端の方法と比較して、より優れた機能表現能力を備えたTransformerベースのネットワークを利用し、入力画像の長期的な依存関係をキャプチャし、コンテンツとスタイルの損失を回避します。詳細。したがって、私たちの方法の結果は、高品質の様式化を達成することができ、結果は、良好なコンテンツ構造と豊富な様式パターンを同時に維持することができます。

b05972a76e4ededbec7095b312ef053a.png

図4定型化された結果の比較

図5は、ラウンド1と20の定型化された結果を示しています。まず、最初のラウンドの定型化された結果を比較します。CNNベースの方法で生成された結果のコンテンツ構造はさまざまな程度で損傷していますが、このペーパーの結果は依然として明確なコンテンツ構造を持っています。ArtFlowによって生成された結果は明確なコンテンツ構造を維持しますが、スタイル設定の効果は不十分です(たとえば、エッジの欠陥や不適切なスタイルパターン)。第二に、様式化の数が増えると、CNNベースの方法で生成されたコンテンツ構造はぼやける傾向がありますが、私たちの方法で生成されたコンテンツ構造は依然として明確です。

36858d6189419c49e61c6c83b070a83d.png

図5マルチラウンドスタイルの結果の比較

 
  

ICCVおよびCVPR2021ペーパーおよびコードのダウンロード

舞台裏の返信:CVPR2021、 CVPR2021の論文とオープンソースの論文コレクションをダウンロードできます

背景の返信:ICCV2021、 ICCV2021の論文とオープンソースの論文コレクションをダウンロードできます

背景の返信:トランスフォーマーレビュー、最新の3つのトランスフォーマーレビューPDFをダウンロードできます

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申请加入CVer-Transformer或者目标检测 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer或者目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信: CVer6666,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!

▲扫码进群
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

おすすめ

転載: blog.csdn.net/amusi1994/article/details/124054388