CVPR 2022 | 最も完全な 25 以上のトピックの方向性と最新の 50 の GAN 論文の概要

テイクアウトのランチ、CV ビジョンの最前線でトレンドセッターになる

 テーマは35種類!ICCV 2021 の最も完全な GAN 論文の概要

記事数は110以上!CVPR 2021 で最も完全な GAN ペーパーコーミング

記事数は100以上!CVPR 2020 で最も完全な GAN ペーパーコーミング 

最新のビジュアルカンファレンスである CVPR2022 カンファレンスでは、GAN に基づく多数の論文が発表され、さまざまなビジュアルタスクで広く使用されています。

以下の書類を分類してパッケージ化しました!バックグラウンドでCVPR2022に返信  (赤い文字を長押し、選択してコピー)すると、フォルダーごとに分類されまとめられた論文集が表示されます。始めましょう。

整理するのは簡単ではありません。公式を読んで、再投稿し、共有し、 Sanlianを見て、編集者をたくさん励ましてください!

1. 3D

1、FLAG: まばらな観測からのフローベースの 3D アバター生成

  • 現実的で妥当なアバターのポーズを生成するために、ヘッドマウント デバイス (HMD) からこのタスクに適用される信号フローは通常、頭のポーズと手のポーズの推定に限定されます。

  • これらの信号は貴重ですが、人体の不完全な表現であるため、妥当な仮想全身を生成することが困難になります。私たちは、まばらな観察から 3D 人間のフローベースの生成モデルを開発することでこの課題に対処します。このモデルでは、3D 人間のポーズの条件付き分布だけでなく、観察から潜在空間への確率的マッピングも学習され、そこからもっともらしいポーズが得られます。関節の違いも学習され、確実性が推定されます。

6f417d5e1ce844322575e57d8ca9ba4e.png

2、3D 形状変分オートエンコーダー ボディとフェイスのミニバッチ特徴スワッピングによる潜在的もつれ解除

  • 顔と身体の 3D 生成モデルにおける、もつれが解け、解釈可能で、構造化された潜在表現を学習することは、依然として未解決の問題です。この問題は、アイデンティティ特性の制御が必要な場合に特に深刻です。

  • この論文では、アイデンティティ特徴の潜在表現を分離できる 3D 形状変分オートエンコーダ (VAE) をトレーニングするための、直感的で効率的な自己教師ありアプローチを提案します。異なる形状間で任意の特徴を交換することによってミニバッチ生成を管理するには、潜在表現における既知の相違点と類似点を利用する損失関数を定義できます。実験結果によると、最先端の潜在的デカップリング手法は顔や身体からアイデンティティ特徴を解きほぐすことができないが、提案された方法は良好な表現と再構築能力を維持しながら、これらの特徴の生成を正しくデカップリングすることが示されている。

  • コードと事前トレーニングされたモデルは、github.com/simofoti/3DVAE-SwapDisentangled で入手できます。

583442dcc137904d7dda3d5d01afbffa.png

2. GANの改善

3、極性サンプリング: 特異値による事前トレーニング済み生成ネットワークの品質と多様性の制御

  • 我々は、事前トレーニングされた深層生成ネットワーク (DGN) の生成品質と多様性を制御するためのプラグアンドプレイ手法である極性サンプリングを提案します。この論文では、StyleGAN3、BigGAN-deep、NVAEを含むいくつかの最先端のDGNの、さまざまな条件付きおよび無条件画像に対する全体的な生成品質(フレシェ開始距離などの点)の改善に関する定量的および定性的な結果を示します。生成タスク。特に、極性サンプリングにより、FFHQ データセット上の StyleGAN2 の FID パフォーマンスが 2.57 に、LSUN 車データセット上の StyleGAN2 のパフォーマンスが FID 2.27 に、AFHQv2 データセット上の StyleGAN3 の FID パフォーマンスが 3.95 に更新されます。

b3b8689e6e782c79f034227cce372a22.png

4、敵対的生成ネットワークのための特徴統計混合正則化

  • Generative Adversarial Networks では、識別器を改善することが生成パフォーマンスの鍵の 1 つです。この論文では、弁別器のバイアスと、バイアスを除去することで生成パフォーマンスを改善できるかどうかを研究します。経験的証拠は、識別子がテクスチャや色などの画像のスタイルに敏感であることを示しています。解決策として、特徴統計混合正則化 (FSMR) が提案されており、これにより、入力画像のスタイルに対して弁別器の予測が不変のままになることが促進されます。具体的には、元の画像と参照画像のハイブリッド特徴が弁別器の特徴空間で生成され、ハイブリッド特徴の予測が元の画像の予測と一致するように正則化が適用されます。

  • 広範な実験により、この正則化によりスタイルの感度が低下し、さまざまな GAN アーキテクチャのパフォーマンスが向上することが実証されました。さらに、最近提案された拡張ベースの GAN 手法に FSMR を追加すると、画質がさらに向上します。

  • https://github.com/naver-ai/FSMR

c68d66e3e733e0771af8719b179d284a.png

3. 髪型の編集

5、HairCLIP: テキストと参考画像で髪をデザイン

  • ヘアスタイルの編集は、コンピュータ ビジョンとグラフィックスにおける興味深い、困難な問題です。既存の手法の多くは、編集のための条件入力として注意深く描かれたスケッチやマスクを必要としますが、これらの対話は単純でも効率的でもありません。ユーザーを退屈な対話プロセスから解放するために、この論文では、ユーザーが提供したテキストまたは参照画像に基づいてヘア属性を個別または共同で操作できる、新しいインタラクティブなヘア編集モードを提案します。

  • この目的を達成するために、画像とテキストの条件が共有埋め込み空間でエンコードされ、Contrastive Language-Image Pretrained (CLIP) モデルの強力な画像からテキストへの表現機能を活用することで、統一されたヘア編集フレームワークが提案されます。適切に設計されたネットワーク構造と損失関数により、フレームワークは分離された方法で高品質の編集を実行できます。広範な実験により、操作の正確さ、編集結果の視覚的信頼性、無関係な属性の保存の点でこの方法の優位性が実証されています。

  • https://github.com/wty-ustc/HairCLIP

4. スタイルの移行

6、任意のスタイル転送とドメイン汎化のための正確な特徴分布マッチング

  • 任意スタイル転送 (AST) とドメイン一般化 (DG) は、特徴分布マッチング問題として定式化できる、重要ではありますが困難な視覚学習タスクです。ガウス特徴分布の仮定の下では、従来の特徴分布マッチング手法は通常、特徴の平均と標準偏差を一致させます。ただし、現実世界のデータの特徴分布は通常、ガウス分布よりもはるかに複雑で、1 次統計と 2 次統計だけを使用して正確に一致させることはできず、高次統計を使用した分布一致には計算量が法外です。

  • この研究は、画像特徴の経験的累積分布関数 (eCDF) を正確に照合することによって正確なヒストグラム マッチング (EFDM) を実行することを初めて提案したものであり、提案された方法はさまざまな AST および DG タスクで効果的に検証されています。

  • https://github.com/YBZh/EFDM

443903edbe0ed005d56c51cdba3468b2.png

7、Show Me What and Tell Me How: マルチモーダルコンディショニングによるビデオ合成

  • ほとんどの条件付きビデオ合成方法は単一のモダリティを条件として使用しますが、これには重大な制限があります。たとえば、ユーザーが期待する特定の動作軌跡を生成するために画像に条件付けされたモデルには、動作情報を提供する手段がないため問題があります。対照的に、言語情報は目的のアクションを説明できますが、ビデオの内容を正確に定義することはできません。

  • この作品は、一緒にまたは個別に提供されるテキストと画像に基づいて、マルチモーダルビデオ生成フレームワークを提案します。量子化ビデオ表現における最近の進歩を活用し、複数のモダリティを持つ双方向トランスフォーマーを入力として適用して、離散ビデオ表現を予測します。ビデオの品質と一貫性を向上させるために、自己学習によってトレーニングされた新しいビデオ トークンと、ビデオ トークンをサンプリングするための改良されたマスク予測アルゴリズムが提案されています。テキスト拡張は、テキスト表現の堅牢性と生成されるビデオの多様性を向上させるために導入されています。フレームには、セグメンテーション マスク、描画、部分的に遮られた画像など、さまざまな視覚モダリティを含めることができます。トレーニングに使用されるシーケンスよりもはるかに長いシーケンスを生成できます。

  • さらに、このモデルは、「画像内の物体が北東に移動している」などのテキスト キューによって示唆される視覚情報を抽出し、対応するビデオを生成できます。3 つの公開データセットと、顔属性でラベル付けされた新しく収集されたデータセットで評価すると、最良の生成結果が得られます。

125b53f24b0a0873418825b2bd0af030.png

8、Style-ERD: 応答性と一貫性のあるオンライン モーション スタイル転送

  • モーション スタイルの転送は、キャラクター アニメーションを豊かにするための一般的なアプローチであり、通常はオフライン設定でモーションを部分的に処理します。ただし、モーション キャプチャからのリアルタイム アバター アニメーションなどのオンライン アニメーション アプリケーションの場合、モーションは最小限の遅延でストリームとして処理される必要があります。

  • この研究では、Encoder-Recurrent-Decoder 構造と、特徴アテンションと時間アテンションを組み合わせたディスクリミネーターを使用して、オンライン形式でモーションを様式化する、柔軟で高品質なモーション スタイル転送手法である Style-ERD を実装します。この方法では、統合モデルを使用してモーションを複数のターゲット スタイルに様式化します。この方法はオンライン設定を対象としていますが、動きのリアリズムとスタイル表現力の点で以前のオフライン方法を上回り、実行時の効率が向上します。

93ff71e6b1912b1c9375efd347da54ce.png

9、パスティーシュマスター:見本ベースの高解像度ポートレートスタイル転送

  • StyleGAN に関する最近の研究では、限られたデータを使用した転移学習が芸術的なポートレートの生成に非常にうまく機能することが示されています。

  • この論文では、元の顔領域と芸術的ポートレート領域のデュアル スタイルを柔軟に制御できる、より困難な参照サンプル ベースの高解像度ポートレート スタイル転送を探索するために DualStyleGAN を提案します。StyleGAN とは異なり、DualStyleGAN は、ポートレートのコンテンツとスタイルをそれぞれ「内部スタイル パス」と新しい「外部スタイル パス」で特徴付けることにより、自然なスタイル転送方法を提供します。慎重に設計された外側のスタイル パスにより、モデルはカラーと複雑な構造スタイルをレイヤー調整して、参照スタイルを正確に複製できます。

  • さらに、ネットワーク アーキテクチャに前述の変更を加えた場合でも、モデルの生成空間をターゲット ドメインにスムーズに転送するために、段階的な微調整スキームが導入されています。

  • 実験では、DualStyleGAN が高品質のポートレート スタイル転送と柔軟なスタイル制御において最先端の方法よりも優れていることが実証されています。https://github.com/williamyang1991/DualStyleGAN

b3a12d1b7c8cebb7a5b0a9b2b93d323a.png

10、CLIPstyler: 単一テキスト条件による画像スタイル転送

  • 従来のニューラルスタイル転送手法では、スタイル画像のテクスチャ情報をコンテンツ画像に転送するために、スタイル画像を参照する必要がありました。ただし、実際の多くの状況では、ユーザーは参照スタイル イメージを持っていない場合でも、それを想像してスタイルを転送することに興味を持っている可能性があります。

  • このようなアプリケーションを処理するために、スタイル画像を「使わずに」スタイルのテキスト記述のみでスタイル転送を可能にする新しいフレームワークが提案されています。CLIP の事前トレーニング済みテキスト画像埋め込みモデルを使用して、単一のテキストのみを条件としたコンテンツ画像のスタイル設定を示します。リアルなテクスチャ転送のためのマルチビュー拡張を備えたパッチスタイルのテキスト画像マッチング損失を提案します。

5a78c0cdb82c447031928b93caaf9147.png


5. トランスの組み合わせ

11、TransEditor: 高度に制御可能な顔編集のためのトランスフォーマーベースのデュアルスペース GAN

  • StyleGAN などの最近の進歩により、制御可能な顔編集技術の開発が促進されました。それにも関わらず、これらの方法では、特に複雑な属性の場合、依然として制御性の高い妥当な編集結果を得ることができません。

  • この研究は、編集をより制御しやすくするために、デュアルスペース GAN でのインタラクションの重要性を強調しています。このインタラクションを強化する新しい Transformer ベースのフレームワークである TransEditor を提案します。さらに、編集の柔軟性をさらに高めるために、新しい編集および逆マッピング戦略が開発されました。広範な実験により、画質と編集機能の点で提案されたフレームワークの優位性が実証され、高度に制御可能な顔編集における TransEditor の有効性が実証されました。

  • https://github.com/BillyXYB/TransEditor

73b14a90def2021ca9dcdbea6df14891.png

12、Styleformer: Style Vector を使用したトランスフォーマーベースの敵対的生成ネットワーク

  • この論文では、Transformer 構造のスタイル ベクトルに基づいて画像を合成する Styleformer を提案し、修正された Transformer 構造を効果的に適用し (たとえば、マルチヘッド アテンションとプリレイヤー正規化の追加)、新しいアテンション スタイル インジェクション モジュールを導入します。セルフアテンション操作のためのスタイル変調および復調方法。新しいジェネレーター コンポーネントには CNN の欠点を克服する利点があり、長距離の依存関係を処理し、オブジェクトのグローバル構造を理解できます。

  • Styleformer を使用して高解像度画像を生成する 2 つの方法が提案されています。まず、Linformer を視覚合成の分野 (Styleformer-L) に適用すると、Styleformer は計算コストとパフォーマンスが向上し、より高解像度の画像を生成できるようになります。これは、Linformer を使用した画像生成の最初の例です。2 番目に、Styleformer と StyleGAN2 (Styleformer-C) を組み合わせて高解像度の合成シーンを効率的に生成することで、Styleformer はコンポーネント間の長距離の依存関係をキャプチャします。これらの調整により、Styleformer は単一オブジェクト データセットと複数オブジェクト データセットの両方で最先端のパフォーマンスに匹敵するパフォーマンスを実現します。さらに、スタイルの混合とアテンション マップの視覚化の結果は、モデルの強度と効率性を示しています。

2297e3d41ea8b803cc894cc645d9062f.png

6. 顔の生成

13、疎から密への動的3D表情生成

  • この論文は、ニュートラルな 3D 顔と表情タグに基づいて動的な 3D 表情を生成するスキームを提案します。これには、(i) 表現の時間的ダイナミクスのモデル化、および (ii) 表現力豊かな対応物を取得するためのニュートラル メッシュの変形という 2 つのサブ問題の解決が含まれます。表現の時間的進化は、多様値 GAN (Motion3DGAN) をトレーニングすることで生成するように学習された、まばらな 3D キーポイントのセットの動きによって表されます。

  • 表現メッシュを生成するために、Sparse2Dense メッシュ デコーダ (S2D-Dec) がトレーニングされます。これにより、キーポイントのまばらなセットの動きが、アイデンティティとは関係なく、顔の表面全体の変形にどのような影響を与えるかを理解できるようになります。CoMA および D3DFACS データセットの実験結果は、私たちのスキームが動的表現生成とメッシュ再構築の両方において以前のソリューションに比べて大幅な改善をもたらし、同時に目に見えないデータに対する優れた一般化能力を維持していることを示しています。07e331a4b1934fc802521578a26f1953.pngf43d2a806fed189d7372c22e4b8e9809.png

7. 少数サンプル学習

14、緩和された空間構造アライメントによる少数ショット生成モデルの適応

  • 限られたデータで敵対的生成ネットワーク (GAN) をトレーニングすることは、困難な作業でした。1 つの解決策は、大規模なソース ドメインでトレーニングされた GAN から開始し、それを少数のサンプルでターゲット ドメインに適応させることです。これは、少数ショット生成モデル適応と呼ばれます。

  • ただし、既存の手法は、サンプル サイズが非常に小さい設定 (10 未満) ではモデルの過学習が発生し、破綻する傾向があります。この問題に対処するために、オブジェクト生成モデルを調整する緩和空間構造アライメント (RSSA) 方法が提案されています。自己相関および干渉相関の一貫性損失を含む、クロスドメイン空間構造の一貫性損失が設計されています。これは、ソース ドメインとターゲット ドメインの合成画像ペア間の空間構造情報を調整するのに役立ちます。クロスドメインのアライメントを緩和するために、生成モデルの元の潜在空間が部分空間に圧縮されます。部分空間から生成された画像ペアが近づけられます。定性的および定量的実験により、この方法の有効性が実証されます。

  • ソースコード: https://github.com/StevenShaw1999/RSSA

2569955026c0ec29173cbb184b10ba42.png

8. 深さの完了

15、屋内深度補完のためのRGB深度融合GAN

  • 深度マップは多くの下流の視覚タスクを引き受けますが、不完全な制限があるため、この問題を軽減するための深度補完方法がますます増えています。既存のほとんどの方法は、まばらで均一にサンプリングされた深度マップから正確な高密度深度マップを生成できますが、欠落している深度値の大きな連続領域を補完するのには適していません。

  • この論文では、RGB および不完全な深度画像のペアを入力として受け取り、高密度で完全な深度マップを予測する、新しいデュアル ブランチ エンドツーエンド フュージョン ネットワークを設計します。最初のブランチでは、エンコーダ/デコーダ構造を採用し、RGB 画像から抽出されたローカル ガイダンス情報を利用して、生の深度マップからローカルの密な深度値を回帰します。別のブランチでは、RGB 画像をきめの細かいテクスチャ深度マップに変換する RGB 深度融合 GAN が提案されています。W-AdaIN という名前の適応融合モジュールが 2 つのブランチ間で特徴を伝播するために採用され、信頼性融合ヘッドが接続されてブランチの 2 つの出力を融合して最終的な深度マップを取得します。

  • NYU-Depth V2 と SUN RGB-D に関する広範な実験により、提案された方法が深度補完パフォーマンスを大幅に向上させることが示されました。

b4f735dc368be65602993d6110e5db75.png

9. ビデオの生成

16、再生可能な環境: 時空間におけるビデオ操作

  • この論文では、いわゆる「プレイアブル環境」、つまり時空間内でインタラクティブなビデオを生成および操作するための新しい表現を紹介します。新しいフレームワークでは、推論時に 1 つの画像を使用して、一連の必要なアクションを提供することでビデオを生成しながら、ユーザーが 3D でオブジェクトを移動できるようにします。これらのアクションは教師なしで学習されます。カメラを制御して希望の視点を取得できます。

  • この方法では、フレームごとに環境状態を構築します。環境状態は、提案されたモーション モジュールによって操作でき、ボリューム レンダリングによって画像空間にデコードし直すことができます。オブジェクトのさまざまな外観をサポートするために、スタイルベースの変調を使用して神経放射フィールドが拡張されます。このメソッドは、さまざまな単眼ビデオのコレクションでトレーニングされ、推定されたカメラ パラメーターと 2D オブジェクトの位置のみが必要です。困難なベンチマークを設定するために、カメラ モーションを含む 2 つの大規模なビデオ データセットが導入されています。この方法により、再生可能な 3D ビデオの生成、様式化、編集操作など、これまでのビデオ合成では不可能だったいくつかの創造的なアプリケーションが可能になります。

3425f7aa1c1bdb275a4e919ae18fc59c.png

17、StyleGAN-V: StyleGAN2 の価格、画質、特典を備えた連続ビデオジェネレーター

  • ビデオでは連続的なイベントを表示できますが、ほとんどのビデオ合成フレームワークはそれらを時間内に個別に処理します。この研究は、ビデオの時間連続信号情報を考慮に入れて、ニューラル表現のパラダイムを拡張して、連続時間ビデオ ジェネレーターを構築します。

  • この目的を達成するために、最初に位置埋め込みショットを通じて連続的な動きの表現が設計されます。次に、非常にまばらなビデオでのトレーニングの問題が調査され、クリップあたりわずか 2 フレームを使用して優れたジェネレーターを学習できることが示されています。その後、従来の画像とビデオの弁別器の組み合わせが再考され、フレームの特徴を単純に連結することで時間情報を集約するアンサンブル弁別器が設計されました。これにより、トレーニング コストが削減され、ジェネレーターにより豊富な学習信号が提供され、初めて 10242 ビデオで直接トレーニングできるようになります。

  • この方法では、StyleGAN2 上にモデルを構築し、同じ解像度でトレーニングしながら、わずか 5% のコスト増加でほぼ同じ画質を実現します。さらに、潜在空間には同様の特性があり、この方法は空間操作を時間内に伝播できます。任意の長いビデオを任意の高いフレーム レートで生成できますが、以前の作品では固定レートで 64 フレームを生成するのが困難でした。

  • プロジェクト Web サイト: https://universsome.github.io/stylegan-v

ae549ee8d5a75a96f37079ccb4a056d1.png

10. スピーカー駆動

18、FaceFormer: トランスフォーマーによる音声駆動の 3D フェイシャル アニメーション

  • 人間の顔の潜在的に複雑な形状と、利用可能な 3D オーディオビジュアル データが限られているため、音声駆動の 3D 顔のダイナミゼーションは困難です。これまでの研究は通常、限られたコンテキストで短い音声ウィンドウの電話レベルの機能を学習することに焦点を当てており、場合によっては不正確な唇の動きが発生します。

  • この制限に対処するために、長期オーディオ コンテキストをエンコードし、一連の 3D 顔メッシュを自己回帰的に予測する、Transformer ベースの自己回帰モデル FaceFormer が提案されています。

  • データ不足に対処するために、自己監視型の事前トレーニング済み音声表現が組み込まれています。さらに、この特定のタスクに適した 2 つのバイアスされた注意メカニズムが設計されています。これには、バイアスされたクロスモーダル マルチヘッド (MH) アテンションと、周期的位置エンコード戦略によるバイアスされた因果的な MH セルフ アテンションが含まれます。前者はオーディオのモーション パターンを効果的に調整し、後者はより長いオーディオ シーケンスに一般化する機能を提供します。広範な実験とユーザーの知覚研究により、この方法が既存の最先端技術を上回ることが示されています。

a07c79255b7eadedaf5f89bbbd8ded46.png

19、トーキングヘッドビデオ生成のための深度を意識した敵対的生成ネットワーク

  • 話者生成では、特定のソース画像と運転ビデオから、それぞれアイデンティティとポーズ情報を含む顔ビデオを合成できます。既存の研究は、入力画像から 2D 表現 (外観や動きなど) を学習することに大きく依存しています。ただし、本質的に正確な 3D 顔構造を生成し、潜在的に乱雑な背景からノイズの多い情報を区別するのに特に有益であるため、高密度の 3D 顔ジオメトリ (ピクセル深度など) がこのタスクにとって重要です。ただし、高密度の 3D 幾何学的な注釈はビデオにとって法外に高価であり、一般にこのビデオ生成タスクには適していません。

  • この論文では、高価な 3D アノテーション データを必要とせずに、顔ビデオから高密度 3D ジオメトリ (つまり、奥行き) を自動的に復元できる自己教師ありジオメトリ学習方法を紹介します。学習された高密度深度マップに基づいて、人間の頭の主要な動きを捕捉するまばらな顔のキーポイントを推定するために利用されます。深度は、ソース画像表現をワープするためのモーション フィールドの生成をガイドする 3D 知覚のクロスモーダル (つまり、外観と深度) の注意を学習するためにも使用されます。これらすべての貢献により、新しい深さを認識した敵対的生成ネットワーク (DaGAN) が構成されます。広範な実験により、提案された方法が非常に現実的な人間の顔を生成でき、目に見えない顔でも顕著な結果を達成できることが示されています。

a35b9c5fe228d2944d2f77e4706dea72.png

11. 画像編集

20、画像属性編集のための高忠実度 GAN 逆変換

  • 新しい高忠実度敵対的生成ネットワーク (GAN) 逆マッピング フレームワークが提案されており、背景、外観、照明などの画像固有の詳細を保持しながら属性編集を可能にします。

  • まず、高忠実度 GAN 逆マッピングの課題を非可逆データ圧縮の観点から分析します。潜在コードの低ビットレート特性により、以前の研究では、再構築および編集された画像で高忠実度の詳細を保存することが困難でした。潜在コードのサイズを大きくすると、GAN 逆マッピングの精度が向上しますが、その代償として編集性が低下します。

  • 編集可能性を損なうことなく画像の忠実性を向上させるために、高忠実度の再構築のための参照として歪みマップを使用する、歪み相談アプローチが提案されています。DCI (歪み相談反転) では、まず歪みマップを高速潜在コードに投影し、その後、潜在コードの情報をより詳細に融合することで補完します。高忠実度の編集を実現するために、編集画像と逆マッピング画像の間のギャップを埋める自己教師型トレーニング スキームの適応歪みアライメント (ADA) モジュールが提案されています。

  • 広範な実験により、逆マッピングと編集品質の両方において大幅な改善が見られました。https://tengfeiwang.github.io/HFGI/

6cb2a180360edde82d3b68886665d341.png

21、確実な少枚数画像生成のための属性グループ編集

  • 少数ショットの画像生成は、最先端の敵対的生成ネットワーク (GAN) を使用しても困難なタスクです。GAN のトレーニング プロセスは不安定であり、トレーニング データが限られているため、生成される画像は低品質で多様性が低いことがよくあります。

この研究では、数ショット画像生成のための新しい「編集ベースの」アプローチである属性グループ編集 (AGE) を提案します。考え方としては、あらゆる画像は属性のコレクションであり、特定の属性の編集方向はすべてのカテゴリで共有されるということです。AGE は、GAN で学習された内部表現を検査し、意味的に意味のある方向を特定します。

具体的には、クラス埋め込み、つまり特定のカテゴリからの潜在平均ベクトルは、カテゴリ関連の属性を表すために使用されますが、カテゴリに依存しない属性は、スパース辞書学習を通じてサンプル埋め込みとクラス埋め込みの差によって学習されます。既知のカテゴリでトレーニングされた GAN を考えると、カテゴリに依存する属性を変更せずに、カテゴリに依存しない属性を編集することによって、目に見えないカテゴリのさまざまな画像を合成することが可能です。AGE は、GAN を再トレーニングすることなく、データが制限された下流ビジョン アプリケーション向けに、より現実的で多様な画像を生成するだけでなく、解釈可能なクラスに依存しない方向性を備えた制御可能な画像編集を可能にします。

  • https://github.com/UniBester/AGE

3b61f384ab91825c89d2c890b9056ad7.png

12. 画像編集 - 逆マッピング

22、HyperInverter: ハイパーネットワークを介した StyleGAN Inversion の改善

  • https://di-mi-ta.github.io/HyperInverter/

  • 近年、GAN の潜在空間の探索と活用により、実世界の画像処理は驚くべき進歩を遂げています。GAN 逆マッピングはこの考え方の最初のステップであり、実画像を潜在コードにマッピングすることを目的としています。残念ながら、既存の GAN 逆マッピング手法のほとんどは、以下に挙げる 3 つの要件 (高い再構成品質、編集可能性、および高速推論) のうちの少なくとも 1 つを満たすことができません。

  • この論文では、すべての要件を同時に満たす新しい 2 段階の戦略を提案します。最初の段階では、入力画像を StyleGAN2 W 空間にマッピングするようにエンコーダーがトレーニングされます。これは、優れた編集性を備えていますが、再構成品質は低いことが示されています。第 2 段階では、逆マッピング プロセス中に失われた情報を回復するためにハイパーネットワークを利用することで、初期段階の再構築能力が補完されます。ハイパーネットワーク ブランチと W 空間での逆マッピングによる優れた編集性。これら 2 つのステップが相互に補完し合い、高い再構築品質を生み出します。この方法は完全にエンコーダーベースであるため、推論は高速です。2 つの困難なデータセットに対する広範な実験により、この方法の優位性が実証されました。

dab20c852f7dcd9addb03e58645f3889.png

23、HyperStyle: 実画像編集のためのHyperNetworksによるStyleGAN反転

  • https://yuval-alaluf.github.io/hyperstyle/

  • StyleGAN の潜在空間への実画像の逆マッピングは、よく研究されている問題です。ただし、現実的な現実世界のシナリオに既存の手法を適用することは、再構成と編集可能性の間に固有のトレードオフがあるため、依然として課題が残っています。実画像を正確に表現できる潜在空間の領域は、多くの場合、セマンティック制御の低下に悩まされます。一部の研究では、ジェネレーターを微調整することで軽減することを提案していますが、この微調整スキームは、新しい画像ごとに長時間のトレーニング フェーズを必要とするため、一般的な使用には非現実的です。

  • この研究では、エンコーダベースの逆マッピングへのこのアプローチを導入し、潜在空間の編集可能な領域で特定の画像をより適切に表現するために StyleGAN の重みを調整することを学習するハイパーネットワークである HyperStyle を提案しています。単純な変調方法では、30 億を超えるパラメータを使用してハイパーネットワークをトレーニングする必要があります。これは、慎重なネットワーク設計により、既存のエンコーダとの一貫性が保たれるように削減されます。HyperStyle は、エンコーダのほぼリアルタイムの推論機能を使用して、最適化手法に匹敵する再構成を生成します。最後に、この論文では、トレーニング中に表示されなかったドメイン外の画像の編集など、逆マッピング タスク以外のいくつかのアプリケーション シナリオにおける HyperStyle の有効性を実証しています。

8bb4a9aace7d2874300c46ed74d603a6.png

24、画像の反転と編集のためのスタイルトランスフォーマー

  • GAN の既存の逆マッピング手法では、信頼性の高い再構築と柔軟な編集のための潜在コード空間を同時に提供することはできません。この論文は、歪みが少ないだけでなく、高品質で編集の柔軟性も備えた、StyleGAN の事前トレーニング用のトランスフォーマーベースの画像逆マッピングおよび編集モデルを提案します。提案されたモデルは、CNN エンコーダーを使用して、マルチスケールの画像特徴をキーと値として提供します。同時に、ジェネレーターのさまざまなレイヤーによって決定されるスタイル コードをクエリとして受け取ります。まずクエリ トークンを学習可能なパラメータとして初期化し、それらを W+ 空間にマッピングします。次にクエリが更新され、多段階のセルフ アテンションとクロス アテンションを交互に使用してジェネレータの入力が反転されます。さらに、逆マッピング潜在コードに基づいて、事前トレーニングされた潜在分類器を通じて参照画像とラベルに基づく属性編集が研究され、柔軟な画像間の変換と高品質の結果が実現されます。

  • https://github.com/sapphire497/style-transformer

1f14eda2d6bb545b78e2f0abe8c95fc1.png

十三、画像超解像

25、GCFSR: 顔と GAN の事前分布を使用しない生成的かつ制御可能な顔超解像度手法

  • 顔画像の超解像度は、多くの場合、実際の詳細を復元し、身元情報を保存するために顔の事前情報に依存します。GAN の先駆者の助けを借りて、最近の進歩は目覚ましい結果を達成することができます。ただし、これらの方法では、複雑なモジュールを設計するか、複雑なトレーニング戦略を使用してジェネレーターを微調整します。

  • この研究では、GCFSR (生成および制御可能な顔 SR フレームワーク) と呼ばれる制御可能な顔 SR フレームワークを提案します。これは、追加の事前学習なしで実際のアイデンティティ情報を含む画像を再構成できます。Style Modulation と Feature Modulation という 2 つのモジュールが設計されています。スタイル変調はリアルな顔の詳細を生成し、特徴変調モジュールはマルチレベルでエンコードされた特徴と、アップスケーリング係数に基づいて生成された特徴を動的に融合します。シンプルでエレガントなアーキテクチャは、エンドツーエンドの方法でゼロからトレーニングできます。

  • GCFSR は、敵対的損失のみで、小さな増幅率 (≤8) で驚くほど良好な結果を生み出すことができます。L1 と知覚損失を追加した後、GCFSR は大きな係数 (16、32、64) の下で最良の方法を上回ることができます。

bc5df2dc23672d611d3d3237642013b9.png

26、詳細またはアーティファクト: リアルな画像の超解像に対する局所的な識別学習アプローチ

  • Generative Adversarial Networks (GAN) は、豊富な詳細を生成できる可能性があるため、単一画像超解像度 (SISR) タスクにおいて最近ますます注目を集めています。ただし、GAN トレーニングは不安定であり、生成された詳細に知覚的に不快なアーティファクトが発生することがよくあります。

  • この論文では、GAN ベースの SISR モデルをトレーニングして、視覚的なアーティファクトを抑制しながら知覚的に現実的な詳細を堅牢に生成します。アーティファクト領域の局所統計は、知覚に適した詳細領域の統計とは異なることが多いという観察に基づいて、GAN で生成されたアーティファクトを実際の詳細から区別するためのフレームワークが開発されました。提案された局所弁別学習 (LDL) 手法はシンプルかつ効果的であり、既製の SISR 手法に簡単に組み込んでパフォーマンスを向上させることができます。実験によれば、LDL は最先端の GAN ベースの SISR 手法よりも優れており、合成データセットと実際のデータセットの両方でより高い再構成精度を実現するだけでなく、優れた知覚品質も実現します。

  • https://github.com/csjliang/LDL

8d9867d254e0ac1d039bb4635d542a89.png

十四、雨が降るイメージ

27、二重対照学習を使用した不対深画像のディレーニング

  • https://cxtalk.github.io/projects/DCD-GAN.html

  • ペアになっている実世界のデータを取得することはほぼ不可能であるため、ペアになっていないクリーン画像と雨の画像のセットから単一画像ディレイン (SID) ネットワークを学習することは実用的かつ価値があります。ただし、ペアになったデータを監視せずに SID ネットワークを学習するのは困難です。さらに、SID タスクで既存の不対学習手法 (不対敵対学習やサイクル一貫性制約など) を単に使用するだけでは、重大なドメイン ギャップがあるため、雨の入力からクリーンな出力までの潜在的な関係を学習するのに十分ではありません。

  • この論文では、深部特徴空間での二重対比学習を介して不対サンプルの相互特性を調査するために、DCDGAN と呼ばれる効果的な不対 SID 敵対フレームワークを提案します。提案された方法は主に、双方向翻訳ブランチ (BTB) と対照ガイダンス ブランチ (CGB) の 2 つの協調ブランチで構成されます。具体的には、BTB は、敵対的コンセンサスのリカレント アーキテクチャを最大限に活用して豊富なサンプル ペアを生成し、双方向マッピングを装備することで 2 つのドメイン間の潜在的な特徴分布をマイニングします。一方、CGB は、類似した特徴の分布が近くなるように奨励することで、異なる特徴を遠ざけます。これにより、深い特徴空間への異なるサンプルの埋め込みを暗黙的に制限して、雨水の除去を促進し、画像の復元を支援します。

  • 広範な実験により、この方法が合成データセットと実際のデータセットの両方で既存の不対ディレイン法よりも優れたパフォーマンスを示し、いくつかの完全教師付きモデルまたは半教師付きモデルと同等の結果が得られることが実証されています。

536aa035fbbe203e058ac00e1393831e.png

15. 画像の修復

28、インクリメンタルトランス構造マスキング位置エンコーディングによる強化された画像修復

  • 近年、画像修復は大幅に進歩しました。ただし、破損した画像を鮮明なテクスチャと合理的な構造で復元する方法は依然として困難な作業です。一部の特定の方法は、畳み込みニューラル ネットワーク (CNN) の局所的な制限により全体の構造を無視し、通常のテクスチャのみを処理します。一方、注意ベースのモデルは、構造復元の長期的な依存関係をよりよく学習できますが、大規模画像推論の計算の複雑さにより制限されます。

  • この論文では、画像のプログレッシブ修復を容易にするために構造復元機能を追加することを提案します。モデルは、固定の低解像度スケッチ空間でアテンションベースのトランスフォーマー モデルを使用して全体の構造を復元します。コードはhttps//github.com/dqiaole/zITS_inrowで公開されています。

f90b534af14cea95cf626e8624bf6a8a.png

29、MISF:高忠実度画像修復のためのマルチレベル インタラクティブ シャム フィルタリング

  • 既存の深度生成画像修復手法は良好な進歩を遂げていますが、シーン全体の一般化が不十分であり、実用化にはほど遠いため、生成された画像にはアーティファクト、塗りつぶされたピクセル、および実際の理想が含まれることがよくあります。

  • この論文では、画像復元における画像レベルの予測フィルタリングの利点と課題について調査します。この方法は、局所的な構造を保存してアーティファクトを回避できますが、大きな欠落領域を埋めることはできません。したがって、深い特徴のレベルでのセマンティック フィルタリングが提案されます。

  • この方法では、高忠実度の修復のために効率的なセマンティックおよびイメージ レベルの情報パディングを利用します。https://github.com/tsingqguo/misf

30、MAT: 大きな穴の画像修復のためのマスク対応トランスフォーマー

  • リモート操作をシミュレートすることは、問題を解決する上で非常に重要です。この目標を達成するために、既存の方法では独立したアテンション技術またはトランスフォーマーが利用されていますが、通常は計算コストを考慮して解像度が低くなります。

  • この論文では、トランスフォーマーと畳み込みの利点を組み合わせて高解像度画像を効率的に処理する、新しいトランスフォーマーベースの大面積修復モデルを提案します。フレームワークのすべてのコンポーネントは、高い忠実度と多様性を持って画像を復元できるように慎重に設計されています。

  • コード https://github.com/fenglinglwb/MAT

959a9f4a5a50a59f3c8b7cfca4c89ee6.png

十六、画像修復外

31、効率的な3DCG背景作成のための多様でありそうな360度画像のアウトペイント

この論文は、視野の狭い単一画像から周囲を推定することで 360 度画像を生成するという問題に取り組みます。以前の方法では、トレーニングの解像度と決定論的な生成が過剰に適合するという問題がありました。本稿では、トランスフォーマを用いたシーンモデリングの完成方法と、出力画像の360度画像特性を改善する新しい方法を提案する。

具体的には、トランスフォーマーを備えた CompletionNet を使用してさまざまな補完を実行し、AdjustmentNet を使用して入力画像の色、スティッチング、解像度を一致させ、任意の解像度での推論を可能にします。出力画像上の 360 度画像の特性を改善するために、WS 知覚損失と反復推論も提案されています。この方法は、質的にも量的にも最先端 (SOTA) 方法を上回ります。さらに、その結​​果を3DCGシーンの照明や背景に活用するアイデアを提案します。

af93bdafac070e7bee158b4f0e9aac67.png

セブンティーン、画像変換

32、画像から画像への変換タスクにおける対照学習のためのパッチごとの意味関係の探索

  • 最近、異なる空間位置を比較して空間的対応を強化する、対照学習に基づく画像変換方法が提案されています。ただし、画像内のさまざまな意味関係は無視されることがよくあります。

  • この問題に対処するために、単一画像の画像パッチ間の異種セマンティクスに焦点を当て、異なるセマンティクスを利用するための新しい意味的関係一貫性 (SRC) 正則化と分離された対比学習が提案されています。パフォーマンスをさらに向上させるために、意味関係を利用するハード ネガティブ マイニングが提案されています。このメソッドは、ユニモーダルおよびマルチモーダル画像変換、および画像変換用の GAN 圧縮タスクという 3 つのタスクに対して検証されています。実験結果により、3 つのタスクすべてにおいてこの方法の優位性が確認されました。

37665958e857fa45880a3438942ae792.png

33、FlexIT: 柔軟なセマンティックイメージ変換に向けて

  • GAN のような深層生成モデルは、画像合成の技術レベルを大幅に向上させ、顔などの構造化データ ドメインでリアルな画像を生成できます。画像編集に関する最近の研究は、画像を GAN 潜在空間に投影し、潜在ベクトルを操作することによって進められます。ただし、これらの方法にはデータ制限があり、一般化が不十分で、限られた編集操作しか実行できません。

  • この記事のFlexITは、任意の入力画像とユーザー定義のテキスト命令で編集でき、柔軟で自然な編集を実現します。まず、FlexIT は入力画像とテキストの組み合わせを CLIP マルチモーダル埋め込み空間にマッピングします。オートエンコーダーの潜在空間を通じて、入力画像はターゲット ポイントに反復的に変換され、さまざまな正則化項によって一貫性と品質が保証されます。本稿では意味画像翻訳の評価手法も提案する。

55cc1716dda692b2ed44dc9dc7af9666.png

34、QS-Attn: I2I 翻訳における対照学習のためのクエリ選択型アテンション

  • ペアになっていないイメージからイメージへの (I2I) 変換では、通常、異なるドメインのソース イメージと変換されたイメージの間の相互情報を最大化する必要があります。これは、ジェネレーターがソース コンテンツを保持し、望ましくない変更を防ぐために重要です。自己教師あり対比学習は I2I にうまく適用されており、同じ場所からの特徴を別の場所からの特徴より近くに制限することで、結果がソースからコンテンツを取得することが暗黙的に保証されます。しかし、以前の研究では、ランダムな場所の特徴を使用して制約を課していましたが、場所によってはソース ドメイン情報が少ないため、これは適切ではない可能性があります。

  • この論文では、対比学習用に重要なアンカーを意図的に選択し、ソース ドメイン内の特徴距離を比較し、確率が分散された各行のアテンション行列を与えるクエリ選択的注意 (QS-Attn) モジュールを設計することで、これらの問題に対処します。次に、分布から計算された重要度の尺度に基づいてクエリが選択されます。選択されたものは、コントラスト損失のアンカーとして考慮されます。一方、合成時のソース関係を維持するために、両方のドメインのフィーチャをルーティングするために、リデュース アテンション マトリックスが使用されます。

  • 3 つの異なる I2I データセットで提案された方法を検証すると、学習可能なパラメーターを追加せずに画質が向上することがわかります。https://github.com/sapphire497/query-selected-attention

94de057114b597d22d258ee084a2a9e8.png

35、多彩な画像合成のための変調コントラスト

  • 画像間の類似性を認識することは、さまざまなビジュアル生成タスクにおける長年の基本的な問題です。画像間の距離は、点ごとの絶対偏差を計算することによって測定されます。これは、インスタンス分布の中央値を推定する傾向があり、生成された画像にぼやけやアーティファクトが発生する傾向があります。

  • この論文では、汎用メトリックである MoNCE を導入して、マルチアスペクトの画像間距離を認識するためのキャリブレーション メトリックを学習するために画像コントラストを導入します。私たちは、アンカーとの類似性に応じてネガティブ サンプルを適応的に再重み付けすることを提案します。これにより、有益なネガティブ サンプルからの対比学習が容易になります。画像距離測定には複数のローカル ブロック レベルのコントラスト ターゲットが含まれるため、MoNCE には最適な転送が導入され、複数のコントラスト ターゲット間でネガティブ サンプルの駆動力を協調的に調整します。

  • 複数の画像変換タスクに関する広範な実験により、提案された MoNCE がさまざまな主流の指標を大幅に上回ることが示されました。

dd6b0c4cf0d2910996d0915021c3e​​b23.png

36、SemanticStyleGAN: 制御可能な画像合成と編集のための合成生成事前確率の学習

  • https://semanticstylegan.github.io/

  • 最近の研究では、StyleGAN が画像の合成と編集の下流タスクに有望な事前モデルを提供することが示されています。ただし、StyleGAN の潜在コードはグローバル スタイルの制御を目的としているため、合成画像をきめ細かく制御することは困難です。

  • この論文では、ローカルの意味部分を個別にモデル化し、組み合わせた方法で画像を合成するようにジェネレーターがトレーニングされる SemanticStyleGAN を提案します。さまざまな局所部分の構造とテクスチャは、対応する潜在コードによって制御されます。実験結果は、このモデルが異なる空間領域間で強力なデカップリングを提供することを示しています。StyleGAN 用に設計された編集方法と組み合わせると、合成画像または実際の画像を編集するためのよりきめの細かい制御が可能になります。

  • このモデルは、転移学習を通じて他のドメインに拡張することもできます。したがって、デカップリングが組み込まれた一般的な従来のモデルとして、GAN ベースのアプリケーションの開発を容易にし、より多くの潜在的なダウンストリーム タスクを可能にすることができます。

2949dbcbff90033ab033833a8c6bdd24.png

37、3D合成データを活用したポートレート眼鏡と影除去

  • https://github.com/StoryMY/take-off-eyeglasses

  • ポートレート撮影では、メガネが顔の領域を覆い隠して影を落とす可能性があり、これにより顔の検証や表情認識などの多くのテクノロジーのパフォーマンスが低下する可能性があります。これらの問題に対処するには、ポートレート メガネを外すことが重要です。ただし、ガラスを完全に取り除くことは、影を落とすなどメガネによって引き起こされる照明効果が複雑な場合が多いため、困難です。

  • この論文では、顔画像からメガネとメガネが落とす影を除去するための新しいフレームワークを提案します。この方法は、検出してから削除する方式で機能し、眼鏡と影の両方が検出されて画像から削除されます。教師ありトレーニング用のペアデータが不足しているため、検出および削除タスク用に中間および最終の教師付きの新しい合成ポートレートデータセットが提案されています。さらに、合成データと実際のデータの間のギャップを埋めるために、クロスドメイン技術が適用されます。私たちの知る限り、提案された技術は、ガラスとその投影された影を同時に除去する最初の技術です。

d4132052cda342178f45a08829a78dfe.png

38、Pix2NeRF: 単一画像から神経放射輝度フィールドへの変換のための教師なし条件付き π-GAN

  • https://github.com/primecai/Pix2NeRF

  • 私たちは、単一の入力画像を条件としてオブジェクトまたはクラス固有のシーンを生成する神経放射場 (NeRF) を提案します。NeRF のトレーニングには同じシーンの複数のビューが必要であり、対応するポーズを取得するのが難しいため、これは困難なタスクです。

  • この方法は、無条件の 3D 知覚画像合成の生成モデルである π-GAN に基づいており、ランダムな潜在コードをオブジェクトのクラスの放射線場にマッピングします。(1) π-GAN 対物レンズを最適化し、その高忠実度 3D 知覚生成と (2) 適切に設計された再構成対物レンズを活用します。後者は、オートエンコーダーを形成するために、π-GAN ジェネレーターと結合されたエンコーダーで構成されます。以前の数ショット NeRF メソッドとは異なり、このメソッドは教師なしであり、3D、マルチビュー、ポーズの教師なしで独立した画像をトレーニングに使用できます。私たちの手法のアプリケーションには、3D アバターの生成、単一の入力画像を使用した新しいオブジェクト中心のビュー合成、3D 対応の超解像度などが含まれます。

a3fe3063213d9aac57f7f2c8fc0f5d35.png

39、不対画像間変換の最大空間摂動一貫性

  • https://github.com/batmanlab/MSPC

  • 不対イメージ間変換 (I2I) は、ソース ドメインの分布をターゲットの分布にマッピングできる変換関数が無数に存在する可能性がある不適切な問題です。したがって、サイクルの一貫性 (CycleGAN)、幾何学的一貫性 (GCGAN)、および対照学習に基づく制約 (CUTGAN) など、適切な制約の設計に多大な労力が費やされてきました。ただし、これらのよく知られた制約には制限があります: (1) 特定の I2I タスクに対しては厳しすぎるか弱すぎます。(2) ソース ドメインとターゲット ドメインの間に空間的な差異が大きい場合、これらの方法ではコンテンツが破損する可能性があります。歪んでいる。

  • この論文では、最大空間摂動整合性 (MSPC) と呼ばれる一般的な正則化手法を提案します。これは、空間摂動関数 (T) と変換演算子 (G) が可換であることを強制します (つまり、T ◦ G = G ◦ T)。さらに、空間摂動関数を学習するために 2 つの敵対的トレーニング コンポーネントが導入されています。1 つ目は、摂動を最大化するために T を G と競合させます。2 つ目では、G と T を弁別器と競合させて、オブジェクト サイズの変化、オブジェクトの歪み、背景の中断などによって引き起こされる空間変化を調整します。

  • このメソッドは、ほとんどの I2I ベンチマークで最先端のメソッドを上回ります。新しいベンチマークである正面から横顔までの顔データセットも導入され、現実世界のアプリケーションにおける I2I の潜在的な課題が強調されています。最後に、アブレーション実験を実行して、空間摂動の深刻度に対するこの方法の感度と分布の調整に対するその有効性を調査します。

581a851eccdd23632a3942e520892377.png

40、誘導画像生成のための周辺対照対応

  • サンプルベースの画像翻訳タスクの場合、条件付き入力とサンプル (2 つの異なるドメインからの) の間に密な対応関係が構築され、詳細なサンプル スタイルを活用して現実的な画像翻訳が行われます。既存の研究では、2 つのドメイン間の特徴距離を最小限に抑えることにより、クロスドメイン対応関係が暗黙的に確立されます。ドメイン不変の特徴を明示的に利用しない限り、このアプローチはドメインギャップを効果的に削減できない可能性があり、最適ではない対応関係が生じることがよくあります。

  • この論文では、例ベースの画像翻訳のためのドメイン不変の特徴を学習するための対照学習を検討する周辺対照学習ネットワーク (MCL-Net) を設計します。ただし、ドメイン不変セマンティクスとの対応を確立するだけでは、テクスチャ スキーマが損なわれ、テクスチャ生成の品質の低下につながる可能性があります。したがって、シーン構造を補助情報として組み込んだ自己相関マップ (Self-Correlation Map、SCM) を設計すると、構築される対応関係が大幅に改善されます。さまざまな画像翻訳タスクに関する定量的および定性的な実験により、提案された方法が常に最先端の方法よりも優れていることが示されています。

44e4c11e3e2316156088f63ac15f89ca.png

41、GAN監視による密な視覚的位置合わせ

  • https://www.wpeebles.com/gangealing

  • GAN 教師あり学習の密な視覚的位置合わせ問題への応用を提案します。古典的な凝固法にインスピレーションを得た GANgealing アルゴリズムは、位置ずれしたデータでトレーニングされた GAN からのランダム サンプルを共同で学習された共通のターゲット パターンにマッピングするように空間変換器をトレーニングします。

  • 8 つのデータセットに関する結果が示されており、この方法が複雑なデータをうまく位置合わせし、密な対応を確立していることが実証されています。GANgealing は過去の自己教師あり対応アルゴリズムを上回っており、いくつかのデータセットでは、GAN 生成データの設定のもとでは、対応監視やデータを一切使用せずに、最先端の教師あり対応アルゴリズムと同等 (場合によってはそれを超える) のパフォーマンスを示します。この論文では、拡張現実、画像編集、画像データセットの自動前処理へのこの方法の応用も示しています。

698eb01b5356853d46a81b43741a2b38.png

18、テキストを画像に

42、セマンティック空間認識 GAN によるテキストから画像の生成

  • テキストから画像への合成 (T2I) は、テキストの説明と意味的に一貫したリアルな画像を生成することを目的としています。既存の手法は通常、条件付き敵対的生成ネットワーク (GAN) 上に構築され、文の特徴の埋め込みを使用してノイズから画像を初期化し、その後、きめの細かい単語の埋め込みを使用して特徴を繰り返し調整します。ただし、限界もあります。生成された画像が全体として説明と一致していても、個々の画像領域や何かの一部が認識できない、または文中の単語の意味と一致しないことがよくあります。

  • この目的を達成するために、入力テキストから画像を合成するための新しいセマンティック空間認識 GAN が提案されています。具体的には、シンプルで効果的なセマンティック空間認識ブロックが導入されます。このブロックは、(1) テキストと画像の特徴を効率的に融合するためにテキストを条件としたセマンティック適応変換を学習し、(2) 弱く監視された方法でセマンティック マスクを学習します。変換を空間的にガイドするための現在のテキストと画像の融合プロセス。

  • https://github.com/wtliao/text2image

6832f254b41940d41492e13c90f7e259.png

19. 異常検出

43、教師なしビデオ異常検出のための生成協調学習

  • ビデオの異常検出は、弱く監視された 1 クラス分類 (OCC) 設定でよく研究されています。しかし、教師なしビデオの異常検出方法は不足しています。これはおそらく、異常がまれに発生し、定義が不十分であることが多く、さらにラベル情報による監視が欠如しているためであり、学習アルゴリズムのパフォーマンスに悪影響を与える可能性があります。この問題は困難ではありますが、骨の折れる注釈を取得するコストを完全に排除し、人間の介入なしにそのようなシステムを展開できるようにする可能性があるため、価値もあります。

  • この論文では、ビデオ異常検出のための新しい教師なし生成協調学習 (GCL) 手法を提案します。この手法は、異常の低周波数を利用して、生成装置と弁別装置の間の相互監視を構築します。基本的に、両方のネットワークは協調的な方法でトレーニングされ、教師なし学習が可能になります。UCF Crime と ShanghaiTech という 2 つの大規模なビデオ異常検出データセットに対して広範な実験が行われています。

21dfa4cf0cbe49a0b4c8f2ad50c91237.png

20. プライバシー保護

44、顔のプライバシーの保護: スタイルに強いメイクアップ転写による敵対的なアイデンティティマスクの生成

  • https://github.com/CGCL-codes/AMT-GAN

  • 顔認識 (FR) システムは、認識と検証において優れたパフォーマンスを示していますが、特にソーシャル ネットワーク上で広く配布される公開の顔画像については、ユーザーが過度に使用するため、プライバシーの懸念も生じます。最近、一部の研究では、不正な顔認識システムから写真を保護するために敵対的な例を採用しています。しかし、既存の敵対的顔画像生成方法には、視覚的な恥ずかしさ、ホワイトボックス設定、弱い転送性などの多くの制限があり、実際には顔のプライバシー保護に適用するのは困難です。

  • この論文では、強力なブラックボックス転送性とより優れた視覚的品質を維持しながら、敵対的な顔画像を構築することを目的とした顔保護への新しいアプローチである敵対的メイクアップ転送 GAN (AMT-GAN) を提案します。AMT-GAN は、敵対的生成ネットワーク (GAN) を利用して、参照画像から転送されたメイクアップを備えた敵対的な顔画像を合成します。特に、新しい正則化モジュールと共同トレーニング戦略が導入され、メイクアップ転送における敵対的なノイズとサイクル一貫性の損失との間の矛盾を調整し、攻撃強度と視覚的変化の間の理想的なバランスを実現します。広範な実験により、AMT-GAN は快適なビジュアル品質を維持するだけでなく、既存の技術と比較して商用 FR API よりも攻撃成功率が高いことが実証されました。

7a4e3a0c2074fd0ba1c5e97ea6bee419.png

21. セマンティック生成

45、パノプティックレイアウト生成によるインタラクティブ画像合成

  • ユーザーは多くの場合、生成された画像のシーン構造を制御したいと考えますが、ユーザーガイドによる入力からのインタラクティブな画像合成は困難な作業です。レイアウトベースの画像合成方法ではある程度の進歩が見られますが、インタラクティブなシナリオでリアルな偽画像を取得するには、既存の方法では高精度の入力が必要であり、複数の調整が必要な場合があり、初心者ユーザーにとって使いやすいものではありません。境界ボックスの配置が乱れると、レイアウトベースのモデルでは、構築されたセマンティック レイアウトで「欠落領域」が発生し、生成された画像に望ましくないアーティファクトが生じる可能性があります。

  • この研究では、この課題に対処するために Panoptic Layout Generative Adversarial Networks (PLGAN) を提案しています。PLGAN は、オブジェクト カテゴリを、不定形の境界を持つ部分 (「もの」) と、明確に定義された形状を持つ部分 (「もの」) に区別し、別々のブランチを通じて構築し、パノプティック レイアウトに融合します。PLGAN を、COCO-Stuff、Visual Genome、および Landscape データセット上のレイアウトベースの最先端モデルと実験的に比較すると、その利点は視覚に反映されるだけでなく、IS、FID、分類精度の観点からも定量的に検証されます。スコア

7a8acc84399c4bd24900dd6ff6a1a7a4.png

22. ドメイン適応

46、夜間空中追跡のための教師なしドメイン適応

  • https://github.com/vision4robotics/UDAT

  • これまでの物体追跡の進歩は夜間のパフォーマンスをほとんど無視しており、夜間の状況が関連する航空ロボットアプリケーションの開発を妨げてきました。この論文では、夜間の航空追跡のための新しい教師なしドメイン適応フレームワーク (夜間航空追跡、UDAT) を提案します。具体的には、生の夜間追跡ビデオからトレーニング パッチを生成するオブジェクト検出方法が提供されます。ドメインの違いを考慮して、特徴抽出器で Transformer を使用して、両方のドメインの画像特徴を調整します。Transformer の昼夜特徴識別子を使用して、日中追跡モデルは夜間に追跡するように敵対的にトレーニングされます。

  • さらに、画期的なベンチマークである NAT2021 は、教師なしドメイン適応型夜間追跡用に構築されており、これには、手動で注釈が付けられた 180 個の追跡シーケンスのテスト セットと、276,000 を超えるラベルなし夜間追跡フレームのトレーニング セットが含まれています。徹底的な実験により、夜間の空中追跡における提案されたフレームワークの堅牢性とドメイン適応性が実証されています。

803cf7df2363fc1cf95d6a688ab59cb7.png

23. 姿勢転移

47、ポーズガイド付き人物画像生成のためのデュアルタスク相関の探索

  • ポーズ ガイド付き人物画像生成 (PGPIG) は、人物画像をソース ポーズから特定のターゲット ポーズに変換するタスクです。既存の方法のほとんどは、適切なテクスチャ マッピングをキャプチャできません。この問題を解決するために、新しいデュアルタスク ポーズ トランスフォーマー ネットワーク (デュアルタスク ポーズ トランスフォーマー ネットワーク、DPTN) が提案されます。これは、補助タスク (つまり、ソース間タスク) を導入し、デュアルタスク相関を使用して、 PGPIG のパフォーマンスを向上させます。

  • DPTN には、「ソースからソースへ」の自己再構築ブランチと「ソースからターゲットへ」生成された変換ブランチが含まれています。重みの一部をそれらの間で共有することにより、ソースからソースへのタスクから学習した知識は、ソースからターゲットへの学習を効果的に支援できます。さらに、2 つのブランチはポーズ トランスフォーマー モジュール (PTM) を使用して接続され、デュアル タスクの特徴間の相関関係を適応的に調査します。この相関により、ソースとターゲット間のすべてのピクセルのきめ細かいマッピングを確立でき、ソース テクスチャの転送が容易になり、結果として得られるターゲット イメージの詳細が強調されます。

  • 広範な実験により、DPTN は PSNR と LPIPS の両方で最先端のパフォーマンスを上回ることが示されています。さらに、DPTN には 979 万個のパラメータしか含まれておらず、これは他の方法よりも大幅に少ないです。https://github.com/PangzeCheung/Dual-task-PoseTransformer-Network

7f93e52b9a4fab3121a0f73d7841d5c6.png

24、ロゴフォント生成

48、コンテンツを意識したレイアウト推論による美しいテキストロゴの合成

  • テキストベースのロゴデザインは、プロのデザイナーの創造性と専門知識に大きく依存しており、その中でも要素のレイアウトを調整することは最も重要なプロセスの 1 つです。しかし、多くの要素 (フォント、言語学、テーマなど) を考慮する必要があるこの作業には、ほとんど注意が払われてきませんでした。

  • この論文では、グリフ画像とそれに対応するテキストを入力として受け取り、それらの美しいレイアウトを自動的に合成する、コンテンツを意識したレイアウト生成ネットワークを提案します。具体的には、文字配置軌跡と合成テキストのレンダリング形状をそれぞれ評価するために、シーケンス弁別器と画像弁別器を含む二重弁別器モジュールが設計されています。さらに、テキストからの言語情報とグリフからの視覚的意味論的な情報が融合されてレイアウト予測がガイドされ、どちらもプロフェッショナルなレイアウト設計において重要な役割を果たします。

  • このメソッドをトレーニングして評価するために、約 3,500 個のテキスト ロゴ画像とそのピクセル レベルの注釈で構成される TextLogo3K と呼ばれるデータセットが構築されます。このデータセットに関する実験的研究は、視覚的に心地よいテキストロゴを合成する際の私たちの方法の有効性を実証し、最先端のものよりも優れていることを検証します。

  • https://github.com/yizhiwang96/TextLogoLayout

21f6fc1918bbbcee4b269a45491bb176.png

25. 顔と頭の交換

49、野生での数ショットの頭交換

  • ソースヘッドをターゲットボディに完全に配置することを目的としたヘッド交換タスクは、さまざまなエンターテイメントのシナリオにとって重要です。顔の交換は多くの注目を集めていますが、頭の交換という作業は、特に数ショットの設定ではほとんど検討されていません。頭部のモデリングと背景のブレンディングに関して独自の要件があるため、本質的に困難です。

  • この論文では、適切に設計された 2 つのモジュールを通じて数ショットのヘッド スワッピングを実装するヘッド スワッパー (HeSer) を提案します。まず、Head2Head Aligner は、マルチスケール情報を通じて、ポーズと表情の情報をターゲットからソースの頭部全体に転送するように設計されています。次に、スワップ中の肌の色の変化と頭の背景の不一致という課題に対処するために、Head2Scene Blender が導入され、顔の肌の色を変更し、頭の周りの背景の不一致を同時に埋めることができます。

  • https://jmliu88.github.io/HeSer/

afe1a94387ad494b3997ff7506ca3338.png

50、潜在意味論のもつれ解除による高解像度の顔交換

  • 事前トレーニングされた GAN モデルの固有の事前知識を使用して、新しい高解像度の顔交換方法が提案されます。以前の研究では生成事前分布を利用して高解像度の結果を生成できますが、その品質は潜在空間のもつれのセマンティクスによって影響を受ける可能性があります。

  • この論文は、ジェネレーターの漸近的性質を利用して、浅い層から構造特性を、より深い層から外観特性を導出することにより、潜在的なセマンティクスを明示的に解きほぐします。構造属性のアイデンティティとポーズ情報は、キーポイント駆動の構造伝達潜在方向を導入することによってさらに分離されます。解明された潜在コードは、混合してもっともらしい交換結果を生み出す豊富な生成特徴をもたらします。これは、潜在空間と画像空間に 2 つの時空間制約を強制することで、ビデオの顔の交換までさらに拡張されます。広範な実験により、提案された方法が品質と一貫性の点で最先端の画像/ビデオの顔交換方法よりも優れていることが実証されました。

  • コード: https://github.com/cnnlstm/FSLSD_HiRes

fdbad8302dcb8d68541ba59ba26e46e4.png

きっと気に入っていただけると思います:

f3e53ee790fab60a36bbf0ebbbcbda56.png GANのシリーズアルバムを見るには私をクリックしてください~!

ランチをテイクアウトしてCVビジョンの最前線になろう!

 ICCV 2021 | 35 の GAN トピック、GAN 論文の最も完全な要約

記事数は110以上!CVPR 2021 で最も完全な GAN 論文の要約!

記事数は100以上!CVPR 2020 で最も完全な GAN 論文の要約!

新しい GAN の解体: デカップリング表現 MixNMatch

StarGAN バージョン 2: マルチドメイン ダイバーシティ イメージの生成

添付のダウンロード | 「Explainable Machine Learning」の中国語版

添付のダウンロード | 「TensorFlow 2.0 ディープ ラーニング アルゴリズムの実践」

添付のダウンロード | 「コンピューター ビジョンにおける数学的手法」シェア

「深層学習に基づく表面欠陥検出手法の検討」

ゼロショット画像分類の調査: 10 年間の進歩

「ディープニューラルネットワークに基づく少数ショット学習の調査」

80d1d8c7acbacf9ff16173a1ad20ab92.png

おすすめ

転載: blog.csdn.net/lgzlgz3102/article/details/124521800