CVPR 2023 | 画像の超解像度、拡散モデル/GAN/展開の最適化と組み合わせた、低レベルのタスク、ビジュアル AIGC シリーズ

1、画像超解像度トランスフォーマーでより多くのピクセルをアクティブにする

トランスフォーマーベースの手法は、画像の超解像度などの低レベルの視覚タスクで優れたパフォーマンスを示しています。Transformer の可能性は、既存のネットワークではまだ十分に活用されていません。より多くの入力ピクセルをアクティブにして再構成を改善するために、新しいハイブリッド アテンション トランスフォーマー (HAT) が提案されています。チャネル アテンションとウィンドウ ベースのセルフ アテンション スキームを同時に組み合わせることで、それぞれの利点、つまり、グローバル統計と強力なローカル フィッティング機能を活用する機能を最大限に活用します。

さらに、クロスウィンドウ情報をより適切に集約するために、オーバーラップクロスアテンションモジュールが導入され、隣接するウィンドウ機能間の相互作用が強化されます。トレーニング段階では、同じタスクの事前トレーニング戦略が採用され、モデルの潜在力を活用してさらなる改善が図られます。広範な実験により、提案されたモジュールの有効性が実証され、モデルがさらに拡張されて、このタスクのパフォーマンスが大幅に向上できることが示されました。全体的な方法は、PSNR において既存の最先端の方法よりも 1dB 以上優れています。

https://github.com/XPixelGroup/HAT

38663e8109517ecc3fc63e6bd1f37749.png

2、実際の堅牢な画像超解像度のためのノイズ除去拡散確率モデル

拡散モデルは、単一画像の超解像度タスクやその他の画像間の変換タスクで良好な結果を示しています。この成功にもかかわらず、入力画像の分布が均一ではなく劣化が不明な、より困難なブラインド超解像度タスクでは最先端の GAN モデルを上回るパフォーマンスを発揮しません。

この論文では、拡散ベースのブラインド超解像度モデル SR3+ を紹介します。このモデルでは、トレーニングおよびテスト中に自己教師ありトレーニングがノイズ条件付き拡張と組み合わされます。SR3+ のパフォーマンスは SR3 よりもはるかに優れています。同じデータでトレーニングした場合、RealESRGAN よりも優れたパフォーマンスを発揮します。

0c16e3ead39f885bfef097a315e7a57f.png

3、連続超解像のための陰的拡散モデル

画像超解像 (SR) は、その幅広い用途によりますます注目を集めています。しかし、現在の SR 手法では過度の平滑化やアーティファクトが発生することが多く、ほとんどの作品は固定倍率に限定されています。この論文では、高忠実度の連続画像超解像のための陰的拡散モデル (IDM) を紹介します。

IDM は、暗黙的ニューラル表現とノイズ除去拡散モデルを組み合わせた統一されたエンドツーエンド フレームワークを採用しており、暗黙的ニューラル表現は、連続解像度表現を学習するためにデコード中に使用されます。さらに、低解像度 (LR) スケーリング ネットワークと、解像度を調整し、それに応じて最終出力で LR 情報と生成された特徴をスケーリングするスケーリング係数を含む、スケール適応スケーリング メカニズムが設計されています。解像度要件。広範な実験により IDM の有効性が確認され、以前の芸術作品を上回る優れたパフォーマンスが実証されました。コードは https://github.com/Ree1s/IDM にあります。

25efea52433adae753d787aeae9e61d6.png

4、最適な客観的推定を使用した知覚指向の単一画像超解像

知覚損失と敵対的損失でトレーニングされた単一画像超解像度 (SISR) ネットワークは、L1 や L2 などの歪み誘導損失でトレーニングされたネットワークと比較して、高コントラストの出力を提供します。ただし、写真内の局所的に異なる形状は、単一の知覚損失を使用して正確に復元することはできず、多くの場合、望ましくないアーチファクトや不自然な詳細が生じることが示されています。したがって、知覚的損失、敵対的損失、歪み損失など、さまざまな損失の組み合わせが試みられてきましたが、最適な組み合わせを見つけるのは困難なことがよくあります。

この論文では、高解像度出力の領域全体で合理的な結果を生成するために、最適なオブジェクト生成のために各領域に適用される新しい SISR フレームワークを提案します。具体的には、フレームワークは 2 つのモデルで構成されます。1 つは低解像度 (LR) 入力が与えられた場合に最適なターゲット マップを推論する予測モデル、もう 1 つは対応する SR 出力を生成する生成モデルです。生成モデルは、オブジェクトの基本セットを表す提案されたオブジェクト軌道に基づいてトレーニングされ、単一のネットワークが軌道上で結合された損失に対応するさまざまな SR 結果を学習できるようになります。

5 つのベンチマークにわたって、提案された手法が LPIPS、DISTS、PSNR、および SSIM メトリックに関して最先端の知覚駆動型 SR 手法よりも優れていることが実験結果によって示されています。視覚的な結果は、知覚誘導再構成におけるこの方法の優位性も示しています。コードとモデルは https://github.com/seunghosnu/SROOE にあります。e40f1cf6ef1edb8839e190c64232c0f9.png

5、効率的なビデオ超解像度のための構造化スパーシティ学習

既存のビデオ超解像度 (VSR) モデルは計算コストが高いため、スマートフォンやドローンなどのリソースに制約のあるデバイスへの展開が妨げられています。既存の VSR モデルには非常に多くの冗長なパラメーターが含まれており、推論効率が低下します。これらの重要ではないパラメータを除去するために、VSR のプロパティに基づいて、構造的疎学習 (SSL) と呼ばれる構造化された除去スキームが開発されています。

SSL は、残差ブロック、リカレント ネットワーク、アップサンプリング ネットワークなど、VSR モデルのいくつかの主要コンポーネントの枝刈りスキームを設計します。具体的には、残留スパース接続 (RSC) スキームは、リカレント ネットワークの残留ブロック用に設計されており、枝刈りの制限を解放し、回復情報を保存します。アップサンプリング ネットワークでは、特徴チャネルの空間変換の精度を確保するために、ピクセル シャッフルおよびプルーニング スキームが設計されています。また、隠れ状態がリカレント ネットワークに沿って伝播するにつれて枝刈り誤差が増幅されることも観察されます。この問題を軽減するために、時間微調整 (TF) が設計されています。広範な実験により、SSL が量的および質的に最近の方法よりも大幅に優れていることが実証されました。コードは https://github.com/Zj-BinXia/SSL にあります。

c1b300ccd5b7ee9713a375f07c153f1c.png

6、超解像神経演算子

超解像度ニューラル オペレーター (SRNO) が提案されており、高解像度 (HR) 画像の低解像度 (LR) 画像からの任意のスケーリングを解決できます。SRNO は、LR-HR 画像ペアを異なるグリッド サイズを使用して近似された連続関数として扱い、対応する関数空間間のマッピングを学習します。

連続 SR に関するこれまでの研究と比較した場合、SRNO の主な特徴は次のとおりです。 1) 各層のカーネル統合は、空間領域で非局所的な特性を持つガラーキン型アテンションによって効率的に実現されるため、グリッドフリーの連続 2 が容易になります。 ) 多層アテンション構造により、動的潜在基底更新が可能になります。これは、LR 画像からの高周波情報を「ファンタジー」するための SR 問題にとって非常に重要です。

実験結果は、SRNO が精度と実行時間の点で既存の連続 SR 手法よりも優れていることを示しています。コードは https://github.com/2y7c3/Super-Resolution-Neural-Operator にあります。

008b50c6aaaeef59425ead7f230f5d5d.png

7、時空間データの過学習による高画質かつ効率的な映像超解像化を目指して

時空間情報を利用してビデオを正確にブロックに分割し、それによってブロック数とモデル サイズを最小限に抑える、ビデオ解像度アップスケーリングのための高品質で効率的な新しい方法が提案されています。このモデルを既製の携帯電話に導入した実験結果は、この方法が高いビデオ品質を備えたリアルタイムビデオ超解像度を達成することを示しています。最先端の方法と比較して、リアルタイム ビデオ解像度アップスケーリング タスクにおいて、28 fps のストリーミング速度、41.6 PSNR、14 倍の速度、2.29 dB の高い品質を達成します。コードはリリースされます: https://github.com/coulsonlee/STDO-CVPR2023

86ac31f275d8e62c760ee1e55cf51a27.png

公式アカウント「機械学習とAI生成の創造」に注目してください。もっと面白いことがあなたを待っています

安定拡散の簡単解説:AI塗装技術の潜在的な拡散モデルの解釈

制御可能なAIGC絵画生成アルゴリズムControlNetを徹底解説! 

クラシック GAN は次のように読む必要があります: StyleGAN

ec5390bf2dc73a8e7efcda377ad9ebe1.png GANのシリーズアルバムを見るには私をクリックしてください~!

一杯のミルクティーでAIGC+CVビジョンのフロンティアになろう!

最新かつ充実の100まとめ!拡散モデルの生成 拡散モデル

ECCV2022 | 対立ネットワーク GAN 生成に関する論文まとめ

CVPR 2022 | 25 以上の方向性、最新の 50 の GAN 論文

 ICCV 2021 | 35 のトピックに関する GAN 論文の概要

記事数は110以上!CVPR 2021 で最も完全な GAN ペーパーコーミング

記事数は100以上!CVPR 2020 で最も完全な GAN ペーパーコーミング

新しい GAN の解体: デカップリング表現 MixNMatch

StarGAN バージョン 2: マルチドメイン ダイバーシティ イメージの生成

添付のダウンロード | 「Explainable Machine Learning」の中国語版

添付のダウンロード | 「TensorFlow 2.0 ディープ ラーニング アルゴリズムの実践」

添付のダウンロード | 「コンピューター ビジョンにおける数学的手法」シェア

「深層学習に基づく表面欠陥検出手法の検討」

ゼロショット画像分類の調査: 10 年間の進歩

「ディープニューラルネットワークに基づく少数ショット学習の調査」

『礼書・薛記』には、「友なしで一人で学ぶのは孤独で無知だ」という言葉がある。

ミルク ティー カップをクリックして、AIGC+CV ビジョンのフロンティア ウェイバーになりましょう! 、  AI によって生成された創造物とコンピューター ビジョンの 知識の惑星に参加してください。

おすすめ

転載: blog.csdn.net/lgzlgz3102/article/details/131255656