低解像度に別れを告げる: 画像超解像度のための拡散ウェーブレット アプローチ (論文の閲覧)

低解像度に別れを告げる: 画像超解像度のための拡散ウェーブレット アプローチ

Brian B. Moser、ドイツ人工知能研究センター (DFKI)、ドイツ、arXiv、Cited:0、コード論文

1 はじめに

この論文では、単一画像超解像度 (SISR) のために新しい拡散ウェーブレット (DiWa) 方法を提案します。ノイズ除去拡散確率モデル (DDPM) と離散ウェーブレット変換 (DWT) を最大限に活用します。DDPM を DWT ドメインで動作させることにより、DDPM モデルは高周波の幻覚を効率的に実現します。私たちの DDPM モデルは、スモールレット スペクトル上の超解像度画像の高周波情報を効果的に幻覚させ、画像空間で高品質で詳細な再構成を実現します。このようにして、PSNR、SSIM、および LPIPS において、正面 (8 倍ズーム) および一般 (4 倍ズーム) SR ベンチマークの両方で、最先端の拡散ベースの SISR 手法、つまり SR3 および SRDiff を定量的に上回っています。同時に、DWT を使用すると、他のモデルよりも使用するパラメーターを少なくすることができます。比較モデル: SR3 と比較すると、550M ではなく 92M のパラメータを使用し、SRDiff と比較すると、12M ではなく 9.3M のパラメータを使用しました。さらに、私たちの方法は、古典的な一般的な SR に関して他の最先端の方法よりも優れています。さらに、私たちの方法は、推論時間を節約しながら、古典的な一般的な SR データセットに対して他の最先端の生成方法よりも優れたパフォーマンスを発揮します。推論時間も節約できます。最後に、私たちの研究は、さまざまな用途におけるその可能性を強調しています。

2.方法

この記事のアイデアは、「確率的リファインメントによるブレ除去」のアイデアとまったく同じです。
ここに画像の説明を挿入
まずトレーニング プロセスを見てください。低解像度の画像が補間法を使用して拡大され、xxが得られます。xでは、2 つの画像ペアが取得され、離散ウェーブレット変換が行われます。まず予測子g θ g_{\theta}g低解像度画像をスーパースコア化する場合、手順は従来のエンドツーエンドのニューラル ネットワークと同じです。次にzt z_{t}についてz前方拡散の場合、ここでの事前確率は残差であり、この拡散モデルが画像を強化したり、テクスチャの詳細を学習したりすることを意味します。
ここに画像の説明を挿入
推論プロセスをもう一度見てください。低解像度の画像を与え、最初にネットワークを使用して最初の高解像度の画像を取得します。この画像はぼやけている必要があります。次に、拡散モデルを使用して、元の高解像度画像に追加される強化された詳細が生成されます。

2.1 なぜ離散ウェーブレット変換を使用するのですか?

DWT を使用する動機は 2 つあります。1 つは、DWT と DDPM を組み合わせることで画質が向上し、直接処理すると失われたり歪んだりする可能性がある重要な特徴をモデルがキャプチャして保存できるようになります。DWT は、高周波の詳細を個別のサブバンドに明示的に分離する代替表現を提供します。したがって、それらの表現はよりまばらになり、ネットワークが学習しやすくなります。この特性は拡散ベースのオーディオ合成でも利用され、素晴らしい結果が得られています。

次に、DWT はナイキスト則に従って画像の空間サイズを半分にし、ノイズ除去関数 (CNN) の推論時間を短縮します。これは、DDPM 推論中にモデルが複数回適用される場合に特に有益です。Phung らによる最近の研究では、DiffusionGAN [50] を使用した画像生成にも同様のアプローチが採用されており、高速化の可能性が実証されています。ただし、DiffusionGAN は、中間ステップを GAN で近似することにより、画像生成に必要なタイム ステップを短縮するという点で従来の DDPM とは異なります。

3. 実験

不完全な実験?PSNR を比較する理由は何ですか? FID など、生成モデルにとってより重要な指標についてはどうですか? 効果がとても良いので比べてみてはいかがでしょうか?効果はとても良いのですが、PSNRは強くないですか?
ここに画像の説明を挿入

顔の SR については、SRDiff を独自の方法で評価します。一般的な SR については、SR3 と比較します。バイキュービック補間とアンチエイリアシング手順を使用して、高周波情報を破棄する LR-HR 画像ペアを生成します。

顔 SR: Flickr の 50K の高品質顔画像である Flickr-Faces-HQ (FFHQ) をトレーニングとして使用します。評価には3万枚の顔画像からなるCelebA-HQを利用します。私たちは Saharia らに従い、2 つの 8 倍ズーム トラックを採用しています。16×16→128×128、64×64→512×512の場合に合わせて全ての画像をリサイズしました。

一般 SR: トレーニングには DIV2K の 2K 解像度の高品質画像 800 枚を使用し、評価にはデータセット Set5、Set14、BSD100、General100 を使用します。さらに、DIV2K 検証セットを使用して、メソッドを SRDiff と比較します。標準手順に従って、4 倍ズーム トレーニング用に DIV2K から 48×48 → 192×192 のサブ画像を抽出します。テストのために、画像の元のサイズを維持します。これは、SISR の標準手順です。

顔の超解像度: チャネルの次元を 128 ではなく 64 に削減し、ResNet ブロックの数を 3 ではなく 2 に削減します。パラメータは合計で 5 億 5,000 万個ではなく、約 9,200 万個あります。64×64 → 512×512 面 SR では、視覚的な例を公平に主観的に比較するために、SR3 と同じアーキテクチャ設定 (625M パラメータ) を採用しています。さらに、バッチ サイズも 256 ではなく 4 に減少します。これには、A100 GPU の実行が必要です。

ここに画像の説明を挿入

ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/qq_43800752/article/details/130112670