RainDiffusion:教師なし学習が現実世界の画像ディレインのための拡散モデルと出会うとき

RainDiffusion:教師なし学習が現実世界の画像ディレインのための拡散モデルと出会うとき (論文閲覧)

Mingqiang Wei、南京航空宇宙大学、中国、arXiv、引用:0、コード: なし、論文

1 はじめに

現実世界の画像を脱レインするために教師なし学習が拡散モデルと出会うと何が起こるでしょうか? この疑問に答えるために、拡散モデルに基づいた最初の教師なし画像脱レインパラダイムである RainDiffusion が提案されています。従来の教師なし画像ノイズ除去の知恵に加えて、RainDiffusion は弱い敵対的トレーニングの代わりに、ペアになっていない実世界のデータに対する安定したトレーニングを導入します。RainDiffusion は、非拡散翻訳ブランチ (NTB) と拡散翻訳ブランチの 2 つの協調ブランチで構成されます。NTB は、サイクル整合性アーキテクチャを利用して、初期のクリーン/レイン画像ペアを生成することにより、標準拡散モデルのペアになっていないトレーニングの困難を回避します。DTB は 2 つの条件付き拡散モジュールを利用して、初期画像ペアと拡散生成事前設定を使用して目的の出力を段階的に改良し、ノイズ除去とレインフォール生成の一般化能力を向上させます。RainDiffusion は、非敵対的トレーニング パラダイムであり、現実世界の画像ノイズ除去の新しい標準です。広範な実験により、RainDiffusion 法の非/半教師あり法に対する優位性が確認され、完全教師あり法に対する競争上の優位性が示されています。

2. 全体論的思考

RainDiffusion と呼ばれる、ノイズ除去拡散確率モデル (DDPM) に基づく新しい教師なし学習パラダイムが、現実世界のユビキタスな画像ノイズ除去問題に対処するために提案されています。全体的なアイデアは、2 つの拡散モデルを使用してノイズのないイメージとノイズのあるイメージを生成し、条件付きでノイズのあるイメージをノイズのない拡散モデルのデノイザーに連結して、ノイズのないイメージを取得することです。

3. 方法

ここに画像の説明を挿入
図 2: RainDiffusion のパイプライン。RainDiffusion は、非拡散翻訳ブランチ (NTB) と拡散翻訳ブランチという 2 つの主要な相互作用ブランチで構成されます。詳細には、モデルのトレーニング段階でのみ使用される NTB は、サイクル整合性アーキテクチャを最大限に活用して、初期のクリーン/レイン画像ペアを生成します。G Φ A G_{\Phi}^{A}であることに注意してください。GファイそしてG Φ B G_{\Phi}^{B}GファイB雨が降っている画像と雨が降っていない画像をそれぞれ生成するために使用されます。x、y、x''、y''、x''、y''x、y、x^{'}、y^{'}、x^{''}、y^{''}× バツ「、y「、バツ「、y「」は、与えられた雨のない画像、与えられた雨の画像、生成された雨の画像、生成された雨のない画像、再構成された降雨のない画像、および再構成された雨の画像を指します。初期画像ペアが与えられると、DTB は 2 つの条件付き拡散モジュールを利用して、きれいな画像と雨の画像の間で変換します。

3.1 非拡散翻訳ブランチ (NTB)

条件付き拡散モデルは最先端の画像条件付きデータ合成および復元機能を示していますが、拡散モデルの実装には依然としてきれいな画像と雨の多い画像のペアが必要です。新しい非拡散変換ブランチ (NTB) を設計することで、敵対的トレーニングを行わずにこの問題に対処します。これは、条件付き拡散モデルのトレーニング用に初期のクリーン/レイン画像ペアを生成するサイクル一貫性アーキテクチャを導入します。トレーニングのため雨の画像yyyときれいなイメージxxxはペアになっておらず、NTB はΦ A , B \Phi^{A, B}ファイA 、初期変換推定値を取得するためのBの非拡散ジェネレーター
ここに画像の説明を挿入
ここでは弁別子は使用されていません。2 つのジェネレーターはオートエンコーダーに非常に似ていますか? ? 損失関数は次のとおりです。L cyc = E x 〜 P data ( x ) [ ∣ ∣ x ′ ′ − x ∣ ∣ 1 ] + E y 〜 P data ( y ) [ ∣ ∣ y ′ ′ − y ∣ ∣ 1 ] L _ {cyc} = E_{x〜P_{data(x)}}[||x^{''} − x||_{1}] + E_{y〜P_{data(y)}}[| | y^{''} − y||_{1}]Lサイクル=Ex Pデータ( x ) _ _ _[ ∣∣ x「」× 1+Ey Pデータ( y ) _ _ _[ ∣∣ y「」y 1]
、これら 2 つのネットワークを使用して、画像ペアを取得できます。
画像の説明を追加してください

3.2 拡散翻訳ブランチ (DTB)

生成モデリングの分野におけるノイズ除去拡散確率モデルの利点に従って、DTB は 2 つの条件付き拡散モジュールを設計して、不安定なトレーニングの制限を緩和し、現実世界の画像ノイズ除去と降雨生成の一般化能力を向上させました。

トレーニング プロセスでは条件付き逆拡散プロセスが採用されており、条件をデノイザーに連結するだけではありません。自然画像はサイズが異なるため、パッチベースの拡散モデルが採用されます。パッチ サイズとして 128 を選択します。トレーニングとサンプリングを高速化するために、DDIM アクセラレーション アルゴリズムが使用されます。アルゴリズムの流れは次のとおりです。まず、 C rop Cropを使用して、入力は晴天の画像と雨の画像です。Cro p は画像を Patch に分割します。ここではGGGは 2 つのジェネレーター、つまりこれら 2 つの拡散モデルに対応します (ここでのトレーニング プロセスにはサンプリングが必要で、非常に遅いはずですが、ここでは説明していません!!)。損失関数の 1 行目: 生成された雨画像を条件として使用し、拡散モデル A を使用して雨を除去します; 損失関数の 4 行目: 再構築された雨画像を条件として使用し、拡散モデルを使用します雨を除去する A、損失関数 No. 2 行目は拡散モデル B を使用して雨画像を生成するための条件として再構築された雨のない画像を使用します、損失関数の 3 行目は生成された雨のない画像を条件として使用します拡散モデル B を使用して実際の雨画像を生成するには、損失関数の最後の行 教師あり学習には制約があります。

ここに画像の説明を挿入
トレーニングが完了すると、拡散モデル A のみを使用して雨が除去され、対応する雨画像ペアが拡散モデル B によって取得されます。サンプリングプロセスは次のとおりです: DDD は1 つの画像内のブロックの数に対応します、Ω ^ t \hat \Omega_{t}おお^マトリックス内のそれぞれのパッチ位置に蓄積されたこれらの重複ノイズ推定値を指します。んんMは、各ピクセル ペアについて受け取った推定値に基づきますΩ ^ t \hat \Omega_{t}おお^平滑化されたフル画像ノイズを使用してΩ ^ t \hat \Omega_{t} を正規化して推定しますおお^暗黙的なサンプリング更新を実行します。

ここに画像の説明を挿入

4つの実験

RainDiffusion は、Nvidia GeForce RTX 3090 GPU を搭載したシステム上で Pytorch 1.6 を使用して実装されました。RainDiffusion を最適化するために、最小バッチ サイズ 4 で Adam オプティマイザを使用してパラダイムをトレーニングします。ここで、運動量パラメータβ 1 \beta_{1}b1β 1 \beta_{1}b1の値はそれぞれ 0.5 と 0.999 です。さらに、ジェネレータとディスクリミネータの両方の初期学習率は 0.00002 に設定されます。実験では、λ cyc \lambda_{cyc}を実行します。サイクル1:0に設定します。トレーニングのために、128×128 の画像パッチが元の画像 (またはその水平反転バージョン) からランダムに切り取られます。

ここに画像の説明を挿入
ここに画像の説明を挿入

ここに画像の説明を挿入

ここに画像の説明を挿入

5. まとめ

この記事の考え方は SR3 と似ていますが、この記事では現実世界の画像を扱うため、複雑さが急激に増加します。この論文の方法はあまりにも膨大で複雑です。効果はSR3とあまり変わりません。

おすすめ

転載: blog.csdn.net/qq_43800752/article/details/129888856