U-ViT:普及モデル向けViTバックボーン

ここに画像の説明を挿入します

抽象的な

  Vision transformers (ViT)畳み込みニューラル ネットワークに基づくタスクは、さまざまな視覚タスクで有望であることが示されていますが、拡散モデルの中では(convolutional neural network, CNN)依然としてU-Net優勢です。著者らは、拡散モデルを使用した画像生成のために、拡散に基づいたシンプルで一般的なViTアーキテクチャを設計しました時間、状態、ノイズ画像パッチを含むすべての入力を取り込み、浅層と深層間のロングスキップ接続を採用しているのが特徴です著者らは、無条件およびクラス条件付きの画像生成タスクとテキストから画像への生成タスクでそれを評価し、同様のサイズに基づくものより優れているとは言わないまでも、同等でした特に、生成モデルのトレーニング中に大規模な外部データセットへのアクセスを必要としないアプローチでは、使用された潜在拡散モデルは、でのクラス条件付き画像生成とのテキストから画像への生成で記録破りのスコアを達成しました   著者らの結果は、拡散ベースの画像モデリングではロング スキップ接続が重要である一方、Dベースの画像モデリングにおけるダウンサンプリングおよびアップサンプリング演算子は必ずしも必要ではないことを示しています。著者らは、これが拡散モデルに関する将来のバックボーン研究のための洞察を提供し、大規模なクロスモーダルデータセットの生成モデリングに利益をもたらす可能性があると信じています。(U-ViT)(diffusion models)U-ViT(time)(condition)(noisy image patches)token(long skip connections)(unconditional)(class-conditional)(text-to-image)U-ViTU-ViTCNNU-NetU-ViTImageNet 256x256FID2.29MS-COCO5.48
CNNU-NetU-ViT(backbones)

1. はじめに

  拡散モデルは、高品質の画像生成のための強力な深層生成モデルとして最近登場しました。これらは急速に発展しており、3Dテキストから画像への生成、画像から画像への生成、ビデオ生成、音声合成、合成などに応用されています。
  アルゴリズムが進化するにつれて、(backbones)バックボーン構造の変化が拡散モデルで中心的な役割を果たします。典型的な例は、畳み込みニューラル ネットワークに基づいていますU-NetCNNダウンサンプリング ブロックのセット、アップサンプリング ブロックのセット、および 2 つのグループ間のロング スキップ接続に基づく機能U-Netが、画像生成タスクの拡散モデルを支配します。一方で、ViTさまざまな視覚タスクでは有望であることが示されており、そのViT手法は に基づく手法CNNと同等かそれ以上です。CNNしたがって、当然の疑問が生じます: 普及モデルで ViT ベースに依存する必要があるのでしょうかCNN?この論文U-Netでは、著者は、次の図に示す
  ように、と呼ばれるシンプルで一般的な ViT ベースのアーキテクチャを設計しますU-ViT(Figure 1)

ここに画像の説明を挿入します

transformers設計原則  に従って、U-ViT時間的、条件付き、ノイズのある画像パッチを含む(patch)すべての入力が考慮されますtoken最も重要なのはU-NetU-ViT浅い層と深い層の間の走り幅跳びの接続からインスピレーションを得たことです。(low-level)直感的には、拡散モデルでは、ピクセルレベルの予測ターゲットにとって低レベルの特徴が重要であり(pixel-level)、この関連付けにより、対応する予測ネットワークのトレーニングが容易になります。さらに、視覚的な品質を向上させるためにU-ViT、出力前に畳み込みブロックを追加するオプションもあります3x3すべての要素の系統的なアブレーション研究については、図 2 を参照してください。
  著者らは、U-ViT無条件画像生成、クラス条件付き画像生成、テキストから画像への生成という 3 つの主流タスクを評価しています。すべての設定において、U-ViT同様のサイズの PTZ ベースのCNNものよりもU-Net優れているとは言えませんが、同等ですU-Net特に、生成モデルの学習中に大規模な外部データセットへのアクセスを必要としない手法の中でも、U-ViT を使用した潜在拡散モデルは、クラス条件付き画像生成と取得済みのテキストから画像への生成においてImageNet 256x256記録破りのFIDスコアを達成しました   著者らの結果は、ロング スキップ接続が重要である一方、NN に基づくアップサンプリング演算子とダウンサンプリング演算子が画像拡散モデルには必ずしも必要ではないことを示しています著者らは、これにより大規模なクロスモーダル データセットの将来の拡散モデル バックボーンに関する洞察が得られ、生成モデリング研究に利益をもたらすことができると考えています。2.29MS-COCO5.48
CNNU-NetU-ViT

2. 背景

  拡散モデルは、(Diffusion models)徐々にノイズをデータに注入し、その後プロセスを逆にしてノイズからデータを生成します。フォワード プロセスとも呼ばれるノイズ注入(noise-injection)プロセスは、マルコフ連鎖の形式をとります。q ( x 1 : T ∣ x 0 ) = ∏ t = 1 T q ( xt ∣ xt − 1 ) q(x_{1:T } | x_0) = \prod ^T _{t=1} q(x_t | x_{t-1})q ( x1 : Tx0=t = 1Tq ( xxt 1)  ここで、x 0 x_0バツ0です(data)q ( xt ∣ xt − 1 ) = N ( xt ∣ α txt − 1 , β t I ) q(x_t | x_{t-1}) = \mathcal N (x_t | \sqrt {\alpha _t} x_{t-1}、\beta _t I)q ( xxt 1=N ( ×ある バツt 1bI )α t \alpha _tあるβ t \beta _tbノイズ スケジューリングを表します(schedule)α t + β t = 1 \alpha _t + \beta _t = 1ある+b=1 . このプロセスを逆にするには、ガウス モデルq ( xt − 1 ∣ xt ) = N ( xt − 1 ∣ μ t ( xt ) , σ t 2 I ) q(x_{t-1} | x_t) = \mathcal N ( x_{t-1} | \mu _t (x_t), \sigma _t ^2 I)q ( xt 1x=N ( ×t 1∣μ _バツpt2I )実データの逆変換q ( xt − 1 ∣ xt ) q(x_{t-1} | x_t) をq ( xt 1x)の場合、最適平均は次のようになります。 μ t ∗ ( xt ) = 1 α t ( xt − β t 1 − α ˉ t E [ ϵ ∣ xt ] ) \mu _t ^ * (x_t) = \frac {1} {\ sqrt {\alpha _t}} \bigg( x_t - \frac {\beta _t} {\sqrt {1 - \bar {\alpha} _t }} \mathbb E [\epsilon | x_t] \bigg)メートルtバツ=ある 1バツ1あるˉ bE [ ϵ x] )  そのうち、α ˉ t = ∏ i = 1 t α i \bar {\alpha} _t = \prod ^t _{i=1} \alpha _iあるˉ=i = 1ある私は, ϵ \εϵはxt x_tに注入されますバツの標準ガウス ノイズ。したがって、学習はノイズ予測タスクに相当します。形式的には、ノイズ予測ネットワークϵ θ ( xt , t ) \epsilon _{\theta} (x_t, t)が使用されます。ϵバツt )、ノイズ予測ターゲット学習E [ ϵ ∣ xt ] \mathbb E [\epsilon | x_t]E [ ϵ x] ,in min θ E t , x 0 , ϵ ∣ ∣ ϵ − ϵ θ ( xt , t ) ∣ ∣ 2 2 \理解 {\bm \theta} {min} \mathbb E _{t, x_0, \epsilon} || \epsilon - \epsilon _{\theta}(x_t, t) ||_2 ^2Et x0 ϵ∣∣ ϵϵバツt ) 22  その中には、ttt in[ 1 , T ] [1, T][ 1 T ] は均等にサンプリングされます。クラス条件付きモデルやテキストから画像へのモデルなどの条件付き拡散モデルを学習するには、条件付き情報がノイズ予測ターゲットにさらに入力されます:
min θ E t , x 0 , c , ϵ ∣ ∣ ϵ − ϵ θ ( xt , t , c ) ∣ ∣ 2 2 ( 1 ) \underset {\bm \theta} {min} \mathbb E _{t, x_0, c, \epsilon} || \epsilon - \epsilon _{\theta }(x_t, t, c) ||_2 ^2 \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (1)Et x0c ϵ∣∣ ϵϵバツc ) 22                         ( 1 )  その中で、cccは条件付きまたは連続ですembedding画像モデリングに関する以前の研究では、拡散モデルの成功は、CNNダウンU-Netサンプリング ブロックのセット、アップサンプリング ブロックのセット、および 2 つのグループ間のアップサンプリング ブロックのセットによって特徴付けられる畳み込みバックボーンである に大きく依存していました。 、cccは、適応グループ正規化(adaptive group normalization)やクロスアテンション(cross attention)などのメカニズムを介して に入力されますU-Net
  Vision、画像をシーケンスとして扱うTransformer(ViT)純粋なアーキテクチャです画像を一連のフラットなタイルに再配置します。次に、これらのパッチを に供給する前に、学習可能な位置埋め込みがの線形埋め込みこれはさまざまな視覚タスクで有望であることが示されていますが、拡散ベースの画像モデリングへの適用性は不明です。transformertokens(words)ViT(patch)ViT1D(1D position embeddings)(patch)(linear embeddings)transformer encoderViT

3. 方法

  U-ViTこれは、画像生成における拡散モデルのシンプルで汎用性の高いバックボーンです。特に、ノイズ予測ネットワークϵ θ ( xt , t , c ) \epsilon _{\theta}(x_t, t, c) はU-ViT次の式でパラメータ化されます。(1)ϵバツc )、時間がかかりますttt、状態cccとノイズのある画像xt x_tバツxt x_tに注入される入力および予測としてバツノイズが入ってくる。設計手法によればViT、画像を小片に分割し、U-ViT時間、条件、画像の小片を含むすべての入力を として使用しますtokens(words)拡散モデルにおける [8]の成功
  に触発され、同様のロング ジャンプ接続が浅い層と深い層の間にも採用されています。直感的には、この式の目標は、基礎となる特徴に敏感なピクセル レベルの予測タスクです。ロング スキップ接続は低次の特徴へのショートカットを提供するため、ノイズ予測ネットワークのトレーニングが簡素化されます。   さらに、出力の前に畳み込みブロックを追加するオプションがあります。これは、結果として得られる画像内の潜在的なアーティファクトを防ぐためです。著者の実験によると、この畳み込みブロックにより、生成されたサンプルの視覚的な品質が向上します。CNNU-NetU-ViT(1)
U-ViT3x3transformersU-ViT

3.1. 実装の詳細

  概念的には単純ですがU-ViT、作成者はその実装を慎重に設計しました。この目的を達成するために、著者はU-ViT主要な要素について系統的な実験研究を実施しました。特に、著者らはCIFAR10でアブレーション実験を実施し、生成された n 個のサンプル (効率を考慮してn10Kではなく) でトレーニング反復ごとのスコアを評価し、デフォルトの実装の詳細を決定します。50K50KFID

  ブロガー Xiaoyou からのメモ:CIFAR10データ セットには50kトレーニング サンプルと10kテスト サンプルがあり、合計60k3 つのサンプルがあります。著者が言いたいのは、モデルは 1 回トレーニング (one epoch) され、1 回評価されるのではなく、評価中に10k(テスト セットと一致する) サンプルが生成されるということです。

  The way to combine the long skip branch.どのlong skip組み合わせが良いでしょうか?hm , hs ∈ RL × D h_m, h_s \in \mathbb R^{L\times D}
  とします。hメートルhsRL × Dはそれぞれメインブランチ(main branch)とロングジャンプブランチをそれらを次のものに供給する前に、それらを結合するいくつかの方法が検討されましたそれらを連結してから、示されているように線形投影を実行します。つまり、Linear ( C oncat ( hm , hs ) ) Linear(Concat(h_m , h_s))(long skip branch)embeddingstransformer block
  (1)1リニア(接続( h _ _ _ _ _ _ _ _ _メートルhs)) ;
  (2)直接加算、つまりhm + hs h_m + h_shメートル+hs;線形投影
  (3)の後にそれらを追加しますh_s、つまりhm + L inear ( hs ) h_m + Linear(h_s)hメートル+ライナー( h _ _ _ _s) ;
  (4)それらを追加して、線形投影、つまりL inear ( hm + hs ) Linear(h_m + h_s)ライナー( h _ _ _ _メートル+hs) ;
  (5)ロングジャンプ接続は使用しないでください。
  下図のようにhm h_m(Figure 2a)を直接変更します。hメートルそして、h_shs足しても足らない。hs h_s は、transformer block内部の加算演算子によるスキップ接続により、h_mすでに線形形式に含まれていますhsしたがって、情報はhm + hs h_m + h_shメートル+hsの唯一の効果は、線形形式でhs h_sを増加させることです。hsネットワークのプロパティを変更せずに係数を変更します。対照的に、他のすべての組み合わせhs h_sは、ロング ジャンプ接続がない場合と比較します。hsメソッドはすべてhs h_s内にありますhsに対して線形投影を実行し、パフォーマンスを向上させます。このうち、最初の接続方法が最もパフォーマンスが優れています。付録 ではD、著者らはネットワーク内の表現間の類似性を視覚化し、最初の方法での接続によって表現情報が大幅に変化することを発見し、その有効性を検証しました。

ここに画像の説明を挿入します
  The way to feed the time into the network.timeネットワークにフィードする方法はどれが優れていますか? 著者はtt の
  2 つの使用方法を考えていますネットワークにt を
  (1)入力する方法:時刻ttt はtoken1示されているとして扱われますで使用される適応グループ正規化と同様に、
  (2)層の正規化が(layer normalization)後の時間です   2 番目の方法は適応層正規化と呼ばれ、次の形式になります。 A da LN ( h , y ) = ys Layer N orm ( h ) + yb AdaLN(h, y) = y_s LayerNorm(h) + y_btransformer blockU-Net(adaptive group normalization)
(AdaLN)A d a L N ( h ,y =ysレイヤーNまたはm ( h ) _ _+yb  どこで、ああhys y_stransformer block以内embeddingですys y b y_b yb時間埋め込みの線形投影によって取得されます。以下の図に示すように(Figure 2b)、単純ではありますが、時間を処理するtoken最初の方法の方がAdaLNパフォーマンスが優れています。

ここに画像の説明を挿入します
  The way to add an extra convolutional block after the transformer.この追加の畳み込みブロックをどこに配置するのがよいでしょうか?
  著者らはtransformer、後に畳み込みブロックを追加する 2 つの方法を検討しました:図に示すように、にマッピングされる
  (1)線形投影 の後に3x3畳み込みブロックを追加する; この線形投影 の前に畳み込みブロックを追加する( h ∈ RL × D h \が必要) \mathbb R^{L\times D} でtoken embeddingsimage patches1
  (2)3x3token embeddings hRL × Dの 1 次元数列を H / P × W / P × DH / P \times W / P \times D の形に並べ替えます。H / P×W / P×Dの 2 次元特性PPP はpatch size
  (3)追加の畳み込みブロックが使用されないことを意味します
  以下の図に示すように(Figure 2c)最初の方法で線形投影後に3x3畳み込みブロックを追加するパフォーマンスは、

ここに画像の説明を挿入します
  Variants of the patch embedding.どちらのpatch embedding方法が良いですか?
  著者らはpatch embedding2 つのバリアントを検討しました。1つは線形投影伴う
  (1)バリアント   以下に示すように、元の効果の方が優れています。patch embeddingpatchtoken embedding1
  (2)3x31x1imagetoken embedding
(Figure 2d)patch embedding

ここに画像の説明を挿入します
  Variants of the position embedding.どの位置エンコーディングposition embeddingが優れているのでしょうか?
  著者らはposition embedding2 つの変形を検討しました:
  (1)オリジナルViTで提案された 1 次元学習可能position embedding(この論文のデフォルト設定)、および
  (2)2 次元正弦波position embeddingpatchposition ( i , j ) Position(i, j)位置( i , _ _ _ _ _ _j ) は、 sine iiでエンコードできます。JJjは一緒に接合されます。
  以下の図に示すように(Figure 2e)、1 次元の学習可能な位置の埋め込みがより適切に機能します。

ここに画像の説明を挿入します

  また、著者らは位置エンコーディングを一切使用しないことを試みましたが、このモデルでは意味のある画像を生成できないことがわかり、画像生成において位置情報が重要であることがわかりました。

3.2. 深さ、幅、パッチ サイズの影響

著者らは、深さ  つまりdepth、層の数)、幅width(つまり、隠れ層のサイズD)、および 以下の図に示すように、深さ (つまり、レイヤーの数) が増加すると、パフォーマンスが向上しますただし、トレーニングの反復では、深さを深くしてもメリットが得られません同様に、幅 (つまり、隠れ層のサイズ) を増やすとパフォーマンスが向上する可能性があり、それ以上増やすと利益は得られませんが、幅を減らすとパフォーマンスが向上しますが、さらに減らすと利益は得られません。良好なパフォーマンスを得るには、これと同じくらい小さい必要があることに注意してください著者らは、これは、分類などの高レベルのタスクとは異なり、拡散モデルのノイズ予測タスクが低レベルであり、必要なサイズが小さいためであると推測しています。高解像度画像では小さいサイズを使用するとコストがかかるため、著者らはまず画像を低次元の潜在表現に変換し、これらの潜在表現を を使用してモデル化します。patch sizeCIFAR10U-ViT(depth=9, 13)50KU-ViT(depth=17)(width=256, 512)width=768patch size(patch-size=8, 2)patch-size=1patch-size=2patchpatchpatchU-ViT

ここに画像の説明を挿入します

4. 関連作品

  Transformers in diffusion models.関連する研究ではGenViT長いスキップ接続を使用せず、画像拡散モデルの正規化層の前に時間を組み込む、より小さな畳み込みブロックGenViTを採用しています。経験によれば、実装の詳細を慎重に設計すると、作成者のパフォーマンス比ははるかに向上します (表 1 を参照)。別の関連する研究は、最初離散画像シーケンスを取得し、次に離散拡散モデルをバックボーンとして使用してこれらをモデル化し、クロスアテンションまたは適応層正規化を介して時間的および条件付き入力を中心に組み込むことによって、これのバリエーションです対照的に、著者らのアプローチでは、すべての入力を入力として扱い、浅い層と深い層の間で長いスキップ接続を使用するだけで、より良い結果が得られます(表 1 および 4 を参照)。画像に加えて、拡散モデルはテキストのエンコード、デコード、およびテキストの生成にも使用されます最初は、連続画像データの対数尤度関数の勾配をモデル化するために に基づいて導入され、その後グループ正規化、マルチヘッド アテンション、改善された残差差分ブロック、クロス注意。対照的に、著者のネットワークは、単純な概念設計を備えたB ベースのバックボーン ネットワークですが、同様のサイズの B ベースのバックボーンと同等のパフォーマンスを発揮します(表 1 および 4 を参照)。バックボーンに加えて、高速サンプリング、改善されたトレーニング方法、制御された生成など、他の領域でも改善されていますViT3x3U-ViTGenViTVQ-DiffusionVQ-DiffusionVQ-GANtokenstransformertokenstransformerU-ViTtokensFIDtransformer(encode texts)(decode texts)CLIP embeddings
  U-Net in diffusion models. YangCNNU-NetCNNU-NetU-ViTViTCNNU-Net
  Improvements of diffusion models.(fast sampling)(controllable generation)

5. 実験

  著者らは,無条件画像生成,準条件画像生成,およびテキストから画像への生成において,この論文で提案した手法を評価した.これらの結果を提示する前に,主な実験設定を以下にU-ViT示す.ハイパーパラメータのサンプリングなどの詳細Aについては,付録の供給品。

5.1. 実験のセットアップ

  Datasets.無条件学習の場合、著者らは50Kトレーニング画像を含むトレーニング画像CIFAR10162770顔を含むトレーニング画像を考慮しますCelebA 64x64クラス条件付き学習の場合、さまざまなクラスからのトレーニング画像を含む64x64および256x256解像度を考慮します。テキストから画像への学習の場合は、トレーニング画像と検証画像が含まれ、各画像に注釈テキストが含まれるの解像度を考慮します。著者らは、解像度画像の潜在拡散モデルに従っていますこれらはまず、提供された事前トレーニングされた画像オートエンコーダーを使用してそれぞれ解像度と解像度の潜在表現に変換され、次にこれらの潜在表現は提案された を使用してモデル化されます。では、作成者はテキスト エンコーダを使用して個別のテキストをシーケンスに変換し、これらをシーケンスとしてに入力しました512x512ImageNet1K1281167256x256MS-COCO82783405045
  High resolution image generation.256x256512x512(latent diffusion models, LDM)Stable Diffusion(autoencoder)32x3264x64U-ViT
  Text-to-image learning.MS-COCOStable DiffusionCLIPembeddingsembeddingstokensU-ViT

  CLIP、今すぐContrastive Language-Image Pre-Training

  U-ViT configurations.著者らは、U-ViT以下の表にいくつかの構成を特定しました。この記事の残りの部分では、U-ViT構成と入力patchサイズを表すために短い表記が使用されます。たとえば、U-ViT-H/2設定されたU-ViT-Huge入力patchサイズは です2x2

ここに画像の説明を挿入します

  Training.著者は、AdamWすべてのデータセットに対して重み減衰を備えたオプティマイザを使用しています0.3(weight-decay=0.3)ほとんどのデータセットでは、使用される2e-4学習率(learning-rate=2e-4)に加えて、ImageNet 64x64使用される学習率も使用されます3e-4反復はおよびのバッチ サイズCIFAR10CelebA 64x64トレーニングされました反復はと でトレーニングされ反復はでトレーニングされ、バッチ サイズは でした反復はでトレーニングされ、バッチ サイズは でしたおよびでは、著者は分類子を使用しないガイド付きフォローを採用しています。トレーニング時間やハイパーパラメータの選択などの詳細については、付録を参照してください。500K128(batch-size=128)ImageNet 64x64ImageNet 256x256300KImageNet 512x512500K1024(batch-size=1024)MS-COCO1M256(batch-size=256)ImageNet 256x256ImageNet 512x512MS-COCOA

5.2. 無条件およびクラス条件付きのイメージ生成

  著者らはU-ViT、以前の拡散ベースのモデルとU-Net比較し、生成されたサンプルのスコアGenViTを使用して画質を測定しました。   以下の表に示すように、無条件合計のパフォーマンスは以下と同等であり、それよりもはるかに優れています。50KFID
U-ViTCIFAR10CelebA 64x64U-NetGenViT

ここに画像の説明を挿入します

  なんというか、前の部分はよく書けていたんですが、結果を読んでこじつけだなと感じました。44MできるU-ViT-S/2かできない11Mかは何とも言えず、結局パラメータはGenViTここにあるのにできない、ということではないでしょうか?36MDDPM

  クラス条件に関してImageNet 64x64、作成者は最初に次の表に示すような131Mパラメータ構成を使用しようとしました。これはパラメータベースのモデルよりも優れていますパフォーマンスをさらに向上させるために、作成者はの範囲のパラメーターを使用した構成を採用していますU-ViT-MFID5.85100MU-NetIDDPM6.92287MU-ViT-LFID5.854.26

ここに画像の説明を挿入します

  そうじゃないですか、それができないもの287Mは、同じようなパラメータ量を持つものよりもはるかに悪いです。U-ViT-L/4270MIDDPM296MADM

  同時に、著者らは、U-ViT拡散モデルを適用する前に画像がまず潜在表現に変換される潜在空間で特に優れたパフォーマンスを発揮することを発見しました。クラス条件ではImageNet 256x256、これまでのすべての普及モデルを上回る最先端のスコアU-ViTが得られますFID2.29

ここに画像の説明を挿入します

  はい、このインジケーターは現在 ですSOTA

  次の表は、同じサンプラーと異なるサンプリング ステップを使用した方が、よりU-ViT優れていることを示しています。LDM

ここに画像の説明を挿入します

バックボーンとして離散拡散モデルを使用する後者U-ViTよりも優れて  いることに注意してください。著者らは、同様のパラメータと計算コストを使用した置換も試みましたがそれでも優れたパフォーマンスを示しました(詳細については付録を参照)。クラス条件の観点からは画像ピクセルを直接モデル化するよりも優れています以下の図では、作成者はに関する精選されたサンプルと、他のデータセットに関するランダム サンプルを提供しています。これらは高品質で明確なセマンティクスを備えています。準条件付きサンプルやランダム サンプルなど、さらに生成されたサンプルは、付録に記載されています。VQ-DiffusiontransformerU-NetU-ViTU-ViTU-NetEImageNet 512x512U-ViTADM-GImageNet 256x256ImageNet 512x512F

ここに画像の説明を挿入します

ここに画像の説明を挿入します

  セクション 1では3.1、小規模データセットにおけるロング ジャンプ接続の重要性を示しました(CIFAR10)以下の画像は、次ImageNetのような大規模なデータセットにとってもそれがいかに重要であるかを示しています。

ここに画像の説明を挿入します
  付録ではC、著者は、他のメトリクス ( sFIDinception score 、precisionおよびrecall) の結果と、ImageNetより多くのU-ViT構成を使用した計算コストを示しています(GFLOPs)著者らは、彼らのモデルは、(より小さいとは言えないにしても)U-ViT同等ではありながら、他の指標では依然として最先端の拡散モデルに匹敵すると指摘しています。GFLOPs

5.3. MS-COCO でのテキストから画像への生成

  著者らは、標準ベンチマーク データセットでのテキストから画像への生成をMS-COCO評価しました。セクション 1で詳述したように、U-ViT画像の潜在空間でトレーニングされました 。さらに、著者らは、他の部分は変更せずに、同等のサイズのモデルを使用して別の潜在拡散モデルもトレーニングしました。そのハイパーパラメータとトレーニングの詳細は付録に記載されています著者はスコアを使用して画質を測定します。以前の文献と一致して、プロンプトは検証セットからランダムに選択され、計算用にこれらのプロンプトに基づいてサンプルが生成されます   以下の表に示すように、大規模な外部データセットにアクセスすることなく、生成モデルのトレーニング中に最先端の手法が実現されましたさらに層ごとに層の数を増やすことで、U はさらに優れた を達成できますU-ViT5.1U-ViT-SU-NetBFIDMS-COCO30K(prompts)FID
U-ViT-SFID1317-ViT-S (Deep)5.48FID

ここに画像の説明を挿入します

  以下の画像は、公平な比較のために同じランダム シードを使用して生成されたU-Net合計のサンプルを示していますU-ViT著者らは、U-ViTセマンティクスとテキストの一致が良好な、より高品質なサンプルが生成されることを発見しました。たとえば、テキストが与えられた場合"a baseball player swinging a bat at a ball"U-Netバットもボールも生成されません。比較すると、U-ViT-S生成されるボールのパラメーターは少なく、U-ViT-S (Deep)さらにバットが生成されます。著者らは、これはテキストと画像がクロスアテンション層だけよりも各層でより頻繁にU-ViT相互作用するためであると推測しています。U-Net著者は付録Fでさらに多くの例を提供しています。

ここに画像の説明を挿入します

6. 結論

  この研究では、画像生成および拡散モデルのための、拡散に基づくU-ViTシンプルで一般的なアーキテクチャを提案します。時間的、条件付き、ノイズの多い画像パッチを含むすべての入力をラベルとして処理し、浅い層と深い層の間でロング スキップ接続を使用します。著者らは、無条件およびカテゴリ条件付きの画像生成や、テキストから画像への生成などのタスクを評価しています実験により、同様のサイズの PTFE よりも優れているとは言えないまでも、同等であることが示されましたこれらの結果は、拡散ベースの画像モデリングにはロング ジャンプ接続が重要である一方、D ベースの D におけるアップサンプリング演算子とダウンサンプリング演算子は必ずしも必要ではないことを示しています著者らは、これにより拡散モデルに関する将来のバックボーン研究への簡潔な洞察が得られ、大規模なクロスモーダルデータセットの生成モデリングが容易になると考えています。ViTU-ViTU-ViTU-ViTCNNU-NetU-NetCNNU-NetU-ViT

おすすめ

転載: blog.csdn.net/qq_42730750/article/details/131230282