記事ディレクトリ
抽象的な
Vision transformers (ViT)
畳み込みニューラル ネットワークに基づくタスクは、さまざまな視覚タスクで有望であることが示されていますが、拡散モデルの中では(convolutional neural network, CNN)
依然としてU-Net
優勢です。著者らは、拡散モデルを使用した画像生成のために、拡散に基づいたシンプルで一般的なViT
アーキテクチャを設計しました。時間、状態、ノイズ画像パッチを含むすべての入力を取り込み、浅層と深層間のロングスキップ接続を採用しているのが特徴です。著者らは、無条件およびクラス条件付きの画像生成タスクとテキストから画像への生成タスクでそれを評価し、同様のサイズに基づくものより優れているとは言わないまでも、同等でした。特に、生成モデルのトレーニング中に大規模な外部データセットへのアクセスを必要としないアプローチでは、使用された潜在拡散モデルは、でのクラス条件付き画像生成とでのテキストから画像への生成で記録破りのスコアを達成しました。 著者らの結果は、拡散ベースの画像モデリングではロング スキップ接続が重要である一方、Dベースの画像モデリングにおけるダウンサンプリングおよびアップサンプリング演算子は必ずしも必要ではないことを示しています。著者らは、これが拡散モデルに関する将来のバックボーン研究のための洞察を提供し、大規模なクロスモーダルデータセットの生成モデリングに利益をもたらす可能性があると信じています。(U-ViT)
(diffusion models)
U-ViT
(time)
(condition)
(noisy image patches)
token
(long skip connections)
(unconditional)
(class-conditional)
(text-to-image)
U-ViT
U-ViT
CNN
U-Net
U-ViT
ImageNet 256x256
FID
2.29
MS-COCO
5.48
CNN
U-Net
U-ViT
(backbones)
1. はじめに
拡散モデルは、高品質の画像生成のための強力な深層生成モデルとして最近登場しました。これらは急速に発展しており、3D
テキストから画像への生成、画像から画像への生成、ビデオ生成、音声合成、合成などに応用されています。
アルゴリズムが進化するにつれて、(backbones)
バックボーン構造の変化が拡散モデルで中心的な役割を果たします。典型的な例は、畳み込みニューラル ネットワークに基づいていますU-Net
。CNN
ダウンサンプリング ブロックのセット、アップサンプリング ブロックのセット、および 2 つのグループ間のロング スキップ接続に基づく機能U-Net
が、画像生成タスクの拡散モデルを支配します。一方で、ViT
さまざまな視覚タスクでは有望であることが示されており、そのViT
手法は に基づく手法CNN
と同等かそれ以上です。CNN
したがって、当然の疑問が生じます: 普及モデルで ViT ベースに依存する必要があるのでしょうかCNN
?この論文U-Net
では、著者は、次の図に示す
ように、と呼ばれるシンプルで一般的な ViT ベースのアーキテクチャを設計します。U-ViT
(Figure 1)
transformers
設計原則 に従って、U-ViT
時間的、条件付き、ノイズのある画像パッチを含む(patch)
すべての入力が考慮されますtoken
。最も重要なのはU-Net
、U-ViT
浅い層と深い層の間の走り幅跳びの接続からインスピレーションを得たことです。(low-level)
直感的には、拡散モデルでは、ピクセルレベルの予測ターゲットにとって低レベルの特徴が重要であり(pixel-level)
、この関連付けにより、対応する予測ネットワークのトレーニングが容易になります。さらに、視覚的な品質を向上させるためにU-ViT
、出力前に畳み込みブロックを追加するオプションもあります3x3
。すべての要素の系統的なアブレーション研究については、図 2 を参照してください。
著者らは、U-ViT
無条件画像生成、クラス条件付き画像生成、テキストから画像への生成という 3 つの主流タスクを評価しています。すべての設定において、U-ViT
同様のサイズの PTZ ベースのCNN
ものよりもU-Net
優れているとは言えませんが、同等ですU-Net
。特に、生成モデルの学習中に大規模な外部データセットへのアクセスを必要としない手法の中でも、U-ViT を使用した潜在拡散モデルは、クラス条件付き画像生成と取得済みのテキストから画像への生成においてImageNet 256x256
記録破りのFID
スコアを達成しました。 著者らの結果は、ロング スキップ接続が重要である一方、NN に基づくアップサンプリング演算子とダウンサンプリング演算子が画像拡散モデルには必ずしも必要ではないことを示しています。著者らは、これにより大規模なクロスモーダル データセットの将来の拡散モデル バックボーンに関する洞察が得られ、生成モデリング研究に利益をもたらすことができると考えています。2.29
MS-COCO
5.48
CNN
U-Net
U-ViT
2. 背景
拡散モデルは、(Diffusion models)
徐々にノイズをデータに注入し、その後プロセスを逆にしてノイズからデータを生成します。フォワード プロセスとも呼ばれるノイズ注入(noise-injection)
プロセスは、マルコフ連鎖の形式をとります。q ( x 1 : T ∣ x 0 ) = ∏ t = 1 T q ( xt ∣ xt − 1 ) q(x_{1:T } | x_0) = \prod ^T _{t=1} q(x_t | x_{t-1})q ( x1 : T∣ x0)=t = 1∏Tq ( xた∣ xt − 1) ここで、x 0 x_0バツ0です(data)
、q ( xt ∣ xt − 1 ) = N ( xt ∣ α txt − 1 , β t I ) q(x_t | x_{t-1}) = \mathcal N (x_t | \sqrt {\alpha _t} x_{t-1}、\beta _t I)q ( xた∣ xt − 1)=N ( ×た∣あるたバツt − 1、bたI )、α t \alpha _tあるたとβ t \beta _tbたノイズ スケジューリングを表します(schedule)
。α t + β t = 1 \alpha _t + \beta _t = 1あるた+bた=1 . このプロセスを逆にするには、ガウス モデルq ( xt − 1 ∣ xt ) = N ( xt − 1 ∣ μ t ( xt ) , σ t 2 I ) q(x_{t-1} | x_t) = \mathcal N ( x_{t-1} | \mu _t (x_t), \sigma _t ^2 I)q ( xt − 1∣ xた)=N ( ×t − 1∣μ _た(バツた)、pt2I )実データの逆変換q ( xt − 1 ∣ xt ) q(x_{t-1} | x_t) をq ( xt − 1∣ xた)の場合、最適平均は次のようになります。 μ t ∗ ( xt ) = 1 α t ( xt − β t 1 − α ˉ t E [ ϵ ∣ xt ] ) \mu _t ^ * (x_t) = \frac {1} {\ sqrt {\alpha _t}} \bigg( x_t - \frac {\beta _t} {\sqrt {1 - \bar {\alpha} _t }} \mathbb E [\epsilon | x_t] \bigg)メートルt∗(バツた)=あるた1(バツた−1−あるˉたbたE [ ϵ ∣ xた] ) そのうち、α ˉ t = ∏ i = 1 t α i \bar {\alpha} _t = \prod ^t _{i=1} \alpha _iあるˉた=∏i = 1たある私は, ϵ \εϵはxt x_tに注入されますバツたの標準ガウス ノイズ。したがって、学習はノイズ予測タスクに相当します。形式的には、ノイズ予測ネットワークϵ θ ( xt , t ) \epsilon _{\theta} (x_t, t)が使用されます。ϵ私(バツた、t )、ノイズ予測ターゲット学習E [ ϵ ∣ xt ] \mathbb E [\epsilon | x_t]E [ ϵ ∣ xた] ,in min θ E t , x 0 , ϵ ∣ ∣ ϵ − ϵ θ ( xt , t ) ∣ ∣ 2 2 \理解 {\bm \theta} {min} \mathbb E _{t, x_0, \epsilon} || \epsilon - \epsilon _{\theta}(x_t, t) ||_2 ^2私分Et 、x0、 ϵ∣∣ ϵ−ϵ私(バツた、t ) ∣ ∣22 その中には、ttt in[ 1 , T ] [1, T][ 1 、T ] は均等にサンプリングされます。クラス条件付きモデルやテキストから画像へのモデルなどの条件付き拡散モデルを学習するには、条件付き情報がノイズ予測ターゲットにさらに入力されます:
min θ E t , x 0 , c , ϵ ∣ ∣ ϵ − ϵ θ ( xt , t , c ) ∣ ∣ 2 2 ( 1 ) \underset {\bm \theta} {min} \mathbb E _{t, x_0, c, \epsilon} || \epsilon - \epsilon _{\theta }(x_t, t, c) ||_2 ^2 \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (1)私分Et 、x0、c 、 ϵ∣∣ ϵ−ϵ私(バツた、と、c ) ∣ ∣22 ( 1 ) その中で、cccは条件付きまたは連続ですembedding
。画像モデリングに関する以前の研究では、拡散モデルの成功は、CNN
ダウンU-Net
サンプリング ブロックのセット、アップサンプリング ブロックのセット、および 2 つのグループ間のアップサンプリング ブロックのセットによって特徴付けられる畳み込みバックボーンである に大きく依存していました。 、cccは、適応グループ正規化(adaptive group normalization)
やクロスアテンション(cross attention)
などのメカニズムを介して に入力されますU-Net
。
Vision、画像をシーケンスとして扱うTransformer(ViT)
純粋なアーキテクチャです。画像を一連のフラットなタイルに再配置します。次に、これらのパッチを に供給する前に、学習可能な位置埋め込みがの線形埋め込み。これはさまざまな視覚タスクで有望であることが示されていますが、拡散ベースの画像モデリングへの適用性は不明です。transformer
tokens(words)
ViT
(patch)
ViT
1D
(1D position embeddings)
(patch)
(linear embeddings)
transformer encoder
ViT
3. 方法
U-ViT
これは、画像生成における拡散モデルのシンプルで汎用性の高いバックボーンです。特に、ノイズ予測ネットワークϵ θ ( xt , t , c ) \epsilon _{\theta}(x_t, t, c) はU-ViT
次の式でパラメータ化されます。(1)
ϵ私(バツた、と、c )、時間がかかりますttt、状態cccとノイズのある画像xt x_tバツたxt x_tに注入される入力および予測としてバツたノイズが入ってくる。設計手法によればViT
、画像を小片に分割し、U-ViT
時間、条件、画像の小片を含むすべての入力を として使用しますtokens(words)
。拡散モデルにおける [8]の成功
に触発され、同様のロング ジャンプ接続が浅い層と深い層の間にも採用されています。直感的には、この式の目標は、基礎となる特徴に敏感なピクセル レベルの予測タスクです。ロング スキップ接続は低次の特徴へのショートカットを提供するため、ノイズ予測ネットワークのトレーニングが簡素化されます。 さらに、出力の前に畳み込みブロックを追加するオプションがあります。これは、結果として得られる画像内の潜在的なアーティファクトを防ぐためです。著者の実験によると、この畳み込みブロックにより、生成されたサンプルの視覚的な品質が向上します。CNN
U-Net
U-ViT
(1)
U-ViT
3x3
transformers
U-ViT
3.1. 実装の詳細
概念的には単純ですがU-ViT
、作成者はその実装を慎重に設計しました。この目的を達成するために、著者はU-ViT
主要な要素について系統的な実験研究を実施しました。特に、著者らはCIFAR10
でアブレーション実験を実施し、生成された n 個のサンプル (効率を考慮してn10K
ではなく) でトレーニング反復ごとのスコアを評価し、デフォルトの実装の詳細を決定します。50K
50K
FID
ブロガー Xiaoyou からのメモ:
CIFAR10
データ セットには50k
トレーニング サンプルと10k
テスト サンプルがあり、合計60k
3 つのサンプルがあります。著者が言いたいのは、モデルは 1 回トレーニング (oneepoch
) され、1 回評価されるのではなく、評価中に10k
(テスト セットと一致する) サンプルが生成されるということです。
The way to combine the long skip branch.
どのlong skip
組み合わせが良いでしょうか?hm , hs ∈ RL × D h_m, h_s \in \mathbb R^{L\times D}
とします。hメートル、hs∈RL × Dはそれぞれメインブランチ(main branch)
とロングジャンプブランチを。それらを次のものに供給する前に、それらを結合するいくつかの方法が検討されましたそれらを連結してから、示されているように線形投影を実行します。つまり、Linear ( C oncat ( hm , hs ) ) Linear(Concat(h_m , h_s))(long skip branch)
embeddings
transformer block
(1)
1
リニア(接続( h _ _ _ _ _ _ _ _ _メートル、hs)) ;
(2)
直接加算、つまりhm + hs h_m + h_shメートル+hs;線形投影
(3)
の後にそれらを追加しますh_s
、つまりhm + L inear ( hs ) h_m + Linear(h_s)hメートル+ライナー( h _ _ _ _s) ;
(4)
それらを追加して、線形投影、つまりL inear ( hm + hs ) Linear(h_m + h_s)ライナー( h _ _ _ _メートル+hs) ;
(5)
ロングジャンプ接続は使用しないでください。
下図のようにhm h_m(Figure 2a)
を直接変更します。hメートルそして、h_shs足しても足らない。hs h_s は、transformer block
内部の加算演算子によるスキップ接続により、h_m
すでに線形形式に含まれていますhsしたがって、情報はhm + hs h_m + h_shメートル+hsの唯一の効果は、線形形式でhs h_sを増加させることです。hsネットワークのプロパティを変更せずに係数を変更します。対照的に、他のすべての組み合わせhs h_sは、ロング ジャンプ接続がない場合と比較します。hsメソッドはすべてhs h_s内にありますhsに対して線形投影を実行し、パフォーマンスを向上させます。このうち、最初の接続方法が最もパフォーマンスが優れています。付録 ではD
、著者らはネットワーク内の表現間の類似性を視覚化し、最初の方法での接続によって表現情報が大幅に変化することを発見し、その有効性を検証しました。
The way to feed the time into the network.
time
ネットワークにフィードする方法はどれが優れていますか? 著者はtt の
2 つの使用方法を考えていますネットワークにt を
(1)
入力する方法:時刻ttt はtoken
、1
示されているとして扱われますで使用される適応グループ正規化と同様に、
(2)
層の正規化が(layer normalization)
後の時間です。 2 番目の方法は適応層正規化と呼ばれ、次の形式になります。 A da LN ( h , y ) = ys Layer N orm ( h ) + yb AdaLN(h, y) = y_s LayerNorm(h) + y_btransformer block
U-Net
(adaptive group normalization)
(AdaLN)
A d a L N ( h ,y )=ysレイヤーNまたはm ( h ) _ _+yb どこで、ああhはys y_stransformer block
以内embedding
ですys和 y b y_b yb時間埋め込みの線形投影によって取得されます。以下の図に示すように(Figure 2b)
、単純ではありますが、時間を処理するtoken
最初の方法の方がAdaLN
パフォーマンスが優れています。
The way to add an extra convolutional block after the transformer.
この追加の畳み込みブロックをどこに配置するのがよいでしょうか?
著者らはtransformer
、後に畳み込みブロックを追加する 2 つの方法を検討しました:図に示すように、にマッピングされる
(1)
線形投影 の後に3x3
畳み込みブロックを追加する; この線形投影 の前に畳み込みブロックを追加する( h ∈ RL × D h \が必要) \mathbb R^{L\times D} でtoken embeddings
image patches
1
(2)
3x3
token embeddings
h∈RL × Dの 1 次元数列を H / P × W / P × DH / P \times W / P \times D の形に並べ替えます。H / P×W / P×Dの 2 次元特性PPP はpatch size
、
(3)
追加の畳み込みブロックが使用されないことを意味します
以下の図に示すように(Figure 2c)
最初の方法で線形投影後に3x3
畳み込みブロックを追加するパフォーマンスは、
Variants of the patch embedding.
どちらのpatch embedding
方法が良いですか?
著者らはpatch embedding
2 つのバリアントを検討しました。1つは線形投影を伴う
(1)
元のバリアントで、 以下に示すように、元の効果の方が優れています。patch embedding
patch
token embedding
1
(2)
3x3
1x1
image
token embedding
(Figure 2d)
patch embedding
Variants of the position embedding.
どの位置エンコーディングposition embedding
が優れているのでしょうか?
著者らはposition embedding
2 つの変形を検討しました:
(1)
オリジナルViT
で提案された 1 次元学習可能position embedding
(この論文のデフォルト設定)、および
(2)
2 次元正弦波position embedding
、patch
position ( i , j ) Position(i, j)位置( i , _ _ _ _ _ _j ) は、 sine iiでエンコードできます。私とJJjは一緒に接合されます。
以下の図に示すように(Figure 2e)
、1 次元の学習可能な位置の埋め込みがより適切に機能します。
また、著者らは位置エンコーディングを一切使用しないことを試みましたが、このモデルでは意味のある画像を生成できないことがわかり、画像生成において位置情報が重要であることがわかりました。
3.2. 深さ、幅、パッチ サイズの影響
著者らは、深さ( つまりdepth
、層の数)、幅width
(つまり、隠れ層のサイズD
)、および 以下の図に示すように、深さ (つまり、レイヤーの数) が増加すると、パフォーマンスが向上します。ただし、トレーニングの反復では、深さを深くしてもメリットが得られません。同様に、幅 (つまり、隠れ層のサイズ) を増やすとパフォーマンスが向上する可能性があり、それ以上増やすと利益は得られませんが、幅を減らすとパフォーマンスが向上しますが、さらに減らすと利益は得られません。良好なパフォーマンスを得るには、これと同じくらい小さい必要があることに注意してください。著者らは、これは、分類などの高レベルのタスクとは異なり、拡散モデルのノイズ予測タスクが低レベルであり、必要なサイズが小さいためであると推測しています。高解像度画像では小さいサイズを使用するとコストがかかるため、著者らはまず画像を低次元の潜在表現に変換し、これらの潜在表現を を使用してモデル化します。patch size
CIFAR10
U-ViT
(depth=9, 13)
50K
U-ViT
(depth=17)
(width=256, 512)
width=768
patch size
(patch-size=8, 2)
patch-size=1
patch-size=2
patch
patch
patch
U-ViT
4. 関連作品
Transformers in diffusion models.
関連する研究ではGenViT
、長いスキップ接続を使用せず、画像拡散モデルの正規化層の前に時間を組み込む、より小さな畳み込みブロックGenViT
を採用しています。経験によれば、実装の詳細を慎重に設計すると、作成者のパフォーマンス比ははるかに向上します (表 1 を参照)。別の関連する研究は、最初に離散画像シーケンスを取得し、次に離散拡散モデルをバックボーンとして使用してこれらをモデル化し、クロスアテンションまたは適応層正規化を介して時間的および条件付き入力を中心に組み込むことによって、これのバリエーションです。対照的に、著者らのアプローチでは、すべての入力を入力として扱い、浅い層と深い層の間で長いスキップ接続を使用するだけで、より良い結果が得られます(表 1 および 4 を参照)。画像に加えて、拡散モデルはテキストのエンコード、デコード、およびテキストの生成にも使用されます。最初は、連続画像データの対数尤度関数の勾配をモデル化するために に基づいて導入され、その後、グループ正規化、マルチヘッド アテンション、改善された残差差分ブロック、クロス注意。対照的に、著者のネットワークは、単純な概念設計を備えたB ベースのバックボーン ネットワークですが、同様のサイズの B ベースのバックボーンと同等のパフォーマンスを発揮します(表 1 および 4 を参照)。バックボーンに加えて、高速サンプリング、改善されたトレーニング方法、制御された生成など、他の領域でも改善されています。ViT
3x3
U-ViT
GenViT
VQ-Diffusion
VQ-Diffusion
VQ-GAN
tokens
transformer
tokens
transformer
U-ViT
tokens
FID
transformer
(encode texts)
(decode texts)
CLIP embeddings
U-Net in diffusion models.
Yang
CNN
U-Net
CNN
U-Net
U-ViT
ViT
CNN
U-Net
Improvements of diffusion models.
(fast sampling)
(controllable generation)
5. 実験
著者らは,無条件画像生成,準条件画像生成,およびテキストから画像への生成において,この論文で提案した手法を評価した.これらの結果を提示する前に,主な実験設定を以下にU-ViT
示す.ハイパーパラメータのサンプリングなどの詳細A
については,付録の供給品。
5.1. 実験のセットアップ
Datasets.
無条件学習の場合、著者らは50K
トレーニング画像を含むトレーニング画像CIFAR10
と162770
顔を含むトレーニング画像を考慮しますCelebA 64x64
。クラス条件付き学習の場合、さまざまなクラスからのトレーニング画像を含む、64x64
および256x256
の解像度を考慮します。テキストから画像への学習の場合は、トレーニング画像と検証画像が含まれ、各画像に注釈テキストが含まれるの解像度を考慮します。著者らは、解像度画像の潜在拡散モデルに従っています。これらはまず、提供された事前トレーニングされた画像オートエンコーダーを使用してそれぞれ解像度と解像度の潜在表現に変換され、次にこれらの潜在表現は提案された を使用してモデル化されます。では、作成者はテキスト エンコーダを使用して個別のテキストをシーケンスに変換し、これらをシーケンスとしてに入力しました。512x512
ImageNet
1K
1281167
256x256
MS-COCO
82783
40504
5
High resolution image generation.
256x256
512x512
(latent diffusion models, LDM)
Stable Diffusion
(autoencoder)
32x32
64x64
U-ViT
Text-to-image learning.
MS-COCO
Stable Diffusion
CLIP
embeddings
embeddings
tokens
U-ViT
CLIP
、今すぐContrastive Language-Image Pre-Training
。
U-ViT configurations.
著者らは、U-ViT
以下の表にいくつかの構成を特定しました。この記事の残りの部分では、U-ViT
構成と入力patch
サイズを表すために短い表記が使用されます。たとえば、U-ViT-H/2
設定されたU-ViT-Huge
入力patch
サイズは です2x2
。
Training.
著者は、AdamW
すべてのデータセットに対して重み減衰を備えたオプティマイザを使用しています0.3(weight-decay=0.3)
。ほとんどのデータセットでは、使用される2e-4
学習率(learning-rate=2e-4)
に加えて、ImageNet 64x64
使用される学習率も使用されます3e-4
。反復はおよびのバッチ サイズCIFAR10
でCelebA 64x64
トレーニングされました。反復はと でトレーニングされ、反復はでトレーニングされ、バッチ サイズは でした。反復はでトレーニングされ、バッチ サイズは でした。、およびでは、著者は分類子を使用しないガイド付きフォローを採用しています。トレーニング時間やハイパーパラメータの選択などの詳細については、付録を参照してください。500K
128(batch-size=128)
ImageNet 64x64
ImageNet 256x256
300K
ImageNet 512x512
500K
1024(batch-size=1024)
MS-COCO
1M
256(batch-size=256)
ImageNet 256x256
ImageNet 512x512
MS-COCO
A
5.2. 無条件およびクラス条件付きのイメージ生成
著者らはU-ViT
、以前の拡散ベースのモデルとU-Net
比較し、生成されたサンプルのスコアGenViT
を使用して画質を測定しました。 以下の表に示すように、無条件合計のパフォーマンスは以下と同等であり、それよりもはるかに優れています。50K
FID
U-ViT
CIFAR10
CelebA 64x64
U-Net
GenViT
なんというか、前の部分はよく書けていたんですが、結果を読んでこじつけだなと感じました。
44M
できるU-ViT-S/2
かできない11M
かは何とも言えず、結局パラメータはGenViT
ここにあるのにできない、ということではないでしょうか?。。36M
DDPM
クラス条件に関してImageNet 64x64
、作成者は最初に次の表に示すような131M
パラメータ構成を使用しようとしました。これはパラメータベースのモデルよりも優れています。パフォーマンスをさらに向上させるために、作成者は次の範囲のパラメーターを使用した構成を採用しています。U-ViT-M
FID
5.85
100M
U-Net
IDDPM
6.92
287M
U-ViT-L
FID
5.85
4.26
そうじゃないですか、それができないもの
287M
は、同じようなパラメータ量を持つものよりもはるかに悪いです。。。U-ViT-L/4
270M
IDDPM
296M
ADM
同時に、著者らは、U-ViT
拡散モデルを適用する前に画像がまず潜在表現に変換される潜在空間で特に優れたパフォーマンスを発揮することを発見しました。クラス条件ではImageNet 256x256
、これまでのすべての普及モデルを上回る最先端のスコアU-ViT
が得られます。FID
2.29
はい、このインジケーターは現在 です
SOTA
。
次の表は、同じサンプラーと異なるサンプリング ステップを使用した方が、よりU-ViT
優れていることを示しています。LDM
バックボーンとして離散拡散モデルを使用する後者U-ViT
よりも優れて いることに注意してください。著者らは、同様のパラメータと計算コストを使用した置換も試みましたが、それでも優れたパフォーマンスを示しました(詳細については付録を参照)。クラス条件の観点からは、画像ピクセルを直接モデル化するよりも優れています。以下の図では、作成者はとに関する精選されたサンプルと、他のデータセットに関するランダム サンプルを提供しています。これらは高品質で明確なセマンティクスを備えています。準条件付きサンプルやランダム サンプルなど、さらに生成されたサンプルは、付録に記載されています。VQ-Diffusion
transformer
U-Net
U-ViT
U-ViT
U-Net
E
ImageNet 512x512
U-ViT
ADM-G
ImageNet 256x256
ImageNet 512x512
F
セクション 1では3.1
、小規模データセットにおけるロング ジャンプ接続の重要性を示しました(CIFAR10)
。以下の画像は、次ImageNet
のような大規模なデータセットにとってもそれがいかに重要であるかを示しています。
付録ではC
、著者は、他のメトリクス ( sFID
、inception scor
e 、precision
およびrecall
) の結果と、ImageNet
より多くのU-ViT
構成を使用した計算コストを示しています(GFLOPs)
。著者らは、彼らのモデルは、(より小さいとは言えないにしても)U-ViT
同等ではありながら、他の指標では依然として最先端の拡散モデルに匹敵すると指摘しています。GFLOPs
5.3. MS-COCO でのテキストから画像への生成
著者らは、標準ベンチマーク データセットでのテキストから画像への生成をMS-COCO
評価しました。セクション 1で詳述したように、U-ViT
画像の潜在空間でトレーニングされました 。さらに、著者らは、他の部分は変更せずに、同等のサイズのモデルを使用して別の潜在拡散モデルもトレーニングしました。そのハイパーパラメータとトレーニングの詳細は付録に記載されています。著者はスコアを使用して画質を測定します。以前の文献と一致して、プロンプトは検証セットからランダムに選択され、計算用にこれらのプロンプトに基づいてサンプルが生成されます。 以下の表に示すように、大規模な外部データセットにアクセスすることなく、生成モデルのトレーニング中に最先端の手法が実現されました。さらに層ごとに層の数を増やすことで、U はさらに優れた を達成できます。U-ViT
5.1
U-ViT-S
U-Net
B
FID
MS-COCO
30K
(prompts)
FID
U-ViT-S
FID
13
17
-ViT-S (Deep)
5.48
FID
以下の画像は、公平な比較のために同じランダム シードを使用して生成されたU-Net
合計のサンプルを示していますU-ViT
。著者らは、U-ViT
セマンティクスとテキストの一致が良好な、より高品質なサンプルが生成されることを発見しました。たとえば、テキストが与えられた場合"a baseball player swinging a bat at a ball"
、U-Net
バットもボールも生成されません。比較すると、U-ViT-S
生成されるボールのパラメーターは少なく、U-ViT-S (Deep)
さらにバットが生成されます。著者らは、これはテキストと画像がクロスアテンション層だけよりも各層でより頻繁にU-ViT
相互作用するためであると推測しています。U-Net
著者は付録F
でさらに多くの例を提供しています。
6. 結論
この研究では、画像生成および拡散モデルのための、拡散に基づくU-ViT
シンプルで一般的なアーキテクチャを提案します。時間的、条件付き、ノイズの多い画像パッチを含むすべての入力をラベルとして処理し、浅い層と深い層の間でロング スキップ接続を使用します。著者らは、無条件およびカテゴリ条件付きの画像生成や、テキストから画像への生成などのタスクを評価しています。実験により、同様のサイズの PTFE よりも優れているとは言えないまでも、同等であることが示されました。これらの結果は、拡散ベースの画像モデリングにはロング ジャンプ接続が重要である一方、D ベースの D におけるアップサンプリング演算子とダウンサンプリング演算子は必ずしも必要ではないことを示しています。著者らは、これにより拡散モデルに関する将来のバックボーン研究への簡潔な洞察が得られ、大規模なクロスモーダルデータセットの生成モデリングが容易になると考えています。ViT
U-ViT
U-ViT
U-ViT
CNN
U-Net
U-Net
CNN
U-Net
U-ViT