さまざまなグラフィックス カードでの Stable Diffusion の加速テストでは、速度を最大 211.2% 向上させることができます。

Stable Diffusionは、CGやイラスト、高解像度の壁紙などの分野に適した、テキストから高品質な画像を生成できる拡散モデルベースの画像生成技術です。

ただし、計算プロセスが複雑なため、生成が遅くなります。そこで研究者たちは、Xformers、Aitemplate、TensorRT、onflow など、速度を向上させるさまざまな方法を開発しました。本稿では、これらの加速方法について一連の比較テストを実施します。

この記事では、これらの高速化手法の原理とパフォーマンス テストの結果を紹介し、さまざまなグラフィックス カードの費用対効果の概要を説明します。私たちの目標は、2 秒以内に高品質の画像を生成することです。

RTX 3090 上の Xformers と比較して、OneFlow は、テストを通じて RTX 4090 上で 211.2% の高速化、RTX 4090 上で 205.6% の高速化を達成しました。したがって、ハイエンドの GPU が依然として必要です。

高速化ソリューションの原理と特徴

次の表は、現在利用可能な高速化ソリューションをまとめたものです

この記事では、Xformers、Aitemplate、TensorRT、および onflow をテストに使用します。NvFuser は原理的に Xformers と似ているため、どちらも FlashAttend テクノロジーを使用しています。DeepSpeed と colossalAI は主にトレーニングの高速化用に設計されていますが、OpenAI Triton はモデル デプロイメント エンジンであり、バッチ サイズの高速化には適していますが、レイテンシー シナリオの最適化には適していないため、この記事にはこれらが含まれています。

VoltaML を使用して Aitemplate の加速効果を評価し、Stable Diffusion Web を使用して Xformers の加速を評価し、公式 TensorRT サンプルを使用して TensorRT のパフォーマンスを評価し、OneFlow を Diffusion に統合してその加速をテストします。

プログラムテストの高速化

次に、関連するテスト構成を紹介します。

1. テスト設定

私たちのパフォーマンス指標は 1 秒あたりの反復数 (its/s) です。画像は 512*512 に設定されます、ステップ 100

提示:美少女、最高の品質、超精細、非常に詳細な CG Unity 8k 壁紙、最高のイラスト、非常に繊細で美しい、浮遊する、高解像度。

否定的な提案: 低解像度、悪い解剖学、悪い手、テキスト エラー、指が欠けている、余分な桁、少ない桁、トリミング、最悪の品質、低品質、通常の品質、JPEG アーティファクト、署名、透かし、ユーザー名、ぼやけている、悪い足、融合したボディ。

サンプラー: オイラー a

モデル: 安定拡散 1.5

2. 試験結果

さまざまな GPU でのパフォーマンス テストの結果を次の図に示します (上図の 1 行目は Xformers、3 行目は Aitemplate、4 行目は OneFlow)。

高速化の比較は次のとおりです: OneFlow > TensorRT > Aitemplate > Xformers。

RTX 3090 上の Xformers と比較して、OneFlow は相対的に 211.2% の高速化を達成し、RTX 4090 上では 205.6% の高速化を実現します。

結果は次のとおりです。

GPUのコストパフォーマンス

さまざまな GPU の費用対効果分析が実行され、次の結論が導き出されました。

コストパフォーマンスの観点から見ると、RTX4090 GPU が最もコスト効率が高く、現時点では RTX 2080Ti が最もコスト効率が高く、非常にローエンドの GPU を使用すると全体のコストが増加します。したがって、ローエンドのエントリーレベルの GPU を使用することはお勧めできません。

M60、1660s、1080 など、ここで選択したいくつかのローエンド GPU の問題は次のとおりです。

1. 1660 や 1080 などの GPU は、メモリ不足または GPU の非互換性が原因である可能性があるため、TensorRT、Aitemplate、OneFlow などのアクセラレーション ソリューションをサポートしていません。

2. そのうち、1660s (1080) は 512*512 の 20 ステップ画像を生成し、7.66 秒 (7.57 秒) かかり、2.61 it/s (2.64 it/s) に達します。遅いですが、使用できます。時間がある場合、またはプレイするだけの場合は、検討してみてください。

3. M60 は 1.27 it/s に達し、20 ステップで 512*512 画像を生成するのに 15.74 秒かかります。これは 1660 秒の 2 倍遅くなります。

選択のための提案

1. RTX 4090 が最も高速ですが、RTX 3090 も検討できます。RTX 3090 のパフォーマンスは、A5000 や A4000 などの同レベルの GPU よりも優れています (以下の価格はクラウド サービス プロバイダーの GPU 価格に基づいて計算されています。自分で購入する場合は、RTX 4090 を購入する必要があります。3090 よりもそれほど劣らないためです)。

2. VRAM が大きいため、より多くのモデルをキャッシュできるため、モデルのロード時間が短縮され、画像生成プロセスが大幅に高速化されます。

RTX 3090 と RTX 4090 はどちらも 24GB の VRAM を搭載していますが、安定した拡散ウェブが VRAM の使用量に基づいて最適化されている場合、RTX 3090 は VRAM コストの点で有利になる可能性があります。推論速度が優先される場合は、推論時間が RTX 3090 の約半分である RTX 4090 が最適な選択です。

3. さまざまな GPU の詳細については、以下の表を参照してください。

上記は完全なテストです。お役に立てれば幸いです。

https://avoid.overfit.cn/post/4d41ab2ecdce462786892e315dc49ecc

著者: オムニインファー

おすすめ

転載: blog.csdn.net/m0_46510245/article/details/131876256