ノーフリーランチ定理に挑戦しますか?南洋工科大学、拡散モデル強化手法FreeUを提案

e1f6cbd6bb4b429cbd5714cbf5040858.png

論文のタイトル: FreeU: 拡散 U-Net におけるフリー ランチ

記事リンク:https://arxiv.org/abs/2309.11497 

コード リポジトリ:https://github.com/ChenyangSi/FreeU
プロジェクト ホームページ:https ://chenyangsi.top/FreeU

機械学習の分野でよく知られている基本原則は、「フリー ランチなしの定理」です。これは次のことを示しています。すべての状況に適した機械学習アルゴリズムなどありません。つまり、アルゴリズムを構築するときは、常に利益と損失が発生します。この記事では、南洋理工大学 S-Lab の研究論文を紹介しますが、そのタイトルは「拡散した U-Net ネットワークにおけるフリーランチ」という非常に興味深いものです。この記事の中で、著者は普及プロセスにおける U-Net アーキテクチャの基本原理を徹底的に調査しました。著者は、U-Net のバックボーン ネットワークが主に使用されていることを発見しました。ノイズ除去プロセスを完了するため、その中のジャンプは次のとおりです。 この接続は主に高周波の特徴をデコーダ モジュールに導入し、モデル全体がバックボーンから抽出されたセマンティック情報を無視するようにします。したがって、この記事では、FreeU と呼ばれるシンプルで効果的な方法を提案します。FreeU の主な操作は、U-Net のスキップ接続とバックボーン機能マップの最終出力への寄与を再評価することです。 a> > により、追加のトレーニングや微調整を行わずにモデルの生成された画像の品質を向上させることができるため、「フリー ランチ」と呼ばれます。実際の運用では、Stable Diffusion、DreamBooth、ModelScope、Rerender、ReVersion などの既存の拡散モデルに数行のプラグアンドプレイ再重み付けコードを追加するだけで、モデルの全体的なパフォーマンスを向上させることができます。

01. はじめに

拡散モデルは、生成モデルの分野に新世代のパラダイムを導入します。プロセス全体は、拡散プロセスとノイズ除去プロセスで構成されます。拡散プロセス中、ガウス分布は徐々に変化します。ノイズが入力データに追加され、ノイズ除去プロセスでは、元の入力データは逆拡散演算の学習を通じてノイズ状態から元のシーケンスを復元します。通常、拡散モデルは U-Net を使用して、各ノイズ除去ステップで除去されるノイズを含む信号を繰り返し予測します。また、周波数領域の観点から拡散モデルのノイズ除去プロセスを分析し始めている研究もいくつかあります。この記事では、拡散生成を観察するためにフーリエ変換ツールを使用することを提案します。、下図は、拡散生成過程における逆フーリエ変換後の関連する低周波および高周波空間領域の変化を示しており、全領域にわたって低周波成分の変化率が緩やかであることがわかります。一方、高周波成分は、ノイズ除去プロセス全体を通じてより明白なダイナミクスを示します

f1971dbdbbfb4be192b947947e5e839b.png

次の図は、上図の各ステップに対応するフーリエ対数振幅変化図を示しています。この図から、次のことが分析できます。低周波成分は本質的に反射している画像の全体的な構造と特徴。これは画像の画像の本質として理解できるため、拡散プロセス中、低周波成分は可能な限り安定した状態を維持する必要があります。対照的に、高周波成分には画像のエッジやテクスチャが含まれており、これらの細かい部分はノイズの影響を非常に受けやすくなります。

3babf9c862a2400db94ca13b5c738a08.png

ノイズ除去プロセスにおける低周波成分と高周波成分の関係に関する上記の分析に基づいて、この記事は拡散 U-Net のアーキテクチャから開始します。著者は、U-Net のスキップ接続が次のことを発見しました。継続的に高周波の特徴をデコーダに導入します。モジュール、これは、推論中のモデルのバックボーンのノイズ除去能力に影響を及ぼし、その結果、異常な画像の詳細が生成されます。、以下の図の最初の行に示されているように。

0e8682917f114d04bc521d1e4b19d079.png

上記の観察に基づいて、この記事では FreeU 変調戦略を提案します。つまり、2 つの特別な変調係数がモデルの拡散推論段階で設計されます< a i =2> の場合、係数の 1 つはバックボーン特徴係数と呼ばれ、バックボーンの特徴マップ効果を増幅するために使用され、それによってノイズ除去プロセスが強化されます。同時に、ノイズ除去による過剰なテクスチャ スムージングを防ぐために、セクション 2 の係数は、トレードオフ調整のためのジャンプ接続機能のスケーリング係数として設計されています

02. この記事の方法

2.1 普及した U-Net のアーキテクチャ

以下の図は、普及 U-Net の主なフレームワークを示しています。これには主に、エンコーダとデコーダで構成されるメイン バックボーン ネットワークと、エンコーダとデコーダの対応する層間の情報伝送を容易にするジャンプ接続が含まれます。

df830f6154714e99803aaa4067bb9214.png

574583a8e36e4fcdb355af78af30b8a8.png

30eb7cd900da4480b28fa28999b53e4d.png

ただし、スキップ接続ではエンコーダの浅い特徴ブロックをデコーダに直接転送できます。これらの特徴は高周波情報に属するため、U では-ネット アーキテクチャ トレーニング プロセス中に、これらの高周波特徴の存在により、デコーダのノイズ予測学習能力が加速される可能性があります

6843df5f5c324f7f9ac3d42f865581f1.png

2.2 U-Netにおけるフリーランチの普及

03. 実験結果

この記事の実験は主に、テキストから画像への生成 (text-to-image) や、現在一般的な画像生成タスクに対する FreeU の効果を評価することに焦点を当てています。テキストからビデオへの生成 (text-to-video)、さらに、FreeU のハイライトの 1 つは、既存の事前トレーニングされた拡散モデルに簡単に挿入してパフォーマンスを向上できることです。 、著者はまた、いくつかの人気のあるものを選択しました。 実験は下流モデルで実施されました。

3.1 テキストから画像への生成

テキストから画像への生成の作成者は、安定拡散モデルをベースラインとして使用し、それに FreeU を統合しています。次の図は、FreeU を使用して SD モデルを強化する効果を示しています。 FreeU を使用すると、エンティティのレンダリングと詳細の詳細における SD の効果が向上することがわかります。たとえば、「青い車が撮影されています」というプロンプトが表示されると、FreeU は画像を調整して屋根の凹凸を取り除き、周囲の構造物のテクスチャの複雑さを高めます。

6565590c56624bb7830de6308b85483b.png

さらに、著者は 35 人のテスターを招待して、画質と画像とテキストの配置を評価してもらいました。各テスターはテキスト プロンプトと 2 つの対応する合成画像 (1 つは SD から、もう 1 つは SD+FreeU から) を受け取りました。次に、テスターは、画像テキストの配置と画質が優れていると思われる画像を選択しました。次の図は、最終的な実験結果を示しています。テスターがほとんどの票を SD+ に投票したことがわかります。フリーユー

dcff6074d39b4c5b88205b9940b126f5.png

3.2 テキストからビデオへの生成

テキストからビデオへの合成の場合、著者は ModelScope[2] を基本ベースラインとして使用します。著者は、テキストから画像への合成と同様の評価方法を使用します。以下の表に示されている結果は、ほとんどのテスターがビデオを好むことも示していますFreeU によって生成されました。

21f4ede86d434187bfd1bea9aa2939aa.png

3.3 下流モデル実験

このパートでは、著者は、CVPR2023 で公開されたパーソナライズされたテキストから画像への生成モデルである Dreambooth [3] に FreeU を直接埋め込みます。次の図は、FreeU を使用した強化効果を示しています。DreamBooth モデルでは、「バイクに乗っているパペットの写真」というプロンプトに基づいてパペットの足の外観を合理的​​に生成するのは困難ですが、FreeU 強化版はこの問題を巧みに解決します。 。

82fc4c67166340529c0101f8fe3d1316.png

さらに、著者らは、ゼロショットのテキストガイド付きビデオ変換モデルである Rerender [4] に対する FreeU の影響を評価しています。下の図は改善効果を示したもので、例えばテキストプロンプトが「サングラスをかけた犬」の場合、Reenderは「サングラス」に関連した動画を生成しますが、いくつかのアーティファクトが発生します。 FreeU を追加すると、そのようなアーティファクトを効果的に除去できるため、最終生成効果が向上します

b037b04fdff54d89b8b1e7ee5e069543.png

04. 概要

この記事では、エレガントでシンプルだが効率的な FreeU 拡散モデル手法を紹介します。FreeU は、既存の拡散モデル内のさまざまなコンポーネントとそのバックボーン ネットワーク間の相互作用を深く分析します。ノイズ除去プロセスでは、スキップ接続は主に高周波機能をデコーダに導入します。著者らは、追加の計算コストをかけずにモデルのパフォーマンスを向上させるために、賢い再重み付け手法を使用して 2 つのモジュールを再調整しました。 FreeU は、さまざまな拡散ベースのモデルとそのダウンストリーム モデルにシームレスに統合でき、全体的な視覚的な忠実度を向上させながら、生成された画像の複雑な詳細を大幅に強化できます。

参考

[1] ジョナサン・ホー、アジェイ・ジェイン、ピーター・アッビール。ノイズ除去拡散確率モデル。 NeurIPS、2020年。

[2] Zhengxiong Luo、Dayyou Chen、Yingya Zhang、Yan Huang、Liang Wang、Yujun Shen、Deli Zhao、Jingren Zhou、および Tieniu Tan. VideoFusion: 高品質ビデオ生成のための分解拡散モデル. CVPR にて、2023 年。

[3] ナタニエル・ルイス、ユアンジェン・リー、ヴァルン・ジャンパニ、ヤエル・プリッチ、マイケル・ルービンシュタイン、クフィール・アバーマン。 Dreambooth: 主題主導の生成のためのテキストから画像への拡散モデルを微調整します。 CVPR では、2023 年。

[4] Shuai Yang、Yifan Zhou、Ziwei Liu、Chen Change Loy ビデオの再レンダリング: ゼロショット テキスト ガイドによるビデオからビデオへの翻訳 arXiv プレプリント arXiv:2306.07954、2023。


  TechBeat 人工知能コミュニティについて

TechBeat (www.techbeat.net) は江門ベンチャーキャピタルと提携しており、世界的な中国の AI エリートが集まる成長コミュニティです。

私たちは、AI 人材向けによりプロフェッショナルなサービスとエクスペリエンスを作成し、彼らの学習と成長を加速し、それに伴っていきたいと考えています。

これが最先端の AI の知識を学ぶための高台、最新の作品を共有するための肥沃な場所、そして AI の進歩に向かうモンスターとアップグレードして戦うための拠点となることを楽しみにしています。

詳細>>世界的な中国の AI エリートが集まる学習と成長のコミュニティである TechBeat 

おすすめ

転載: blog.csdn.net/hanseywho/article/details/133944615