DiffBFR: Meitu と中国科学技術大学が共同提案した拡散モデルに基づく顔の修復 | ACM MM 2023

文源マシンハート編集部

Blind Face Restoration (BFR) は、低品質の顔画像から高品質の顔画像を復元することを目的としており、コンピュータ ビジョンとグラフィックスの分野で重要なタスクであり、監視画像の復元や古い写真などのさまざまなシナリオで使用されています。修復と顔画像の超解像度。

ただし、不確実性の低下により、ぼやけ、ノイズ、ダウンサンプリング、圧縮アーティファクトなどの画像情報が失われるまで画質が損なわれる可能性があるため、この作業は非常に困難です。従来の BFR 手法は通常、敵対的生成ネットワーク (GAN) に依存し、生成事前分布、参照事前分布、幾何学的事前分布など、さまざまな顔固有の事前分布を設計することで問題を解決していました。これらの方法は最先端の技術に達していますが、顔の細部の詳細を復元しながらリアルなテクスチャを取得するという目標はまだ完全に達成されていません。

画像修復プロセスでは、通常、顔画像のデータセットが高次元空間に散在しており、分布の特徴次元がロングテール分布を示すためです。画像分類タスクのロングテール分布とは異なり、画像復元におけるロングテール領域特徴は、ほくろ、しわ、色調など、同一性には小さな影響を与えるが、視覚効果には大きな影響を与える属性を指します。

図 1 に示すように、簡単な実験では、過去の GAN ベースの手法ではロングテール分布の先頭と末尾に位置するサンプルを同時にうまく処理できず、修復された画像で明らかな平滑化が過剰になり、詳細が失われることがわかりました。 。拡散確率モデル (DPM) に基づく方法は、ロングテール分布をより適切に適合させ、実際のデータ分布に適合させながらテールの特性を維持できます。

90d121e225f9c4dc330724459689cd9d.png

図 1 ロングテール問題における GAN ベースと DPM ベースのテスト

Meitu Imaging Research Institute (MT Lab) と中国科学院大学の研究者は共同で、ブラインド顔画像復元を実現し、低品質 (LQ) に変換する新しい DPM ベースのブラインド顔画像復元手法 DiffBFR を提案しました。高画質(HQ)の鮮明な画像に修復されます。

59c1d84f652444cec8ebf1cf784f6131.png

論文リンク: https://arxiv.org/abs/2305.04517

この方法では、2 つの生成モデル GAN と DPM のロングテール問題への適応性を調査し、より正確な詳細情報を取得するために適切な顔修復モジュールを設計します。これにより、生成方法によって引き起こされる顔の過度の平滑化現象が軽減され、修復が改善されます。精度と精度。この論文は ACM MM 2023 に受理されました。

DiffBFR: DPMベースのブラインドフェイス画像復元手法

研究によると、トレーニング モードの崩壊を回避し、ロングテール分布を生成するためのフィッティングにおいて、拡散モデルは GAN 手法よりも優れていることが判明しました。そのため、DiffBFR は拡散確率モデルを使用して顔の事前情報の埋め込みを強化し、それに基づいて HQ を生成します任意の配布範囲内の画像を配信する強力な機能を備えた DPM が、ソリューションの基本フレームワークとして選択されます。

論文で見つかった顔データセット上の特徴的なロングテール分布と、過去の GAN 手法に基づく過度の平滑化現象を考慮して、この研究では、近似のロングテール分布をよりよく適合させるための合理的な設計を検討します。これにより、修復プロセスの問題が解決されます。MNIST データセット上で同じパラメータサイズを使用した GAN と DPM の簡単な実験 (図 1) を通じて、この論文は、DPM 手法はロングテール分布に合理的に適合できるのに対し、GAN はヘッドに注目しすぎて無視してしまうと考えています。テール フィーチャが生成され、テール フィーチャは生成されなくなります。したがって、BFR のソリューションとして DPM が選択されました。

2 つの中間変数を導入することにより、DiffBFR では 2 つの特定の修復モジュールが提案され、2 段階の設計が採用されています。最初に LQ 画像から識別情報を回復し、次に実際の顔の分布に従ってテクスチャの詳細を強化します。設計は 2 つの主要な部分で構成されます。

(1) ID 復元モジュール (IRM):

このモジュールは、結果に顔の詳細を保存するために使用されます。同時に、純粋なガウスランダム分布からLQ画像を条件としてノイズを除去する方法を逆のプロセスで置き換え、LQ画像にノイズの一部を追加するトランケートサンプリング方法を提案します。この論文は、この変更により DPM の理論的証拠の下限 (ELBO) が縮小され、それによってより元の詳細が復元されることを理論的に証明しています。理論的証明に基づいて、異なる入力サイズを持つ 2 つのカスケード条件付き拡散モデルが導入され、このサンプリング効果を強化し、高解像度画像を直接生成するトレーニングの困難さを軽減します。同時に、条件付き入力の品質が高ければ高いほど、実際のデータ分布に近づき、復元された画像がより正確になることがさらに証明されており、これが、DiffBFR が最初に IRM で低解像度画像を復元する理由です。 。

(2) テクスチャ強化モジュール (TEM):

画像のテクスチャに使用されます。ここでは、LQ 画像から完全に独立したモデルである無条件拡散モデルを導入し、復元結果を実際の画像データにさらに近づけます。この論文は、純粋な HQ 画像でトレーニングされたこの無条件拡散モデルが、IRM がピクセルレベル空間で画像の正しい分布を出力するのに役立つこと、つまり、このモジュールを適用した後の画像分布の FID が使用前の FID よりも低いことを理論的に証明しています。修復されたイメージの分布は、一般的に HQ イメージの分布により似ています。具体的には、タイム ステップを使用してサンプリングを切り詰め、アイデンティティ情報を保持しながらピクセル レベルのテクスチャを磨きます。

DiffBFR のサンプリング推論手順を図 2 に示し、サンプリング推論プロセスの概略図を図 3 に示します。

da302ca7461c35eb2a4fb5c01d358eca.png

図 2 DiffBFR 法のサンプリング推論ステップ

ce38eadab74f3d5f41374862736216d5.png

図3 DiffBFR法のサンプリング推論プロセスの模式図

実験結果

836a2947fe0c4660b6b9da727c4e2a50.png

図4 BFRのGANベースの手法とDPMベースの手法の可視化効果の比較

a4f9b6e8a7f22a527831ad11c7e35d96.png

図 5 BFR SOTA メソッドのパフォーマンス比較

743ada33eee91766727a9b8a8cf320f3.png

図6 BFRのSOTA手法による可視化効果の比較

92120d22fd88d7252d017ad0aec937d5.png

図 7 モデルにおける IRM と TEM のパフォーマンス比較の視覚化

dfef4d119003022393e43d05d5d2f50f.png

図 8 モデルにおける IRM と TEM のパフォーマンスの比較

ed36a536925921c05fc19925a61dadc6.png

図 9 IRM のさまざまなパラメータのパフォーマンスの比較

eb53cd71fefca60041cd796f67760e25.png

図 10 さまざまな TEM パラメータの性能比較

9403a478cba7a6397f713d59642bdcf2.png

図11 DiffBFRの各モジュールのパラメータ設定

要約する

本稿では、過去の GAN 手法に基づくトレーニングモードの崩壊とロングテールの消失の問題を回避する、拡散モデルに基づくブラインド劣化顔画像復元モデル DiffBFR を提案します。プリアを拡散モデルに埋め込むことで、ランダムな著しく劣化した顔画像から高品質で鮮明な復元画像を生成します。具体的には、IRM と TEM という 2 つのモジュールが、それぞれ忠実性と実際の詳細を復元するために提案されています。理論的境界の導出と実験画像の実証によりモデルの優位性が実証され、既存の SOTA 手法と定性的および定量的に比較されます。

研究チーム

この論文は、Meitu Imaging Research Institute (MT Lab) と中国科学院大学の研究者によって共同提案されました。Meitu Imaging Research Institute (MT Lab) は 2010 年に設立され、コンピュータ ビジョン、ディープラーニング、拡張現実などの分野におけるアルゴリズム研究、エンジニアリング開発、製品化に特化した Meitu のチームです。 2013 年には、Meitu のすべてのソフトウェアおよびハードウェア製品に技術サポートを提供するためにディープラーニングの導入を開始しました。また、イメージング業界の複数の垂直トラックに対象を絞った SaaS サービスを提供し、切削加工を通じて Meitu の AI 製品エコシステムを促進しています。 -エッジイメージング技術を開発するために、CVPR、ICCV、ECCVなどのトップ国際コンテストに参加し、10回以上の優勝と準優勝を獲得し、48以上のトップ国際学会論文を発表しました。Meitu Imaging Research Institute (MT Lab) は、長年にわたりイメージング分野の研究開発に深く携わっており、写真、ビデオ、デザイン、デジタルの分野で豊富な技術埋蔵量と豊富な技術導入経験を持っています。人々。

パブリック アカウント [Machine Learning and AI Generated Creation] をフォローしてください。さらにエキサイティングな内容があなたを待っています。

抑制、60,000語!30方向130記事!CVPR 2023 最も包括的な AIGC 論文! 一気に読んでね

安定拡散を徹底解説:AI塗装技術の潜在的拡散モデルに関する論文解釈

制御可能な AIGC ペイント生成アルゴリズムである ControlNet の簡単な紹介! 

クラシック GAN は必ず読んでください: StyleGAN

8e812caee6b9c20e945705ed415f353b.png GANの一連のアルバムを見るには私をクリックしてください~!

ミルクティーを一杯飲んで、AIGC+CV ビジョンの最先端のトレンドセッターになりましょう!

最新かつ最も完全な 100 記事のコレクション! 拡散モデルの生成拡散モデル

ECCV2022 | 敵対的生成ネットワーク GAN に関する論文の概要

CVPR 2022 | 25 以上の方向性、最新の 50 の GAN 論文

 ICCV 2021 | 35 件の GAN 論文の概要

記事数は110以上!CVPR 2021 の最も包括的な GAN 論文レビュー

記事数は100以上!CVPR 2020 の最も包括的な GAN 論文レビュー

新しい GAN の開梱: デカップリング表現 MixNMatch

StarGAN バージョン 2: マルチドメイン ダイバーシティ画像生成

添付のダウンロード | 「Explainable Machine Learning」中国語版

添付のダウンロード | 「TensorFlow 2.0 深層学習アルゴリズムの実践」

添付のダウンロード | 「コンピュータ ビジョンにおける数学的手法」の共有

「深層学習に基づく表面欠陥検出手法のレビュー」

「ゼロサンプル画像分類のレビュー: 10 年間の進歩」

「ディープニューラルネットワークに基づく少数サンプル学習のレビュー」

『典礼書・薛記』にはこう書かれている:もし友達なしで一人で勉強するなら、孤独で無知になるだろう。

ミルク ティー カップをクリックして、AIGC+CV ビジョンの最先端のトレンドセッターになろう! 、  AI によって生成された創造物とコンピューター ビジョンの 知識の惑星に参加してください。

おすすめ

転載: blog.csdn.net/lgzlgz3102/article/details/132750145
おすすめ