FD: 顔生成評価における深い特徴空間の役割の理解について
公式アカウント:EDPJ
目次
0. 概要
Fréchet Inception Distance (FID) などの知覚メトリクスは、生成された画像と実際の画像の類似性を評価するために広く使用されています。これらのメトリクスの背後にある重要なアイデアは、知覚的および意味的に豊富な画像特徴を捕捉する深い特徴空間で誤差を計算することです。これらの人気にもかかわらず、さまざまな深い機能とその設計の選択が知覚指標に及ぼす影響については十分に研究されていません。この研究では、いくつかの一般的な深部特徴空間を使用して因果分析を実行し、顔画像分布間の意味属性の違いと歪みをフレシェ距離 (FD) で関連付けます。私たちの分析の重要な要素は、ディープ フェイス ジェネレーターを使用して合成の反事実的な顔を作成することです。私たちの実験は、FD がトレーニング データセットとその特徴空間の目的関数によって強く影響されることを示しています。たとえば、FD は ImageNet でトレーニングされたモデルから抽出された特徴を使用して、目や口などの領域ではなく帽子を強調します。さらに、顔の性別分類特徴を使用した FD では、アイデンティティ (認識) 特徴空間における距離よりも髪の長さに重点が置かれます。最後に、特徴空間全体でいくつかの人気のある顔生成モデルを評価し、アイデンティティ (認識) 特徴を除いて、StyleGAN2 が他の顔生成モデルよりも一貫して上位にランクされていることを発見しました。これは、生成モデルを評価し、対象領域のニュアンスに合わせて調整された特徴空間を使用するときに、複数の特徴空間を考慮する必要があることを示唆しています。
1 はじめに
変分オートエンコーダ (VAE)、敵対的生成ネットワーク (GAN)、拡散モデルなどの画像生成モデルの急速な発展は、合成画像が将来社会で重要な役割を果たすことを予感させます。したがって、これらの生成モデルのパフォーマンスを評価する方法を継続的に評価し、改善することが重要です。特に、包括的な評価指標では、人間の知覚との関連性、些細な変更やノイズに対する堅牢性、ドメイン固有のセマンティクスに対する感度など、いくつかの要素を捉える必要があります。
画像生成の品質を評価するための最も重要な基準は、人間による注釈です。これは、微妙で解釈可能な知覚フィードバックを提供できますが、費用と時間がかかります。自動評価の現在の標準は、知覚損失 (LPIPS) やフレシェ開始距離 (FID) などの奥行き知覚メトリクスです。これらのメトリクスは、一般的な補助タスクでトレーニングされたディープ ニューラル ネットワークの活性化空間に画像を埋め込み、この特徴空間内の距離を計算します。奥行き知覚メトリクスは、PSNR などの古典的なメトリクスよりも人間の評価とよりよく相関します。残念なことに、深い特徴空間は複雑であるため、不透明で解釈が難しくなります。たとえば、深い特徴空間では (実験で示したように) 一部のプロパティが他のプロパティよりも強調され、対象領域に関係のない偽の特徴の影響を受ける可能性もあります。現在、ディープ生成モデルが通常 5 FID ポイント未満で互いに競合していることを考えると、これらの違いが意味的に何を意味するかは不明です。顔ジェネレータを評価するときは、「不均衡な肌のトーンの生成は FID にどのように影響しますか?」または「持続的な目の変形は FID にどのような影響を与えますか?」などの質問に答えてください。エンジニアが評価指標をよりよく理解できるよう支援することが重要です。これにより、最終的にはモデルに固有のバイアスを軽減したり、生成の品質を向上したりできるようになります。
この研究では、合成データを使用して、領域固有の特徴の影響力のある変化が知覚評価指標に及ぼす影響を因果的に評価する戦略を提案します。私たちは、画像合成研究の最も人気のある分野である顔生成に焦点を当てており、顔の分析/認識、ディープフェイク、アバター、さらにはヘルスケアなどのアプリケーションにおいて多くの重要な社会的意義を持っています。意味的属性 (帽子、肌の色、髪の長さなど) と歪み (ぼかし) という 2 つのタイプの顔操作を考慮します。私たちは、画像の 1 つの特徴を 1 回のパスで操作する実験的介入を使用して因果関係研究を実施し、さまざまな画像空間にわたる評価指標 (実験ではフレシェ距離) に対する影響を測定します。セマンティック介入の場合、ディープ フェイス ジェネレーターを使用して、対象となる 1 つの特徴のみが (ほぼ) 異なる合成顔のペアのデータセットを構築します。歪みについては、顔セグメンテーション モデルによって推測されたセマンティックな顔領域にぼかしを適用します。
これらの合成データを使用して、一般ドメイン (ImageNet、CLIP) およびドメイン内 (顔) データセットでトレーニングされた 6 つの深さの特徴空間でフレシェ距離 (FD) を評価し、完全教師あり、半教師あり、教師なしの目的関数を使用します。意味論的特性に対する FD の感度は、特徴空間のトレーニングに使用されるトレーニング データセットと目的関数に強く依存することがわかりました。たとえば、ImageNet でトレーニングされた特徴空間は、目、表情、幾何学的形状、肌の質感などの重要な顔の意味論を無視しながら、帽子や眼鏡などのアクセサリーを過度に強調する傾向があります。さらに、対照的な学習目標を使用してドメイン内の顔データセットでトレーニングされた特徴空間は、肌の特徴 (肌の色調や質感など) を強調しますが、髪や背景に関連する詳細は無視します。最後に、これらの特徴空間で計算された FD、精度、および再現メトリクスを使用して、一般的な深部生成顔モデルを評価します。私たちの結果は、StyleGAN2 はほとんどの特徴空間では他のジェネレーターよりも優れていますが、顔のアイデンティティ (認識) 特徴空間では、再現率と FD が一般的な拡散モデル (LDM) よりも大幅に低く、精度が 3D 対応 GAN (EG3D) を下回っていることを示しています。 )。
この研究の結果は、深部特徴空間には、トレーニング データと目的関数に起因する領域内プロパティに対する重大かつ固有のバイアスがあることが示されています。研究者は、包括的な評価を行う際に、これらのバイアスに注意する必要があります。さらに、顔ジェネレータに関する私たちの実験は、評価中に複数の特徴空間、特に対象領域の主要な詳細に合わせて調整された特徴空間を考慮することの重要性を示しています。
1.1 関連する作品と背景
詳細な生成モデルの評価には、生成された画像分布と実際の画像分布の間の類似性の計算が含まれます。インセプション スコア (IS) やフレシェ インセプション ディスタンス (FID) などのメトリクスは、ImageNet でトレーニングされたディープ畳み込みニューラル ネットワーク (InceptionV3) の最後の層から派生した低次元の知覚特徴空間に画像を埋め込みます。
FID は現在、事実上の画像生成評価基準です。2 つの Inception 埋め込み画像分布が多変量ガウス分布であると仮定し、2-Wasserstein または Earth Mover の距離とも呼ばれるフレシェ距離 (FD) を計算します。
ここで、(μ1,Σ1) と (μ2,Σ2) は画像セット (つまり、実画像と生成画像) の埋め込みの標本平均と共分散、Tr(・) は行列トレースです。
最近のいくつかの研究では、FD の限界が明らかになり、代替の評価指標が提案されています。
- FD の主な欠点はバイアスが高いことであり、正確な推定値を生成するには 50,000 以上のサンプルが必要です。
- この問題に対処するために、Bi'nkowski らは、多項式カーネルを使用してガウス仮定を緩和し、最大平均差の 2 乗を計算することを提案しています。
- 一方、Chong らは、スコアが 1/N で線形であるという事実を使用してスコアを外挿することによって不偏 FD を推定することを提案しました。
- FD のもう 1 つの制限は、サンプルの品質と変動を混乱させることです。
- これを回避するために、Sajjadi らと Kynkäänniemi らは、これら 2 つの評価要素を、サンプルの品質を定量化する精度と、サンプルの範囲を定量化する再現率という別々の指標に分離することを提案しています。
最近、FID は不必要なバイアスと感度によって制限されることが判明しました。
- Parmar らは、FID がサイズ変更、圧縮、量子化などの画像処理操作によって引き起こされる微妙なアーティファクトに敏感であることを示しました。
- Kynkäänniemi らは、顔画像の背景にあるドメイン外 (ImageNet) の特徴も FID に強く影響することを示しています。
- Morozov らは、FD を計算するために自己教師付き特徴空間を使用することを提唱し、これらの特徴は Inception の特徴よりも移転可能で堅牢であると主張しています。
2.方法
特定の深い特徴空間について、私たちの目標は、画像特徴に対する評価メトリクスの感度を定量化することです。私たちの実験では顔画像とFDに焦点を当てているため、この文脈で私たちの方法を説明します。与えられた特徴空間に対して 2 つの問題を定式化します。
- 2 つの顔画像セットの意味属性分布間の差異は、FD に定量的にどのような影響を与えるのでしょうか?
- 顔の意味領域に局所化された歪みは、FD に定量的にどのような影響を与えるのでしょうか?
これらの問題は、生成モデルがキャプチャする必要がある 2 つの広範な画像特徴、(1) ドメインの意味論的プロパティ、および (2) 現実世界の詳細と一致します。これらの質問に答えるには、因果関係の推論が必要です。理想的には、1 つの特徴 (つまり、意味論的な特性や歪み) の違いを除いて同一の顔のペアで構成される反事実的なデータセットが必要です。現実の顔のデータセットには重大な属性相関が含まれるため、適切ではありません。代わりに、総合的なアプローチを提案します。次のセクションでは、各質問に答えるための合成データを構築するアプローチの概要を説明します。提案手法により合成された画像例を図1に示す。
2.1 意味属性の違いがフレシェ距離に及ぼす影響の測定
特徴分布 p_A(x) および p_B(x) を持つ 2 つの画像セット A および B を考えます。ここで、x ∈ R^D は画像の特徴空間です。さらに、A と B は、値 a ∈ {0, 1} (p_A(a) と p_B(a) で表す) を持つセマンティック バイナリ属性が異なることを除いて、同一に分布していると仮定します。私たちの目標は、p_A(a) と p_B(a) の間の属性比率の違い (同一に分布する場合の 0% から完全に異なる場合の 100% まで) がどのような影響を与えるかを定量化することです。
図 2 は、これを行うための分析アプローチを示しています。深層生成モデル (後述) を使用して、それぞれが異なるスケールの a 値を含む、ほぼ同一の顔の複数のグループを構築し、これらのペア間の FD を計算して、因果関係を要約する曲線を生成します (図 2 - 右およびパネル 3 を参照) )。
この分析では、セット A と B、つまり a のみに基づく反事実的な顔の別個のセットの作成が必要です。このデータは 2 段階のプロセスを使用して合成的に作成されます。
まず、顔の毛、メイク、しかめっ面の表情、帽子、眼鏡を除いた、明るい肌の色と短い髪というあらかじめ定義された均一な特徴を示す顔の基本セットを合成しました。この目的を達成するために、Flickr-Faces-HQ (FFHQ) データセットと直交線形潜在空間トラバーサル (OLLT) でトレーニングされた StyleGAN2 に基づく以前の顔因果関係ベンチマーク研究から顔生成モデルを取得します。これらの顔を人間による評価によってフィルタリングし、定義された基準を満たしていることを確認します。実験では、合計 1427 個のフィルタリングされたベース面を使用しました。
2 番目のステップでは、各属性 a のグラウンド トゥルースから反事実のペアを合成します。私たちの実験では、形状、肌の色、肌の質感、ヘアスタイル、アクセサリーなど、さまざまな顔のセマンティクスに対応する 12 のバイナリ属性を分析します。分析された特性は、図 1a の列に示されています。属性タイプに応じて、(1) OLLT、(2) StyleCLIP、(3) 安定拡散を使用した画像修復の 3 つの異なる画像処理方法のいずれかを使用します。他の属性を一定に保ちながら属性を操作する各メソッドの能力の定性的評価に基づいて、各属性に最適なメソッドを選択します。図 1a に反事実属性の例をいくつか示します。補足資料では、合成データセットの作成に使用されるモデル、実験パラメーター、および詳細についての完全な説明を提供します。
2.2 フレシェ距離に対するファジー意味領域の影響の測定
この分析の目的は、特定の意味領域 (鼻、髪など) に対する顔ジェネレーターによって出力される系統的な歪みが FD にどのように影響するかを理解することです。私たちの実験では、深刻なぼやけに焦点を当てます (図 1 を参照) が、他の多くの領域を調査することもできます。各領域について、その領域を含む実際の FFHQ 顔画像 (帽子や眼鏡などのアクセサリーはすべての画像に含まれているわけではありません) を分布 (セット A) として使用し、セグメンテーション マスクを使用して、その領域でのみこれらの画像にガウスぼかしを適用します。 。図 1b に示すように、実験では 9 つの領域を考慮しました。分析では、ワープ上の各意味領域の FD を単純に報告します (図 4 を参照)。
3. 実験
分析には、公開されているパラメーターを持つ 6 つの深さの特徴空間を使用します (モデルとパラメーターの URL のリストは補足資料にあります)。
- Inception : ILSVRC-2012 (ImageNet) データセットでトレーニングされた分類用の V3 モデル。
- CLIP : コントラスト損失を使用して OpenAI 独自の画像テキストペア データセットでトレーニングされた ViT-B/32 モデル。
- SwAV : コントラストクラスター割り当てによる視覚特徴の教師なし学習のために ILSVRC-2012 (ImageNet) でトレーニングされた ResNet-50 モデル。
- FairFace : 人種、年齢、性別分類のために FairFace でトレーニングされた ResNet-34 モデル。
- SwAV-FFHQ : コントラストクラスター割り当てによる顔の特徴の教師なし学習のために FFHQ でトレーニングされた ResNet-50 モデル。
- アイデンティティ: コントラスト損失を伴う顔認識用に Glint360k でトレーニングされた ResNet-34 モデル。
最初の 3 つの特徴空間は一般ドメイン (顔以外) データでトレーニングされますが、最後の 3 つの特徴空間は顔のみでトレーニングされます。
3.1 画像特徴に対する特徴空間の因果的感度
まず、顔属性の割合に関する FD の感度分析を紹介します。図 2 に示すように、合計データセットには 1,427 の反事実的な顔のペアが含まれており、そこから 1,000 のペアをランダムにサンプリングして顔セットを構築します。図 3 に結果を示します。明確にするために、8 つの属性のみをプロットします (12 属性すべての完全な結果は補足にあります)。図に示されている点とエラーバーは平均値と標準偏差に対応しており、後者は 1000 組の顔の 10 回のランダムな抽出から計算されます。距離のスケールは特徴ごとに異なるため、特徴空間全体で FD 値を直接比較することは無意味です。ただし、特性曲線間の傾向の違いは、グラフ全体で比較できます。たとえば、Inception と SwAV は他の特徴空間と比較して帽子を大幅に強調しますが、FairFace と SwAV-FFHQ は肌の色調を強調します。
次に局所歪みに対するFDの感度解析を紹介します。異なる特徴空間の FD を比較するには、その特徴空間内の元の画像と完全にぼかした画像 (図 1 の「すべて」カテゴリ) の間の距離で距離を割ることにより、距離を正規化します。補足資料では、各特徴空間の非正規化 FD を示します。各特徴空間が領域ワーピングの影響を受ける方法には大きな違いがあり、たとえば、Inception と SwAV は他の空間と比較して目の影響をほとんど受けませんが、Identity は鼻の影響を最も大きく受けます。
3.2 さまざまな特徴空間における顔生成器の分析
次に、一般に公開されている 4 つの顔生成モデル、StyleGAN2、EG3D、潜在拡散モデル (LDM)、および Nouveau 変分オートエンコーダー (NVAE) を、各特徴空間で計算されたメトリクスを使用して評価します。StyleGAN2 と EG3D については、カットオフ (ψ = 0.7、カットオフ = 14) を使用したモデルと使用しないモデルを評価します。FD および k 最近傍精度と再現率メトリクスを使用してモデルを評価します。これらの精度と再現率は、それぞれおおよそのサンプル品質 (現実性) とサンプル カバレッジを測定します。FFHQ データセット全体 (70,000 枚の画像) と各生成モデルからの 50,000 個のサンプルを使用します。完全な結果を表 1 に示します。
4。討議
トレーニングの目的に関係なく、ImageNet で学習された特徴空間では、重要な顔のセマンティクスが十分に強調されていません。図 3 は、ImageNet (Inception および SwAV) を使用して学習された特徴空間内の FD がハットの違いに最も敏感であることを示しており、これは Kynkäänniemi らの発見と一致しています。ただし、興味深いことに、モデルが ImageNet クラスを分類するように明示的にトレーニングされていないにもかかわらず、SwAV 機能を使用して計算された FD もハットの影響を受けます。自己教師あり学習は ImageNet 分類の効果的な事前トレーニング戦略であることが知られているため、これは合理的です。
これらの図は、ImageNet 学習空間を使用して計算された FD が、肌の質感 (「しわ」と「滑らか」)、形状 (「ぽっちゃり」)、および表情 (「しかめっ面」) の分布の違いに非常に鈍感であることも示しています。この結果は、式 1 の FD の平均とトレース項の間の微妙な相互作用にも影響されます。感度分析で 2 つの分布の偏りが大きくなるにつれて (図 3 の 0 または 100% に向かって)、分布の平均はより明確になりますが、分散も減少し、トレース項も減少します。これは、FD を単独で使用する場合の別の課題を示しています。FD は、分布パターンと分布形状の違いを混同する可能性があります。
図 4 は、Inception および SwAV 空間を使用して計算された FD が目のぼやけの影響を受けないのに対し、SwAV は鼻と口のぼやけの影響を受けないことを示しています。これは、目、鼻、口の変化が ImageNet ベースの特徴空間の FD に影響を与えないことを示しています。生成モデルの設計者は、これらのセマンティックな「盲点」に特別な注意を払う必要があります。
トレーニングの目的は、深部特徴空間でどの顔の意味論が強調されるかに影響します。
- 図 3 は、ドメイン内特徴空間 (FairFace、SwAV-FFHQ、アイデンティティ) はすべて、肌の色調、肌の質感、顔の付属品の違いに非常に敏感である一方、いくつかの注目すべき違いが存在することを示しています。たとえば、FairFace は、SwAV-FFHQ や Identity よりも髪の長さに対してはるかに敏感です。これは、FairFace と比較して、SwAV-FFHQ および Identity に対する髪のぼかしの影響が比較的小さいことによってさらに裏付けられます。
- もう 1 つの注目すべき違いは、FairFace も SwAV-FFHQ も目、鼻、口、唇に限定された歪みをキャプチャできないのに対し、Identity はキャプチャできることです。これらの違いは、トレーニング中に使用される目的関数に最も関連する意味論的特徴を特徴空間がキャプチャした結果であると推測します。FairFace は、髪の長さに応じて知覚される性別を分類するように訓練されています。一方、Identity は、髪型や髪の長さに依存せず、同じ人物に対応する顔を一致させるようにトレーニングされます。SwAV は、髪の長さがそれほど大きな特徴ではない可能性のある画像のトリミングされたビューに一致するようにトレーニングされています。
- したがって、生成モデルの設計者は、ドメイン内の特徴空間がすべてのドメイン固有のセマンティクスに敏感であると素朴に期待すべきではないことを提案します。代わりに、トレーニングの目的が機能にどのような影響を与えるかを慎重に検討し、これらの感度を経験的に調査することを推奨します。
大規模な一般データセットでトレーニングされた画像の言語モデル (CLIP) は、顔の多くの重要な意味論的特徴を捕捉します。
- セマンティック属性と歪みの感度分析により、CLIP 特徴は調査されたすべての特徴に対して敏感であることが示されています。
- 特に、CLIP は、領域のピクセル サイズに関係なく、すべての歪んだ顔領域に対して重要な FD を提供します。
- これは 2 つの理由によるものと考えられます。(1) CLIP は大規模なデータセットでトレーニングされている、(2) テキストは画像エンコーダーに従来の監視では学習できない知覚特徴情報の豊富なソースを提供します。
- これらの結果に基づいて、生成モデル設計者には、ImageNet (Inception、VGG、SwAV) でトレーニングされたモデルから抽出された知覚特徴を放棄し、CLIP のような大規模な画像言語モデルを使用することをお勧めします。
StyleGAN2 は、アイデンティティを除いて他の顔ジェネレーターよりも常に優れています。
- 表 1 は、StyleGAN2 がほぼすべての特徴空間と評価指標において他の顔ジェネレーターよりも優れていることを示しています。ただし、アイデンティティ空間を使用する場合、LDM と EG3D はさまざまな点で StyleGAN2 よりも優れています。
- EG3D は 3D ジオメトリを認識するようにトレーニングされているため、アイデンティティ空間で重要な鼻や目などの特徴 (図 4 を参照) をモデル化でき、結果として精度が高くなるのではないかと推測しています。
- GAN モデルと比較して、LDM は、GAN を悩ませることで知られるモード崩壊問題の影響を受けにくいため、より広範なアイデンティティを捕捉できる可能性があり、結果として高い再現率と FD が得られます。
- この観察は、EG3D と比較した NVAE のアイデンティティ メトリックによってさらに強化されます。
- NVAE によって生成されたサンプルは、アイデンティティの点では StyleGAN2 や EG3D ほど正確ではありませんが、GAN モデルに取って代わり、リコールと FD の点では 3 番目になります。
4.1 制限事項
意味属性の因果分析では、完全に反事実的な顔のペアを前提としています。ただし、ジェネレーターがトレーニング分布から学習した相関関係により、ディープ ジェネレーターを使用する場合、ある属性を他の属性から完全に分離することはできません。たとえば、メガネを操作する場合、年齢とメガネの着用傾向との相関により、肌の質感にしわが増えることがわかりました。さらに、しわのある顔を合成する場合、この操作により斜視の顔も生成されることがわかりました。ただし、一般に、このような相関関係は実際のデータセットでより顕著であることが知られているため、このタイプの分析では合成生成がより魅力的なオプションとなります。
私たちのセマンティック属性分析では、セットあたり 1000 枚の画像のサンプル サイズを使用するため、偏った FD 推定値が得られます。ただし、サンプル サイズが実験全体を通じて一貫していたため、図 3 に示す曲線の傾向と形状は正確です。このサンプル サイズの偏りは、FFHQ データセット全体の小さなサブセット (約 10,000) にのみ存在する、帽子や眼鏡などの意味領域の歪みの分析の要因でもあります。
特徴空間には公的に入手可能なディープネットワークを使用しましたが、これらはアーキテクチャタイプ、サイズ、最終層特徴の数が異なりました(たとえば、Inception および SwAV 特徴は 2048 次元を持ち、他の特徴は 512 次元を持ちます)。これらの要因は因果関係分析における潜在的な交絡因子である可能性がありますが、トレーニング セットの構成と目的関数が結果に大きな影響を与えた可能性があると考えられます。
5。結論
この研究では、顔生成のコンテキストで合成データを使用して、領域固有の特徴の変化が生成評価指標に及ぼす影響を因果的に評価する戦略を提案します。我々は、顔の属性に対するいくつかの深い特徴空間を使用して計算された FD の感度に関する包括的な研究を実施します。さらに、これらの特徴空間で評価された一般的な深層生成モデルの分析を提供します。この研究の結果は、深部特徴空間には、トレーニング データと目的関数に起因する領域内プロパティに対する重大かつ固有のバイアスがあることが示されています。
結論として、研究者は、特定の特徴空間を包括的な評価に使用する前に、その特徴空間のバイアスを十分に理解する必要があります。顔ジェネレータに関する私たちの実験は、モデルの長所と短所を包括的に理解するために、評価中に複数の特徴空間、特に関心領域の重要な詳細 (顔のアイデンティティなど) に調整された特徴空間を考慮することの重要性を示しています。画像生成モデルは急速に改善され続けるため、バイアスの軽減や生成画像モデルの全体的な品質の向上など、有意義な進歩を遂げるためには、この慎重な評価が必要です。
6. より広範囲な影響
画像生成の評価指標についての理解が深まることで、研究者や開発者はさまざまな生成モデルのパフォーマンスをより効果的に評価できるようになります。これにより、より正確で現実的で信頼性の高い発電システムの開発が容易になります。評価指標は、顔生成モデルのバイアスを軽減する上でも重要な役割を果たします。それにもかかわらず、私たちは、顔生成テクノロジーが、ディープフェイクや身元操作を伴う潜在的に有害なアプリケーションを含め、広範囲に影響を与えることを認識しています。したがって、そのような方法の評価手順を改善すると、AI によって生成された顔コンテンツに関連するリスクと害が増大する可能性があります。
参考
Kabra K、Balakrishnan G. FD: 顔生成評価における深い特徴空間の役割の理解について[J]。arXiv プレプリント arXiv:2305.20048、2023。
S. まとめ
S.1 主なアイデア
モデルが異なれば、属性に対する感度も異なります。たとえば、FD は ImageNet でトレーニングされたモデルから抽出された特徴を使用して、目や口などの領域ではなく帽子を強調します。さらに、顔の性別分類特徴を使用した FD では、アイデンティティ (認識) 特徴空間における距離よりも髪の長さに重点が置かれます。
著者らは、さまざまな属性を曖昧にすることで、評価指数 (FID) に対するこれらの属性の影響を調査しています。このより詳細な評価により、バイアスが軽減され、結果として得られるモデルの全体的な品質が向上します。
S.2 フレシェ開始距離 (FID)
FID では、2 つの Inception 埋め込み画像の分布が多変量ガウス分布であると仮定し、計算式を式 1 に示します。
ここで、(μ1,Σ1) と (μ2,Σ2) は画像セット (つまり、実画像と生成画像) の埋め込みの標本平均と共分散、Tr(・) は行列トレースです。
S.3 サンプルの生成
実際のデータセットには重要な属性の相関関係が含まれており、評価指標に対する個々の属性の影響をテストするために、作成者は生成されたデータセットを使用します。データセットは 2 つの手順で生成されました。
- まず、顔の毛、化粧、しかめっ面の表情、帽子や眼鏡などを除く、明るい肌と短い髪の事前定義された均一な特徴を示す基本的な顔のセットを合成します。さまざまな顔のセマンティクスに対応する 12 のバイナリ属性。
- 次に、上記 12 の属性を含むサンプルをそれぞれ合成します。
S.4 実験
実験的なアプローチでは、他の属性を一定に保ち、1 つの属性のみを変更 (ぼかし) し、FID に対するその効果を観察します。
生成に使用されるモデルは、異なるデータセットでトレーニングされた異なるアーキテクチャのモデルであり、その結果、異なる特徴空間が得られます。
異なる特徴空間の FID を比較するには、まず特徴空間内の元の画像とぼかした画像の間の FID を計算し、次に元の画像と完全にぼやけた画像の間の FID で割って正規化された FID を取得します。
S.5 分析
実験結果の一部を上図に示します。SwAV-FFHQ (FFHQ でトレーニングされた ResNet-50 モデル) を例に挙げます。
- 髪のぼかし度が増加 (0%→100%) しても、FID は基本的に変化せず、特徴空間が髪の属性に敏感でないことを示します。
- 肌のトーンのぼかし (0%→100%) が増加すると、FID が大幅に増加します。これは、特徴空間が肌のトーンの属性に非常に敏感であることを示しています。
差異分析。
- 著者らは、これらの違いは、トレーニング中に使用される目的関数に最も関連する意味論的特徴を特徴空間が捉えている結果であると推測しています。
- CLIP 特徴は、調査されたすべての特徴に対して敏感です。これは次の 2 つの理由による可能性があります: (1) CLIP は大規模なデータセットでトレーニングされている、(2) テキストは画像エンコーダーに知覚特徴情報の豊富なソースを提供しており、これらの情報は学習できません古典的な監修を通じて。
- 特徴空間では、アーキテクチャ タイプ、サイズ、最終層特徴の数が異なるネットワークが使用されており、これらの要因が実験結果に影響を与える可能性がありますが、著者らは、より大きな影響はトレーニング セットと目的関数から得られると考えています。