CVPR 2019 || ウェーブレット パケット ベースの敵対的生成ネットワークによる属性認識型の顔の老化

翻訳:ウェーブレットベースの敵対的生成ネットワークによる属性認識顔老化

属性を認識した顔の老化のためのウェーブレットベースの敵対的生成ネットワーク

まとめ

長い年齢範囲にわたって同じ被験者の顔画像を収集することは困難であるため、既存の顔老化法のほとんどは、年齢マッピングを学習するために不対データセットを採用しています。ただし、ペアになっていないトレーニング データに固有の若い顔画像と高齢の顔画像の間のマッチングの曖昧さは、加齢に伴う顔の属性の不自然な変化につながる可能性があり、これはほとんどの既存の研究のように同一性の一貫性を強制することでは解決できません。本稿では、上記の問題に対処するために、ウェーブレットベースの敵対的生成ネットワーク (GAN) に基づく属性認識顔老化モデルを提案します。具体的には、顔属性ベクトルをモデルのジェネレーターとディスクリミネーターに埋め込んで、合成された各高齢の顔画像が対応する入力属性に忠実になるように促します。さらに、ウェーブレット パケット変換 (WPT) モジュールを組み込んで、周波数空間の複数のスケールで年齢に関連したテクスチャの詳細をキャプチャすることで、生成された画像の視覚的な忠実度を向上させます。定性的結果は、視覚的に信頼できる顔画像を合成するモデルの能力を実証し、広範な定量的評価結果は、提案された方法が既存のデータセットで最先端のパフォーマンスを達成することを実証します。

1 はじめに

老化の進行としても知られる顔の老化 [16] は、個人化された特徴を保持しながら、特定の顔画像に老化効果を提示することを目的としています。顔の老化技術の用途は、社会保障から行方不明の子供の現在の姿の予測や年齢を超えた身元確認などのデジタルエンターテインメントまで多岐にわたります。顔の老化には実際的な価値があるため、過去 20 年間にこの問題を解決するために多くの方法が提案されてきました [8、20、19、21、7]。ディープラーニングの急速な発展に伴い、老化した顔画像を合成するためにディープ生成モデルが広く採用されています[23、3、4]。しかし、これらの手法の最も重大な問題は、学習段階で同一人物の異なる年齢の複数の顔画像が必要であり、実際に収集するには非常にコストがかかるため、その用途が大幅に制限されてしまうことです。

この問題に対処するために、最近の研究の多くは、対応のない顔の老化データを利用してモデルをトレーニングしています [23、28、25、9]。ただし、これらの方法は主に顔の老化そのものに焦点を当てており、入力の他の重要な条件情報 (顔の属性など) は無視されているため、トレーニング プロセスを標準化することはできません。したがって、トレーニング属性が一致しない顔画像のペアは、モデルを老化以外の学習変換に導く可能性があり、生成された結果に深刻なゴースト アーティファクトや誤った顔属性さえも引き起こす可能性があります。図 1 は、属性が一致しない場合の顔の老化結果を示しています。「性別」の一番右にある顔の老化結果では、入力された女性の顔画像にひげが誤って付けられています。これは、モデルはひげが生えるのは老化の典型的な兆候であることを学習するためですが、これが女性では起こらないことを知る方法はありません。条件情報を考慮せずに、若い女性と男性の顔画像のペアが作成されるためです。老人はポジティブなトレーニングサンプルとして見ることができます。
ここに画像の説明を挿入します

図 1. 顔属性の埋め込みなしの顔老化モデルによって生成された、顔属性が一致しない顔老化の例。4 つの属性 (人種、性別、メガネ、ハゲ) を考慮し、各属性に対して 3 つのサンプル結果を提供しました。「人種」と「性別」というラベルは、Face++ [13] の高レベルのパブリック API を通じて取得され、各画像の下に配置されます。

老化中の意味論的情報のこのような望ましくない変化を抑制するために、最近の顔老化研究の多くは、同一性の一貫性を強制することによって出力を監視することを試みている[28、1、25、9]。ただし、図 1 に示すように、すべてのサンプル結果では、パーソナライズされた特徴が出力によく保存されていますが、それにもかかわらず、顔の属性には明らかな不自然な変化が依然として観察されています。言い換えれば、良好なアイデンティティ関連の特徴を維持することは、ペアになっていないデータを使用してトレーニングした場合に、妥当な経年変化の結果を意味するわけではありません。したがって、単にアイデンティティの整合性を実行するだけでは、ペアになっていないトレーニング データの一致する曖昧さを排除するには不十分であり、満足のいく顔の老化パフォーマンスを達成できません。

上記の問題を解決するために、この論文では敵対的生成ネットワーク (GAN) に基づくフレームワークを提案します。文献にある既存の方法とは異なり、生成器と弁別器に顔属性ベクトルを埋め込むことで入力の意味論的条件情報を関与させ、それによってモデルが対応する各入力に忠実な属性を持つ老化した顔画像を出力するように導きます。さらに、局所的な質感ともいえるシワ、ほうれい線、目袋などを中心とした老化の兆候を基に、エイジングのディテールを強調するために、ウェーブレットパケット変換を用いて複数スケールの特徴量を効果的に抽出します。周波数空間。

まとめると、主な貢献は次のとおりです。

  1. 同一性の保持だけでは妥当な結果を生み出すのに十分ではないため、顔の属性は条件付き情報として顔の老化のジェネレーターおよび識別器に組み込まれます。
  2. ウェーブレット パケット変換を使用して、周波数領域の複数のスケールでテクスチャの詳細特徴を抽出し、きめの細かいエイジング効果の詳細を生成します。
  3. 私たちは、正確な老化効果をレンダリングし、アイデンティティと顔の属性情報を保存する際の、提案された方法の能力を実証するために広範な実験を実施します。定量的な結果は、私たちの方法が最先端のパフォーマンスを達成していることを示しています。

2.関連作品

顔の老化は過去数十年にわたって非常に人気のある研究テーマであり、この問題を解決するために多数のアルゴリズムが提案されてきました。一般に、これらの方法は、物理モデルベースの方法、プロトタイプベースの方法、深層学習ベースの方法の 3 つのカテゴリに分類できます。

物理モデルベースの方法は、人間の顔の解剖学的構造をモデル化することにより、時間の経過に伴う顔の外観の変化を機械的にシミュレートします。Todd et al. [22] は、カーディオイドひずみ変換を変更することによって顔の外観の変換をモデル化しました。その後の研究では、筋肉や顔全体の構造を含むさまざまな生物学的側面からこの問題が調査されました [8, 20]。ただし、物理モデルに基づくアルゴリズムは計算コストが高く、老化の影響をシミュレートするには同じ被写体の多数の画像シーケンスが必要です。

データ駆動型プロトタイピング手法 [19、21、7] が登場し、顔をさまざまな年齢グループに分類し、各グループはトレーニング データから計算された平均顔 (プロトタイプ) で表されます。その後、プロトタイプ間の移行パターンが経年変化の影響として考慮されました。プロトタイプ手法の主な問題は、平均顔を計算する際に個人的な特徴が削除されるため、アイデンティティ情報が十分に保存されないことです。

近年、高齢者の顔の画像を合成するために、時間的アーキテクチャを備えた深層生成モデルが採用されています[23、3、4]。しかし、これらの作品の多くは、被写体ごとに長い年齢スパンの顔画像シーケンスを必要とするため、実用化の可能性は限られています。視覚的に魅力的な画像の生成における GAN [5] の成功により、顔の老化の問題を解決するために GAN ベースのフレームワークを使用する多くの努力がなされてきました [28、25、9、17、24、10]。Zhang et al. [28] は、低次元多様体をトラバースすることで年齢の増加と回帰を達成する条件付き敵対的オートエンコーダ (CAAE) を提案しました。私たちの研究と最も類似した研究は [25] で、GAN のピラミッド構造に基づいたモデルを提案し、永続性を達成するためにアイデンティティ損失を採用しています。アイデンティティ情報の保存に加えて、ペアになっていないトレーニング サンプルのマッチングの曖昧さの影響を軽減し、顔の属性ベクトルをモデルに埋め込むことで属性の一貫性を確保することに重点を置いています。

3. 方法

ペアになっていない顔の老化データセットでは、トレーニング中に各若い顔の画像が多くの年老いた顔の候補にマッピングされる可能性があり、意味情報が一致しない画像ペアにより、モデルが老化以外のことを学習するように誤解される可能性があります。この問題を解決するために、我々は GAN ベースの顔老化モデルを提案します。このモデルは、若い顔画像とその意味論的情報 (つまり、顔の属性) を入力として受け取り、それに応じて視覚的に信頼できる古い顔を出力します。ネットワークは、顔属性埋め込みジェネレーター G とウェーブレットベースの識別器 D の 2 つの部分で構成されます。生成ネットワークは、顔の属性を若い顔の画像に埋め込み、高齢の顔を合成します。弁別ネットワークは、一般的な結果と区別できず、対応する入力と同じ特性を持つ結果の生成を促進するために使用されます。図 2 に提案フレームワークの概要を示します。
ここに画像の説明を挿入します

図 2. 提案された顔の老化フレームワークの概要。砂時計の形をしたジェネレーター G は年齢マッピングを学習し、本物のような高齢者の顔の画像を出力します。識別器 D は、ウェーブレット パケット変換モジュールによって計算されたマルチスケール ウェーブレット係数に基づいて、合成顔画像と通常の顔画像を区別するために使用されます。入力顔画像を記述する p 次元の属性ベクトルは、ペアになっていないトレーニング データに固有のマッチングの曖昧さを軽減するために、ジェネレーターとディスクリミネーターに埋め込まれます。

3.1. 顔属性埋め込みジェネレーター

既存の顔老化研究 [9、25、28] では、若い顔画像のみを入力として取得し、GAN ベースのネットワークを使用して年齢マッピングを直接学習します。ID 情報とピクセル値に対する通常の制約は、入力画像への変更を制限することですが、それでも顔の属性は不自然な変換を受ける可能性があります (図 1 を参照)。これまでの研究とは異なり、低レベルの画像情報 (ピクセル値) と高レベルの意味情報 (顔の属性) を顔の老化モデルに組み込んで、画像の変換パターンを正規化し、不対の若い顔と老人の顔を減らすことを提案します。間のマッピング。具体的には、モデルは若い顔画像とそれに対応する属性ベクトルを入力として受け取り、入力属性と一致する古い顔画像を生成します。

生成された結果の属性を監視するために追加の損失項を単純に採用するのではなく、生成プロセス中に顔の意味情報が完全に考慮されるように属性ベクトルをジェネレーターに埋め込み、モデルが一貫した属性を持つ顔をより効率的に生成できるようにします。画像。具体的には、これまでの画像翻訳研究で成功してきた砂時計型の完全畳み込みネットワークをジェネレータとして採用しています[6, 29]。エンコーダ ネットワーク、デコーダ ネットワーク、およびボトルネックとして中央に残った 4 つのブロックで構成されます。入力顔属性ベクトルは、両方とも高レベルの意味論的特徴を含むため、コピーされ、最後の残差ブロックの出力 blob に連結されます。結合後、デコーダ ネットワークは、連結された特徴ブロブを画像空間に変換して戻します。

顔の老化は、入力された若い顔画像に条件付けされた老化効果をレンダリングすると考えることができるため、入力画像をデコーダの出力に追加して、残留接続を形成します。顔画像全体を合成する場合と比較して、この構造により、ジェネレーターは自動的に入力顔画像と出力顔画像の間の違い、つまり老化の代表的な兆候のモデリングにより重点を置くことができ、老化に関係のない視覚コンテンツの影響を受けにくくなります。背景。最後に、結果のテンソルの数値スケールが双曲線正接 (tanh) マッピングによって正規化され、高齢者の顔画像が生成されます。

3.2. ウェーブレットベースの識別器

ジェネレータに入力顔画像の意味情報を強制的に吸収させるために、条件付き識別子が採用されます。弁別器には 2 つの主な機能があります。1) 合成顔画像と通常の顔画像を区別する; 2) 生成された各結果の属性が対応する入力結果に忠実であるかどうかを確認する。

具体的には、しわ、ほうれい線、目袋などの典型的な老化の兆候が局所的な画像テクスチャとして表示されることを考慮して、ウェーブレット パケット変換 (WPT、図 3 を参照) を使用して、年齢に関連したテクスチャ特徴をキャプチャします。具体的には、マルチレベル WPT を実行して、特定の画像内のテクスチャのより包括的な分析を実行し、各分解レベルのウェーブレット係数が弁別器の畳み込みパスに供給されます。これは [9] とは異なることに注意してください。なぜなら、私たちの研究では、ウェーブレット係数は識別のためにのみ使用され、予測や再構築には関与しないからです。
ここに画像の説明を挿入します

図 3. ウェーブレット パケット変換のデモ。(a) ローパスおよびハイパス分解フィルター (h lowおよび h high ) が k 番目の層の入力に繰り返し適用されて、次の層のウェーブレット係数が計算されます (b) 顔画像サンプルとそのレイヤーの異なるウェーブレット係数での分解。

識別器が、生成された画像に属性が保存されているかどうかを判断できるようにするために、入力属性ベクトルもコピーされ、各パスの中間畳み込みブロックの出力に連結されます。弁別器の最後で、同じサイズのすべてのパスの出力が 1 つのテンソルに融合され、ラベル テンソルに対して敵対的損失が推定されます。

[25] の一連の畳み込み層を介してマルチスケール特徴を抽出する場合と比較して、WPT を使用する利点は、ウェーブレット係数の計算を単一の畳み込み層を介した転送とみなすことができるため、計算コストが大幅に削減されることです。したがって、WPT は各転送プロセスで実行される畳み込みの数を大幅に削減します。モデルのこの部分は簡略化されていますが、マルチスケール イメージ テクスチャ解析を利用しているため、生成されたイメージの視覚的な忠実度が向上します。

3.3. 全体的な目的関数

通常の GAN [5] とは異なり、負の対数尤度損失の代わりに最小二乗損失を採用して、生成されたサンプルと特徴空間の決定境界の間のマージンを最小限に抑えることで、合成画像の品質をさらに向上させます [12]。実際、若い顔の画像 x iを、(xi , α i )〜 P young (x, α) で表される次元 pの対応する属性ベクトル α i と組み合わせて、モデルへの入力として受け取ります。入力と同じ属性を持つ一般的な古い顔、つまり (x i , α i ) 〜 P old (x, α i ) だけが陽性サンプルとみなされますが、真の若い顔、つまり (x i , α i ) 〜 P young (x, α) は、D が老化の影響を識別する能力を得るのに役立つネガティブ サンプルとみなされます。

数学的には、G と D の目的関数は次のように書くことができます。
ここに画像の説明を挿入します
ここで、P youngと P old は、それぞれ若い被験者と高齢の被験者の一般的な顔画像の分布を表します。

さらに、画像レベルとパーソナライズされた機能レベルでの一貫性を維持するために、ピクセル損失とアイデンティティ損失を採用しています。具体的には、Φ で示される VGG-Face 記述子 [14] を利用して、顔画像のアイデンティティ関連の意味表現を抽出します。これら 2 つの損失項は次のように表すことができます。
ここに画像の説明を挿入します
要約すると、提案されたモデルの全体的な目的関数は次のように記述できます。
ここに画像の説明を挿入します
ここで、λ idと λ pix は、それぞれアイデンティティとピクセルに対する批判の重要性のバランスを取る係数です。最適な状態に到達するまで、 LGLD を交互に最小化することでモデルを最適化します。

4. 実験

4.1. データセット

MORPH [15] は、13,000 人以上の被験者の 55,000 枚の顔画像を含む大規模な経年変化データセットです。MORPH のデータ サンプルは、均一かつ適度な照明とシンプルな背景の下で、ニュートラルな表情を示す正面付近の顔のカラー画像です。CACD[2] には、あまり管理されていない条件下で撮影された 2,000 人の有名人の顔画像 163,446 枚が含まれています。ポーズ、照明、表情の大きなバリエーション (PIE バリエーション) に加えて、CACD 内の画像は、各画像に実際に表現されている顔と、提供されている関連タグ (名前と年齢) との間に不一致があるため、Google 画像検索を介して収集されました。非常に困難なデータセットになります。

顔の属性に関しては、MORPH は研究者に年齢、性別、人種などのラベルを画像ごとに提供します。保存する必要がある属性として「性別」と「人種」を選択します。これら 2 つの属性は、自然な老化プロセス中に変化しないことが保証されており、人気のある顔属性データセット CelebA [11] で使用される「魅力」と一致するためです。 」や「太っている」などの属性は比較的客観的です。CACD の場合、「白人」以外の人種の顔画像はデータセット全体に占める割合が小さいため、保持する属性として「性別」のみを選択します。具体的には、有名人の名前のリストを通じて、対応する画像に注釈を付けます。これにより、注釈付きの名前が各画像に表示される実際の顔と一致しないため、性別ラベルにノイズが導入され、このデータセットで良好なパフォーマンスを達成する方法の難易度がさらに高まります。特に、提案されたモデルは拡張性が高く、研究者は条件付き顔属性ベクトルに属性を組み込むだけで保存する属性を選択し、それに応じてトレーニング画像ペアを配置できるためです。

4.2. 実装の詳細

すべての顔画像は、MTCNN [27] によって検出された 5 つの顔のランドマークに基づいて切り取られ、位置合わせされます。[25, 9] の規則に従って、顔画像を 4 つの年齢グループ、つまり 30 歳、31 歳から 40 歳、41 歳から 50 歳、51 歳以上に分割し、30 歳から他の 3 つの年齢グループへの変換のみを考慮します。提案された方法のパフォーマンスを客観的に評価するために、すべてのメトリクス測定は、Face++ [13] の安定したパブリック API を通じて実行されます。顔認証実験で採用された閾値 (閾値 = 76、FAR = 1e-5) は、[25] で使用されたものと同じです。したがって、我々の実験の定量的結果は、[25] で報告されたものと同等です。

G と D のオプティマイザーとして Adam を選択し、学習率とバッチ サイズはそれぞれ 1e -4と 16 に設定します。ピクセルレベルの批判は 5 回ごとに反復され、D は反復ごとに更新されます。トレードオフパラメータに関しては、L pixと L idL GAN (G) と同じ桁になるように最初に設定され、次に敵対的損失の重要性を強調するために 10 で除算されます。 。すべての実験は、5 重交差検証を使用して Nvidia Titan Xp GPU で実行されます。

4.3. 顔の老化に関する定性的結果

Morph と CACD のサンプル結果を図 4 に示します。私たちの方法が、異なる年齢グループ間の翻訳をシミュレートし、高い視覚的忠実度で高齢者の顔画像を合成できることは明らかです。さらに、私たちの方法は、人種、性別、表情、咬合の変化に対して堅牢です。
ここに画像の説明を挿入します

図 4. Morph (1 行目) と CACD (2 行目) のサンプル結果。各結果の最初の画像は入力テスト顔画像で、後続の 3 つの画像は、31 ~ 40 歳、41 ~ 50 歳、および 51 歳以上の年齢グループの同じ被験者の合成老化顔画像です。

以前の Morph 作品とのパフォーマンスの比較を図 5 に示します。従来の顔老化法である CONGRE [18] および HFA [26] は、顔の小さな領域に微妙な老化効果を示すだけであり、老化プロセスを正確にシミュレートすることはできません。対照的に、GLCA-GAN [9] および [25] で提案されたピラミッド構造を備えた GAN ベースの方法 (PAG-GAN と呼ばれます) は、生成される結果の品質の大幅な向上を達成しました。ただし、GLCA-GAN と比較して、私たちの方法はさらに詳細が強化された高解像度 (2x) の顔画像を生成し、PAG-GAN と比較して結果のゴーストアーティファクトを軽減します (例、髪やひげの詳細がより細かい)。
ここに画像の説明を挿入します

図 5. 以前の Morph 作業とのパフォーマンスの比較 (経年劣化の詳細を確認するには拡大してください)。2 行目は、4 つの方法が検討された以前の作業の結果を示しており、各方法に対して 2 つのサンプル結果が提供されています。4 つの方法は (左から右へ) です。CONGRE [18]、HFA [26]、GLCA-GAN [9]、および PAG-GAN [25]。最後の行は、この方法の結果を示しています。

4.4. エージングの精度とアイデンティティの保持

本サブセクションでは、時間的精度と同一性保持に関する評価結果を報告します。提案されたモデルのパフォーマンスは、その有効性を実証するために、以前の最先端の手法である CAAE [28]、GLCA-GAN [9]、および PAGGAN [25] と比較されます。

エージングの精度通常の顔と合成顔の各年齢層の年齢分布を推定し、本物と偽の画像の差が小さいほど、より正確な老化効果のシミュレーションが可能になります。Morph と CACD では、30 歳以下の顔画像がテスト サンプルと見なされ、他の 3 つの年齢グループの対応する老化した顔が合成されます。公正な比較を行うために、Face++ API を使用して、生成された結果とデータセット内の自然な顔画像の見かけの年齢を推定しました。

Morph と CACD の年齢推定結果を表 1 と図 6 に示します。平均年齢の違いに関して、私たちのアプローチを以前の研究と比較します。Morph では、高齢者の合成顔画像の推定年齢分布が、すべての年齢層の自然画像の年齢分布とよく一致していることがわかります。私たちの方法は、3 つの老化プロセスすべてにおいて他の方法よりも一貫して優れており、私たちの方法の有効性が実証されています。CAAE の結果における老化の兆候は十分に明らかではないため、年齢推定に大きな誤差が生じます。CACD では、顔画像と関連するラベルの間の不一致により、わずかなパフォーマンスの低下が観察される場合があります。それにもかかわらず、提案された方法は依然として、以前の最先端技術に匹敵する結果を達成している。これは、私たちの方法が属性ラベルのノイズに対して比較的堅牢であることを示しており、それによって以前の属性検出プロセスの精度要件が軽減されます。
ここに画像の説明を挿入します

表 1. Morph と CACD の年齢推定結果 (平均年齢の差は絶対値として計算されます)。

ここに画像の説明を挿入します

図 6. 推定年齢の分布。(a) モーフ上の合成顔、(b) CACD 上の合成顔、© モーフ上の通常の顔、(d) CACD 上の通常の顔。

アイデンティティは維持されます顔認証実験は、顔の老化中にアイデンティティ情報が保持されるかどうかを確認するために実施されました。以前の文献と同様に、同じ被験者の異なる年齢グループからの合成高齢者の顔画像も比較され、個別にトレーニングされた 3 つの年齢マッピングにわたってアイデンティティ情報が一貫しているかどうかが検査されました。

顔認証実験の結果を表 2 に示します。Morph では、私たちの方法は 3 つの翻訳すべてで最高の検証率を達成し、特に最も困難なケース (30 ~ 51+) で他の方法を明らかに上回っています。これは、提案された方法が顔の老化中にアイデンティティの永続性を首尾よく達成することを示しています。ラベルが一致しない、より困難なデータセット CACD では、私たちの方法は PAG-GAN と同等のパフォーマンスを発揮しますが、わずかな違いがあります。単一の被験者の 2 つの顔画像間の時間間隔が増加するにつれて、検証の信頼性と精度の両方が低下することは注目に値しますが、顔の外観は時間の経過とともに大幅に変化する可能性があるため、これは当然のことです。
ここに画像の説明を挿入します

表 2. Morph と CACD の顔検証結果。

4.5. 顔の属性の一貫性

年齢増加前後で推定された顔属性を比較することにより、顔属性の保存性能を評価しました。結果を表 3 に示します。Morph では、ほとんどのテスト サンプルの顔の属性 (「性別」で最大 97.37%、「人種」で 95.86%) が老化プロセス中によく保存されます。さらに、私たちの方法は、すべての年齢層の翻訳において、GLCA-GAN および PAG-GAN よりも明らかに優れています。CACD では、誤ってラベル付けされたデータ サンプルの影響により、Morph での結果と比較して大幅なパフォーマンスの低下が見られます。ただし、私たちの方法は、顔の属性を保持する点で他の方法よりも優れたパフォーマンスを発揮します。「性別」属性を保持するという私たちの方法の利点は、年齢差が大きくなるにつれて大きくなり、最終的には最高齢の 51 歳以上の年齢グループに換算すると 17.14% に達します (87.19% 対 70.05%)。表 3 から、年齢差が大きくなるにつれて、顔属性の望ましくない変化が発生する可能性が高く、状態情報を組み込むことは、老化プロセス中にターゲットの顔属性の一貫性を維持するのに有益であると結論付けることができます。
ここに画像の説明を挿入します

表 3. Morph および CACD における「性別」と「人種」の顔属性保存率。

4.6. アブレーション研究

このセクションでは、正確な年齢変換のシミュレーションにおける顔属性埋め込み (FAE) とウェーブレット パケット変換 (WPT) の貢献を徹底的に調査するための実験を実施します。属性埋め込み (FAE なし) およびウェーブレット パケット変換 (WPT なし) を含めるか除外することが、年齢分布、顔認証率、および属性保持率に及ぼす影響を研究します。CACD データセットのラベルにはノイズが多いため、このセクションのすべての実験は Morph でのみ実行されます。

図 7 は、提案されたモデルの変形によって生成された顔画像の視覚的な図を示しています。明らかに、FAE も WPT も参加しない場合 (woFAE woWPT)、生成された結果には深刻なゴースト アーティファクトが発生します。ペアになっていないトレーニング データには固有のマッチングの曖昧さがあるため、FAE を使用しないモデルは、老化効果を示すために入力女性の顔画像に口ひげを誤って取り付けます。特に、生成された顔画像は入力されたアイデンティティ関連の特徴と依然として類似しているため、ひげを生やしても顔認証の信頼性が低下することはありません。これは、満足のいく顔の老化効果を得るには、アイデンティティの一貫性を強制するだけでは十分ではないという観察を再確認します。
ここに画像の説明を挿入します

図 7. アブレーション研究の視覚的結果のサンプル。各顔について、推定年齢 (1 行目) と検出された属性 (2 行目) を以下に示します。最後の行の値は、生成された結果とテスト顔の間の顔検証の信頼度です。

逆に、FAE を追加すると、マッチングの曖昧さが軽減されるため、望ましくない顔属性のドリフトが抑制されます。具体的には、図 7 では、FAE を使用した後、生成された結果には口ひげがなくなり、顔の属性の一貫性が実現されました。残念なことに、口ひげを除去すると、老化に関連する質感の詳細(しわ、ほうれい線、目の下のクマ)も消去されるため、比較的不正確な老化結果(予想よりもはるかに若く見える)が生じます。

この問題に対処し、鮮明な老化の兆候を備えた、より視覚的に信頼できる顔画像を生成するために、WPT が識別器の最初の層として使用されます。WPT の貢献は、「woFAE/woWPT」と「woFAE/wWPT」、および「woFAE/woWPT」と「Ours」設定での結果を比較することで簡単に確認できます。「woFAE/wWPT」設定で得られた結果には依然として誤った顔属性が含まれていますが、ゴーストアーティファクトは大幅に軽減され、現実的な老化効果がはっきりと観察されます。

削減研究の定量的結果を表 4 および 5 に示します。表 4 の結果によると、顔属性埋め込み (wFAE) の導入により、3 つの年齢マッピングすべてで、特に 51 歳以上に変換した場合に「性別」と「人種」の保存率が増加します。これは、ペアになっていない年齢データを顔の属性に関して一貫性を持たせるため、属性の埋め込みが有効であることを示しており、それによってデータ マッピングに固有のあいまいさが軽減されます。
ここに画像の説明を挿入します

表 4. 提案モデルのバリアント間の顔属性の保存と老化の精度に関する結果の比較 (絶対値で測定された平均年齢の差)。

さらに、WPT を採用すると、すべてのケースで一般画像と合成画像の年齢分布の差が減少することは明らかです。ただし、WPT は顔の属性の一貫性を保つのにほとんど役に立ちません。これは、WPT が低レベルのビジュアル データに基づいて機能のみをキャプチャし、セマンティック ギャップを埋めることができないため、フレームワークは依然としてデータ サンプルの不一致の影響を受けるためです。

表 4 と表 5 の結果を組み合わせると、属性保存率にはまだ改善の余地があるものの、検証率はほぼ完璧に達しつつあることがわかります。この観察は、同一性の保存は、老化しても顔の属性が安定していることを保証するものではないという私たちの主張を正当化します。したがって、アイデンティティの制約に加えて、顔属性の監視は、ペアになっていないデータに固有のマッチングの曖昧さを軽減し、満足のいく顔の老化効果を達成するのにも役立ちます。
ここに画像の説明を挿入します

表 5. Morph における提案モデルのバリアントの顔認証率 (%)。

5. まとめ

この論文では、老化した顔画像を合成するための GAN ベースのフレームワークを提案します。アイデンティティ制約は、ペアになっていない経年変化データのマッチングの曖昧さを軽減するのに効果がないため、この問題に対処するために顔の属性を採用することを提案します。具体的には、生成画像が対応する入力画像の顔属性に忠実になるように、顔属性ベクトルを生成器と弁別器に埋め込みます。生成された顔画像の視覚的な忠実度をさらに向上させるために、マルチスケール テキスト特徴を効果的に抽出するウェーブレット パケット変換を導入します。Morph と CACD について広範な実験が行われ、定性的な結果は、私たちの方法が PIE の変化とノイズの多いラベルの両方に良好に適応して、本物のような顔画像を合成できることを示しています。さらに、パブリック API を通じて得られた定量的な結果は、エージングの精度、アイデンティティと属性の保存の観点から、提案された方法の有効性を検証します。

おすすめ

転載: blog.csdn.net/qq_56039091/article/details/127169720