【コンピュータビジョン|顔モデリング】ディープラーニング時代の3D顔再構成に関する調査報告書

この一連のブログ投稿はディープ ラーニング/コンピューター ビジョン論文のメモです。転載する場合は出典を明記してください。

标题:深層学習時代の 3D 顔再構成: 調査

链接:深層学習時代の 3D 顔再構成: 調査 - PubMed (nih.gov)

まとめ

深層学習の出現とグラフィックス処理装置の広範な応用により、3D 顔の再構成は生体認証の最も魅力的な主題になりました。この論文では、3D 顔再構成技術のさまざまな側面を検討します。この論文では 5 つのテクニックが説明されています。

  • ディープラーニング(DL、ディープラーニング)
  • エピポーラ幾何 (EG、エピポーラ幾何、エピポーラ幾何)
  • ワンショット学習 (OSL、シングルショット学習、シングルショット学習)
  • 3Dモーファブルモデル(3DMM、3Dデフォーマブルモデル)
  • シェーディング方法からの形状 (SFS、シャドウ形状に基づく再構成、グレースケールからの深さの復元)

この論文では、深層学習技術を使用した 3D 顔再構成の詳細な分析を提供します。さまざまな顔再構成技術のパフォーマンス分析について、ソフトウェア、ハードウェア、利点と欠点の観点から説明します。3D 顔再構成技術の課題と今後の開発の方向性についても説明します。

1 はじめに

3D 顔再構成は、深層学習モデルの出現により開発速度が加速された生体認証の問題です。3D 顔認識研究に多くの貢献者が過去 5 年間で進歩を遂げてきました (図 1 を参照)。再現や音声主導のアニメーション顔の操作ビデオの吹き替えバーチャル メイクアッププロジェクション マッピング顔の老化顔の置き換えなどのさまざまなアプリケーションが開発されています[1]。

図 1: 3D 顔再構成に関して発表された研究論文の数 (2016 年から 2021 年)

3D 顔の再構築は、オクルーダーの除去メイクアップの除去表情の転写年齢予測など、多くの課題に直面しています。

障害物は内部にも外部にもありますよく知られている内部オクルーダーには、髪、あごひげ、口ひげ、横顔などがあります。外部閉塞は、眼鏡、手、瓶、紙、マスクなど、他の物体や人が顔の一部を隠すときに発生します [2]。

3D 顔再構成研究の成長を促進する主な理由は、マルチコアの中央処理装置 (CPU)、スマートフォン、グラフィックス処理装置 (GPU)、および Google Cloud Platform (GCP)、アマゾン ウェブ サービス (AWS)、 Microsoft Azure の可用性 [3-5]。

の3Dデータ

  • ボクセル (ボクセル、ボクセル、ピクセル+ボリューム+要素)
  • 点群
  • GPU で処理できる 3D メッシュ (GPU で処理できる 3D メッシュ)

を示します (図 2 を参照)。最近、研究者らは 4D 顔認識の研究を開始しました [6, 7]。図 3 は、3D 顔再構成の分類を示しています。

図 2: 3D 顔画像: a RGB 画像、b 深度画像、c グリッド画像、d 点群画像、e ボクセル画像

図 3: 3D 顔再構成の分類

1.1 3D 顔再構成の一般的なフレームワーク

3D 再構築ベースの顔認識フレームワークには、前処理深層学習予測が含まれます。図 4 は、さまざまな形式の 3D 画像を取得できる 3D 顔修復技術に含まれる段階を示しています。そのすべてに、ニーズに基づいて異なる前処理ステップがあります。

図 4: 3D 顔再構成問題の一般的な枠組み [9]

顔の位置合わせは、再構築段階に送る前に行われる場合と行われない場合があります。Sharma と Kumar [2、8、9] は、再構成技術で顔の位置合わせを使用していません。

顔の再構成は、3DMMベースの再構成、EGベースの再構成、OSLベースの再構成、DLベースの再構成、SFSベースの再構成などの様々な技術を使用して実行することができる。さらに、顔の再構成の結果として予測段階が必要です。予測は、顔認識、感情認識、性別認識、または年齢推定アプリケーションで使用できます。

1.2 ワードクラウド

ワード クラウドには、3D 顔再構成の上位 100 キーワードが表示されます (図 5 を参照)。

図 5: 3D 顔再構成文献のワードクラウド

このワードクラウドからは、「3D 顔」、「ピクセル」、「画像」、「再構成」などの顔再構成アルゴリズムに関連するキーワードが広く使われるようになりました。「3D顔再構成」というキーワードは、顔認識技術の課題領域として研究者を魅了しています。

顔の再構成には、遮られた顔の画像を完成させることが含まれますほとんどの 3D 顔再構成技術は、再構成プロセスで 2D 画像を使用します [10-12]。最近、研究者はグリッド画像とボクセル画像の研究を開始しました [2、8]。Generative Adversarial Networks (GAN) は、2D 顔の顔の交換と顔の特徴の変更に使用されます [13]。これらは、深層学習技術を使用してまだ調査されていません。

この論文は、3 次元点群の深層学習 [14] と人物の再識別 [15] に関する詳細な研究調査を動機としています。図 1 に示すように、3D 顔の研究は過去 5 年間にわたって時間の経過とともに成長してきました。ほとんどの再構成研究では、GAN ベースの深層学習技術の使用が好まれます。この論文は、3D 顔再構成のための深層学習技術の使用と、現実世界のシナリオでのその応用を調査することを目的としています。

この文書の貢献には次のものが含まれます。

  1. さまざまな 3D 顔再構成技術の長所と短所について説明します。
  2. 3D 顔再構成技術のハードウェア要件とソフトウェア要件が示されています。
  3. データセット、パフォーマンス評価指標、および 3D 顔再構成の適用性が調査されます。
  4. 現在および将来の 3D 顔再構成技術の課題について検討します。

この論文の残りの部分は次のように構成されています。 セクション 2 では、3D 顔再構成技術の変形を紹介します。セクション 3 ではパフォーマンス評価指標について説明し、セクション 4 では再構成手法に使用されるデータセットを示します。セクション 5 では、再構成プロセスのツールと手法について説明します。セクション 6 では、3D 顔再構成の潜在的なアプリケーションを検討します。セクション 7 では、現在の研究課題と将来の研究の方向性を要約します。セクション 8 では、結論としてコメントを提供します。

2 3D顔再構成技術

3D 顔再構成技術は、3D 変形可能モデル (3DMM) ベースの再構成、深層学習 (DL) ベースの再構成、エピポーラ幾何学 (EG) ベースの再構成、シングルショット学習ベース (OSL) の 5 つの主要カテゴリに大別されます。再構成とシャドウシェイプ (SFS) ベースの再構成。図 6 は、3D 顔再構成技術を示しています。ほとんどの研究者はハイブリッド顔再構成技術に取り組んでおり、これは 6 番目のカテゴリーとみなされます。

図6:3D顔再構成技術

2.1 3DMMによる再構築

3D 変形可能モデル (3DMM) は、顔の外観と形状の生成モデルです [16]。生成されるすべての顔は、高密度のポイントツーポイント対応関係にあり、これは顔登録プロセスを通じて実現できます。モーフは密な対応を通じて生成されます。この技術は、顔の色と形状を照明、明るさ、コントラストなどの他の要素から分離することに焦点を当てています [17]。

3DMM は Blanz と Vetter によって導入されました [18]。3DMM のバリアントは文献 [19-23] で入手できます。これらのモデルは、顔の表情、テクスチャ、アイデンティティに低次元表現を使用します。Basel Face Model (BFM) は、公開されている 3DMM モデルの 1 つです。モデルは、反復最近接点 (ICP) と主成分分析 (PCA) から取得されたスキャンされた顔に対応するテンプレート メッシュを登録することによって構築されます [24]。

図 7 は、過去 20 年間にわたる 3DMM の段階的な改善を示しています [18、25-28]。この図は、1999 年の Blanz と Vetter による元の論文 [18]、2009 年に初めて公開された変形可能モデル [25]、最先端の顔のレンダリング結果 [28]、および GAN​​ モデル [27] の結果を示しています。

図 7: 過去 20 年間にわたる 3DMM の段階的な改善 [17]

Maninchedda et al. [29] は、顔が眼鏡で遮られている状況を解決するために、3D エピポーラ幾何学に基づく自動再構成方法を提案しました。彼らは、さまざまなガラスを表現できる変分セグメンテーション モデルを提案しています。

Zhang et al. [30] は、RGB-D センサーでキャプチャされた単一のデータ フレームから高密度の 3D 顔点群を再構成する方法を提案しました。顔領域の最初の点群は、K-Means クラスタリング アルゴリズムを使用して取得されました。次に、点群の近傍が人工ニューラル ネットワーク (ANN) を使用して推定されます。

さらに、Radial Basis Function (RBF) 補間を使用して、点群を中心とした 3D 顔の最終近似を実現します。

Jiang et al. [31] は、3DMM に基づいた 3D 顔復元アルゴリズム (PIFR) を提案しました。入力画像は、顔のランドマークの可視性に関するより多くの情報を取得するために正規化されます。この方法の利点は、ポーズ不変の顔再構成機能です。ただし、大きなポーズでの再構成には改善が必要です。

コンピュータビジョンの分野において、大きなポーズ(ラージポーズ)とは、通常、画像内の顔や物体の向きや角度、回転角度が回転、拡大縮小、平行移動など大きく変化する状況を指す。顔の再構成において、大きなポーズとは通常、顔が正面以外の方向に配置されているか、顔が部分的に隠れている状況を指します。このような状況では、顔の認識と再構築がさらに困難になります。

Wu et al. [32] は、単一の画像を使用して 3D 表情を再構成する手法を提案しました。3DMM のパラメーターは、カスケード回帰フレームワークを使用して計算されました。特徴抽出段階では、方向性勾配ヒストグラム (HOG) とキーポイント オフセットが使用されます。

Kollias et al. [33] は、顔の表情とポジティブ/ネガティブな感情レベルを合成するための新しい手法を提案しました。Value-Awakening (VA) 技術に基づいて、4DFAB データセットから 600K フレームに注釈が付けられます [34]。この手法は、実際の外部データセットに対して機能します。ただし、4DFAB データセットは一般公開されていません。

Lyu ら [35] は、2D 画像から高解像度画像を生成する Pixel-Face データセットを提案しました。3D 顔再構成には Pixel-3DM が提案されています。ただし、この研究では外部の咬合状況は考慮されていませんでした。

2.2 DL ベースの再構成

3D 敵対的生成ネットワーク (3DGAN) と 3D 畳み込みニューラル ネットワーク (3DCNN) は、3D 顔再構成のための深層学習技術です [27]。これらの方法の主な利点は、忠実度が高く、精度が高く、平均絶対誤差 (MAE) パフォーマンスが高いことです。ただし、GAN のトレーニングには長い時間がかかります。正規ビューからの顔の再構成は、Facial Identity Preserving (FIP) 法 [36] によって実行できます。

Tang et al. [37] は、新しい照明状況で画像を生成するための多層生成深層学習モデルを導入しました。顔認識では、トレーニング コーパスがマルチビュー パーセプトロンのラベルを提供する役割を果たします。顔のジオメトリを使用して単一の画像から合成データを拡張します [38]。

Richardson ら [39] は、上記の再構成の教師なしバージョンを提案しました。顔アニメーション タスク [40] は、教師あり CNN を使用して実装されます。ディープ畳み込みニューラル ネットワーク (DCNN) を使用して 3D テクスチャと形状を復元します。[41] では、顔のテクスチャの復元により、3DMM [42] よりも優れた詳細が提供されます。

図 8 は、遮蔽された領域の回復を使用した 3D 顔認識のさまざまな段階を示しています。

図 8: 復元技術を使用した 3D 顔認識のさまざまな段階 [9]

Kim et al. [26] は、深層畳み込みニューラル ネットワークに基づく 3D 顔認識アルゴリズムを提案しました。3D 顔強調技術を使用すると、3D 顔を 1 回スキャンするだけでさまざまな表情を合成できます。転移学習に基づくモデルのトレーニングは高速です。ただし、3D 点群画像を 2.5D 画像に変換すると、3D データが失われます。

2.5D は通常、深度情報が単一の平面 (2D 画像など) に限定され、この平面上の各ピクセルに深度値が関連付けられていることを意味します。3D 顔認識では、3D 顔データを 2.5D 画像に変換するプロセスでは、各 3D ポイントの奥行き値を 2D 画像上の対応するピクセルにマッピングし、それによって各ピクセルの奥行き情報を取得します。この方法では、データの次元を削減し、計算を簡素化し、必要なストレージ容量を減らすことができますが、3D 情報の一部が失われるため、顔認識の精度に影響を与える可能性があります。

Gilani et al. [43] は、注釈付きの 3D 顔の大規模なコーパスを開発するための手法を提案しました。彼らは、顔認識 3D 畳み込みニューラル ネットワーク (FR3DNet) をトレーニングして、10 万人の 310 万の 3D 顔を認識しました。このテストは、1853 人の 31,860 枚の画像に基づいています。

Thies et al. [44] は、ソース入力オーディオからリアルな出力ビデオを生成するためのニューラル音声人形劇技術を提案しました。これは、潜在 3D モデル空間を使用する DeepSpeech リカレント ニューラル ネットワークに基づいています。Audio2ExpressionNet は、入力音声を特定の表情に変換する役割を果たします。

Li et al. [45] は、顔の残りの半分を使用して欠落したピクセルを再構築するための対称一貫性畳み込みニューラル ネットワークである SymmFCNet を提案しました。SymmFCNet には、照明の再重み付け変形と生成再構成サブネットワークが含まれています。複数のネットワークに依存することは、大きな欠点です。

Han ら [46] は、顔の特徴を変更して 3D 似顔絵写真を作成するスケッチ システムを提案しました。頂点顕著性マップを取得するために、型破りな深層学習アプローチが考案されました。彼らはトレーニングとテストに FaceWarehouse データセット [20] を使用しています。利点は、2D 画像を 3D 似顔絵モデルに変換できることです。ただし、メガネがあると漫画の品質が低下します。さらに、再構成はさまざまな照明条件の影響を受けます。

[47] は、3D 顔表面分布をモデル化するために 3DFaceGAN などのオートエンコーダを実装しました。生成器と弁別器には再構成損失と敵対的損失が使用されます。欠点は、GAN のトレーニングが難しく、リアルタイム 3D 顔ソリューションに適用できないことです。

2.3 EG ベースの再構成

エピポーラ幾何学に基づく顔再構成法は、同じ被写体の複数の非合成透視画像を使用して、単一の 3D 画像を生成します [48]。これらの技術の主な利点は、幾何学的忠実度が高いことです。カメラと正投影画像の調整は、これらの技術が直面する 2 つの大きな課題です。図 9 は、中央ビューとサブアパーチャ画像から得られた水平および垂直エピポーラ面画像 (EPI) を示しています。

図 9: a 3D 顔面曲線に対応するエピポーラ平面画像、b 水平 EPI、c 垂直 EPI [48]

Anbarjafari et al. [49] は、携帯電話のカメラでキャプチャされた 3D 顔を生成するための新しい技術を提案しました。合計 68 個の顔ランドマークを使用して、顔を 4 つの領域に分割します。テクスチャの作成、ウェイト領域の作成、モデルのモーフィングおよび合成中に、さまざまなステージが使用されます。この手法の主な利点は、特徴点から得られる優れた汎化能力です。ただし、頭部の形状が良好なデータセットに依存しているため、全体の品質に影響します。

2.4 OSL ベースの再構成

ワンショット学習ベースの再構成方法では、個人の単一画像を使用して 3D 認識モデルを再作成します [50]。この手法では、各被験者の 1 つの画像を利用してモデルをトレーニングします。結果として、これらの手法はより速くトレーニングできると同時に、有望な結果も得られます [51]。ただし、このアプローチをビデオに一般化することはできません。現在、単発学習に基づく 3D 再構成が活発な研究分野となっています。

2D 画像から 3D 画像へのマッピング モデルをトレーニングするには、現実的な 3D モデルが必要です。研究者の中には、深度予測を使用して 3D 構造を再構築する人もいます [52、53]。一方、他の技術は 3D 形状を直接予測します [54、55]。1 つの 2D 画像を利用して 3D 顔再構成を実行した研究はほとんどありません [38、39]。

ディープ ニューラル ネットワークとモデル パラメーター ベクトルを使用することで、3D 顔の最適なパラメーター値を取得できます。[56、57] では大幅な改善が行われました。ただし、このアプローチではポーズのバリエーションを適切に処理できません。この技術の主な欠点は、マルチビュー 3D 顔の作成と再構成の劣化です。図 10 は、シングルショットベースの顔再構成技術の一般的なフレームワークを示しています。

図 10: OSL ベースの 3D 顔再構成の全体的なフレームワーク

Xing et al. [58] は、実際の 3D 形状を考慮せずに、単一の画像を使用して 3D 顔を再構成する手法を提案しました。顔モデルのレンダリングは再構成プロセスで使用されます。微調整ガイド付き方法を使用してフィードバックを送信し、レンダリング品質をさらに向上させます。この技術は、2D 画像から 3D 形状を再構成する方法を提供します。ただし、前処理に剛体変換を使用するという欠点があります。

2.5 SFS ベースの再構築

形状復元 (SFS) 方法は、影と照明の手がかりから 3D 形状を復元することに基づいています [59、60]。良好な形状のモデルを生成する画像を使用します。ただし、形状推定がオブジェクトの影と干渉する場合、オクルージョンを処理できません。これは、正面以外の顔ビューでの照明とうまく機能します (図 11 を参照)。

図 11: 3D 顔形状の回復 a 2D 画像、b 3D 深度画像、c テクスチャ投影、d アルベド ヒストグラム [59]

Jiang et al. [61] の方法は、顔のアニメーションに RGB-D と単眼ビデオを使用することからインスピレーションを得ています。ターゲット 3D 顔の大まかな推定を行う計算は、入力画像にパラメトリック モデルを当てはめることによって行われます。この技術の主な欠点は、単一の 2D 画像から 3D 画像を再構成することです。対照的に、SFS 技術は、顔の対称性など、顔の幾何学形状に関する事前定義された知識に依存しています。

2.6 ハイブリッド学習に基づく再構成

ハイブリッド学習ベースの再構築

Richardson ら [38] は、幾何学的形状を使用してリアルな顔画像を含むデータベースを生成する手法を提案しました。提案されたネットワークは、ResNet モデル [62] を使用して構築されます。この技術では、顔の属性が異なる画像を復元することはできません。トレーニングプロセスを新人世代に一般化することはできません。

Liu et al. [63] は、3DMM ハイブリッドと形状復元手法を使用した 3D 顔再構成技術を提案しました。平均絶対誤差 (MAE) は、再構成誤差の収束のためにプロットされました。

Richardson et al. [39] は、粗い顔の形状から細かい顔の形状までを抽出するためのワンショット学習モデルを提案しました。CoarseNet と FineNet を使用した大まかな顔の特徴の回復。単一の画像内でしわを含む高詳細な顔の再構成。ただし、トレーニング データで利用可能な顔の特徴に一般化することはできません。合成データへの依存も欠点です。

Jackson et al. [51] は、単一の 2D 顔画像を使用して 3D 顔のジオメトリを再構成するための CNN ベースのモデルを提案しました。この方法では、顔の位置を調整する必要はありません。あらゆる種類の表情やポーズに適しています。

Tewari et al. [64] は、顔再構成のための畳み込みオートエンコーダ ネットワークに基づく生成モデルを提案しました。彼らは AlexNet [65] および VGGFace [66] モデルを使用しました。ただし、この方法は、ひげや外部の物体などの遮蔽では失敗します。

Dou et al. [67] は、単一の 2D 画像を使用してエンドツーエンドの 3D 顔を再構成するためのディープ ニューラル ネットワーク (DNN) ベースの技術を提案しました。顔認識にはマルチタスク損失関数と融合 CNN が混合されています。このアプローチの主な利点は、エンドツーエンド モデルによる簡素化されたフレームワークです。ただし、この方法には合成データに依存するという欠点があります。

Han ら [68] は、3D 顔および漫画モデリング用の CNN 深層学習ベースのスケッチ システムを提案しました。通常、豊かな表情はMAYAとZBrushで生成されます。ただし、これにはジェスチャーベースのユーザー対話が含まれます。形状レベルの入力は全結合層の出力と結合されて、双線形出力が生成されます。

Hsu et al. [69] は、2 つの異なるクロスポーズ顔認識方法を提案しました。1 つの手法は 3D 再構成に基づいており、もう 1 つはディープ CNN を使用して構築されています。顔コンポーネントは 2D 顔ライブラリから構築されます。3D サーフェスは 2D 顔コンポーネントを使用して再構築されます。CNN ベースのモデルは、実際の機能を簡単に処理できます。3D コンポーネントベースの方法は一般化できません。

Feng et al. [48] は、エピポーラ平面画像 (EPI) を使用して 3D 顔を復元する FaceLFnet を開発しました。CNN を使用して、垂直および水平の 3D 顔の曲線を復元します。リアルなライト フィールド画像は 3D 面を使用して合成されました。トレーニング中に 80 人の異なる人々の 14K の顔スキャンが使用され、合計 1,100 万の顔のカーブ/EPI が使用されました。このモデルは医療用途に最適です。ただし、この手法には多数のエピポーラ平面画像曲線が必要です。

Zhang et al. [70] は、プラスチックの顔と疎な測光ステレオの組み合わせを使用した 3D 顔再構成技術を提案しました。各画素の照明方向や高精度な照明に最適化技術を採用。入力画像と幾何学的プロキシに対してセマンティック セグメンテーションが実行され、しわ、眉毛、ほくろ、毛穴などの詳細が再構築されます。平均幾何学的誤差を使用して、再構成の品質を検証しました。このテクニックは顔に光を当てることに依存しています。

Tran et al. [71] は、凸面マッピングに基づいた 3D 顔再構成の手法を提案しました。畳み込みエンコーダー/デコーダー アプローチを使用して凸マップを推定します。Max pooling と Rectified Linear Units (ReLU) は畳み込み層で使用されます。この手法の主な欠点は、最適化されていないソフト対称の実装に時間がかかることです。

Feng et al. [72] は、135 人の 2K 顔画像からなるベンチマーク データセットを提案しました。提案されたデータセットに対して 5 つの異なる 3D 顔再構成方法が評価されます。

Feng et al. [73] は、位置マップ回帰ネットワーク (PRN) と呼ばれる、テクスチャ座標の UV 位置マップに基づく 3D 顔再構成技術を提案しました。CNN は、単一の 2D 画像から 3D 形状を回帰します。重み付き損失関数は、畳み込み中にさまざまな形式の重み、つまり重みマスクを使用します。UV 位置マップも一般化できます。ただし、実際のシナリオに適用するのは困難です。

[74] は、2D 画像から 3D 顔形状を回帰するためのエンコーダ/デコーダベースのネットワークを提案しました。関節損失は、3D 顔の再構成と認識エラーに基づいて計算されます。ただし、関節損失関数は顔の形状の品質に影響を与えます。

Chinaev ら [75] は、モバイル デバイスを使用した 3D 顔再構成のための CNN ベースのモデルを開発しました。MobileFace CNN はテスト段階で使用されました。このアプローチは、モバイル デバイスでのトレーニングが高速であり、リアルタイムで適用できます。ただし、前処理段階でプラスチック モデルを使用して 3D 顔に注釈を付けるにはコストがかかります。

Gecer et al. [27] は、DCNN と GAN に基づいた 3D 顔再構成技術を提案しました。UV 空間では、GAN を使用してジェネレーターをトレーニングし、顔のテクスチャを生成します。非従来型の 3DMM フィッティング戦略は、微分可能なレンダラーと GAN に基づいて定式化されます。

Deng et al. [76] は、弱教師あり学習のための CNN ベースのシングルショット顔再構成方法を提案しました。知覚レベルと画像レベルの損失を組み合わせたもの。この手法の利点は、ポーズとオクルージョンの不変性が大きいことです。ただし、予測段階では、オクルージョンの観点からモデルの信頼性は低くなります。

Yuan ら [77] は、遮蔽された顔に対して 3DMM と GAN を使用した 3D 顔復元技術を提案しました。ローカルディスクリミネーターとグローバルディスクリミネーターを使用して 3D 顔の品質を検証します。顔のランドマークのセマンティック マッピングにより、オクルージョンの下で合成顔が生成されます。対照的に、複数の識別子は時間の複雑さを増加させます。

Luo et al. [78] は、3D 顔復元にシャム CNN アプローチを実装しました。彼らは、重み付きパラメトリック距離コスト (WPDC) と対比コスト関数を使用して再構成法の品質を検証します。ただし、顔認識は実際にはテストされておらず、トレーニング画像の数も少ないです。

[79] は、高品質の 3D 顔を合成するための GAN ベースの方法を提案しました。条件付き GAN を使用した式の強化。10,000 の新しい個人アイデンティティが 300W-LP データセットからランダムに合成されました。この技術により、細部にまでこだわった高品質な 3D 顔が生成されます。ただし、GAN はトレーニングが難しく、リアルタイム ソリューションには適用できません。

Chen et al. [80] は、自己教師あり 3DMM トレーニング可能な VGG エンコーダを使用した 3D 顔再構成技術を提案しました。顔の詳細を再構築するための 2 段階のフレームワークを使用した 3DMM パラメータの回帰。通常のオクルージョンの下で高品質の面を生成します。UV 空間を使用して顔の詳細をキャプチャします。ただし、モデルは極端なオクルージョン、エクスプレッション、大きなポーズでは失敗します。CelebA [81] データセットはトレーニングに使用され、CelebA は LFW [82] データセットとともにテスト プロセスに使用されます。

Ren et al. [83] は、3D フェイス ポイント ビデオのブレを除去するためのエンコーダ/デコーダ フレームワークを開発しました。レンダリング ブランチと 3D 顔の再構成によるアイデンティティの知識と顔の構造の予測。ポーズが変化するビデオを扱う場合、顔のブレを除去するのは課題です。この手法の主な欠点は、計算コストが高いことです。

Tu et al. [10] は、2D 顔画像用の 2D 支援自己教師あり学習 (2DASL) 技術を開発しました。キーポイントからのノイズ情報を使用して、3D 顔モデルの品質を向上させます。自己批判的学習は、3D 顔モデルを改善するために開発されました。2 つのデータセット、つまり AFLW-LFPA [84] と AFLW2000-3D [85] は、3D 顔の復元と顔の位置合わせに使用されます。このアプローチは、ノイズの多いキーポイントだけでなく、実際の 2D 顔にもうまく機能します。ただし、2D から 3D へのキーポイントの注釈に依存します。

Liu et al. [86] は、PEN (Pose and Expression Normalization) 3D 顔を自動生成する方法を提案しました。この技術の利点は、単一の 2D 画像からの再構成と 3D 顔認識が姿勢や表情に影響を受けないことです。ただし、オクルージョンが不変ではありません。

Lin et al. [24] は、野生のシングルショット画像に基づいて 3D 顔を再構成する技術を実装しました。グラフ畳み込みネットワークを使用した高密度の顔のテクスチャの生成。FaceWarehouse [20] および CelebA [81] データベースはトレーニングに使用されます。

Ye ら [87] は、大規模な 3D 漫画データセットを提案しました。彼らは、コミック形状の PCA ベースの線形 3D プラスチック モデルを生成しました。6.1K の似顔絵画像が pinterest.com と WebCaricature データセットから収集されています [88]。ハイクオリティな3Dコミックが合成されています。ただし、オクルージョンされた入力顔画像の場合、似顔絵の品質は良くありません。

Lattas et al. [89] は、任意の画像を使用して高品質の 3D 顔再構成を生成する手法を提案しました。200 の異なる対象からなる大規模データベースが、幾何学と反射率に基づいて収集されました。画像変換ネットワークをトレーニングして、鏡面アルベドと拡散アルベドを推定します。この技術では GAN を使用して高解像度のアバターを生成します。ただし、褐色肌テーマのアバターは生成できません。

Zhang et al. [90] は、マンガ向けの自動キーポイント検出および 3D 顔復元技術を提案しました。マンガの 2D 画像を使用して、3D マンガの方向と形状を回帰します。ResNet モデルは、入力画像を潜在空間にエンコードするために使用されます。デコーダは完全に接続されたレイヤーとともに使用され、似顔絵上に 3D キーポイントを生成します。

Deng et al. [91] は、さまざまなポーズ、表情、照明で偽の人物を表現するための DISentangled 正確に制御可能な (DiscoFaceGAN) 潜在埋め込みを提案しました。レンダリングされた顔を実際の顔と比較することにより、もつれの解消を容易にするために、対照学習が採用されています。顔の生成は、表情、ポーズ、照明において正確です。生成されたモデルの品質は、低光量や極端なポーズでは低下します。

Li et al. [92] は、粗いから細かい推定を使用して 3D 顔の姿勢を推定するための 3D 顔再構成技術を提案しました。適応重み付け方法を使用して 3D モデルを生成します。この手法の利点は、部分的なオクルージョンや極端なポーズに対する堅牢性です。ただし、遮蔽されたときに 2D および 3D キーポイントが誤って推定されると、モデルは失敗します。

Chaudhuri et al. [93] は、パーソナライズされた動的アルベド マップと表現力豊かなブレンド形状をトレーニングするための深層学習方法を提案しました。写真のようにリアルな方法で 3D 顔の修復物を生成します。顔解析損失とブレンド形状勾配損失は、再構築されたブレンド形状の意味論的な意味を捉えます。この技術は実際のビデオでトレーニングされ、高品質の 3D 顔と、ある人から別の人への顔の動きの伝達を生成しました。外部閉塞下ではうまく機能しません。

Shang et al. [94] は、オクルージョンを意識したビュー合成のための自己教師あり学習手法を提案しました。多次元整合性は、深さ整合性損失、ピクセル整合性損失、およびキーポイントベースのエピポーラ損失という 3 つの異なる損失関数を使用して実行されます。再構築はオクルージョンを意識した方法で行われます。外部の遮蔽物 (手、眼鏡など) がある場合には適切に機能しません。

Cai et al. [95] は、2.5D 画像を使用して 3D 顔再構成が可能な注意誘導 GAN (AGGAN) を提案しました。AGGAN はオートエンコーダー技術を使用して、深度画像から 3D ボクセル画像を生成します。アテンションベースの GAN を使用した 2.5D から 3D への顔マッピング。このテクニックは、さまざまな頭のポーズや表現に対応します。ただし、口を大きく開けた場合、顔の表情を完全に再現することはできません。

Xu et al. [96] は、3D ベンチマーク データを使用せずに頭部形状モデルをトレーニングする方法を提案しました。CNN を使用して、最適化を行わずに頭部ジオメトリを含む深部合成画像をトレーニングします。GAN と 3D ワーピングを使用した頭のポーズの操作。

表 1 は、3D 顔再構成技術の比較分析を示しています。

表 1: 3D 顔再構成技術の比較分析

表 2 は、3D 顔再構成技術の長所と短所をまとめたものです。

表 2: 3D 顔再構成技術の長所と短所の比較

3 性能評価基準

パフォーマンス評価の尺度は、トレーニングされたモデルの品質を理解するために重要です。平均絶対誤差 (MAE)、平均二乗誤差 (MSE)、正規化平均誤差 (NME)、二乗平均平方根誤差 (RMSE)、クロスエントロピー損失 (CE)、曲線下面積 ( AUC )、交差対和比(IoU)、ピーク信号対雑音比(PSNR)、受信機動作特性曲線(ROC)、および構造類似性指数(SSIM)。

表 3 は、3D 顔再構成技術の性能評価尺度をまとめたものです。

表 3: パフォーマンス指標からの 3D 顔再構成技術の評価

顔の再構成中に最も重要なパフォーマンス評価尺度は、MAE、MSE、NME、RMSE、および敵対的損失です。これらは、パフォーマンス評価の 5 つの広く使用されている尺度です。敵対的損失は、3D 画像での GAN の出現により 2019 年から使用されています。

顔認識用の 4 つのデータセット

表 4 は、3D 顔再構成技術に使用されるデータセットの詳細な説明を示しています。

表 4: 使用したデータセットの詳細な説明

さまざまなデータセットの分析により、ほとんどの 3D 顔データセットが公的に利用可能なデータセットであるという事実が浮き彫りになります。2D 顔の公開データセットと比較すると、モデルをトレーニングするのに十分な数の画像がありません。スケーラビリティ要素がまだテストされておらず、活発な研究領域となっているため、3D 顔の研究はより興味深いものになっています。オクルージョン除去用のオクルージョン画像が存在するのは、Bosphorus、Kinect-FaceDB、UMDBB データセットの 3 つのデータセットのみであることに言及する価値があります。

3D 顔再構成のための 5 つのツールとテクニック

表 5 は、グラフィックス プロセッシング ユニット (GPU) ハードウェア、ランダム アクセス メモリ (RAM) サイズ、中央処理装置 (CPU)、および簡単なアプリケーションの観点から使用されるテクノロジを示しています。この比較は、3D 顔再構成におけるディープラーニングの重要性を強調しています。GPU は、ディープラーニング ベースのモデルにおいて重要な役割を果たします。Google Collaboratory の出現により、GPU は無料で利用できるようになりました。

表 5: 3D 顔再構成技術、ハードウェア、およびアプリケーションの比較分析

6 アプリケーション

AI+X テクノロジー [128] (X は顔認識分野の専門知識) に基づいて、多数のアプリケーションが 3D 顔再構成の影響を受けます。顔の操作、音声によるアニメーションと再生、ビデオ ダビング、バーチャル メイクアップ、プロジェクション マッピング、顔の置換、顔の老化、医療における 3D プリンティングなどは、よく知られたアプリケーションの一部です。これらのアプリケーションについては、次のサブセクションで説明します。

6.1 顔の操作

ゲーム業界や映画業界では、ビデオベースの顔アニメーションで顔の複製や操作を使用しています。表情や感情はビデオストリームを通じてユーザーからターゲットキャラクターに伝達されます。アーティストが映画の中でアニメーション キャラクターの声を担当する場合、3D 顔の再構成はアーティストの表情をキャラクターに伝えるのに役立ちます。図 12 は、デジタル化されたアバターのリアルタイム デモンストレーションにおける操作の例を示しています [129、130]。

図 12: リアルタイムの顔の人形劇 [129]

6.2 音声によるアニメーションと再生

Zollhofer et al. [1] は、さまざまなビデオベースの顔の演出作品について説明しています。ほとんどの方法は、パラメトリック顔モデルを使用したソース顔とターゲット顔の再構築に依存しています。図 13 は、ニューラル音声操作のためのパイプライン アーキテクチャを示しています [44]。オーディオ入力は、リカレント ニューラル ネットワークに基づくディープ スピーチを通じて特徴抽出されます。さらに、オートエンコーダベースの表現機能は 3D モデルとともにニューラル レンダラーに転送され、音声駆動のアニメーションを受け取ります。

図 13: ニューラル音声人形

6.3 ビデオダビング

ダビングは、元のシーンにオーディオ トラックを追加または置き換える映画制作の重要な部分です。元の俳優の声を声優の声に置き換える必要があります。このプロセスでは、声優が元の俳優に音声を口パクするための十分なトレーニングが必要です [131]。視覚的な吹き替えにおける不一致を最小限に抑えるには、声優が話すセリフを補うために口唇合成を動的に再構築する必要があります。これには、声優の口の動きを俳優の口の動きにマッピングすることが含まれます [132]。したがって、画像を交換したりパラメータを渡したりする技術が使用されます。

図 14 は、ライブ ダビングが有効になっている VDub [131] と Face2Face のビジュアル ダビングを示しています。図 14 は、6.S191 [133] の DeepFake の例を示しており、ディープラーニングを使用して自分の声を有名人の声に吹き替えるコース講師の例を示しています。

図 14: 6.S191 [133] の DeepFake の例

6.4 バーチャルメイクアップ

バーチャル メイクアップの使用は、会議やビデオ チャットなどのオンライン プラットフォームで非常に一般的であり、見栄えを良くすることが不可欠です。これには、適切な口紅やフェイスマスクの適用などのデジタル画像の変更が含まれます。これは、消費者が画像上でリアルタイムに製品の効果を体験できるデジタル広告を掲載できるため、美容製品会社にとっては最適です。これは、さまざまな再構成アルゴリズムを使用することで実現されます。

合成仮想タトゥーは顔の表情に適応することが示されている [134] (図 15a を参照)。

Viswanathan et al. [135] は、2 つの顔画像 (1 つは目を開けた状態、もう 1 つは目を閉じた状態) を入力として取得するシステムを提案しました。拡張現実の顔は、顔に 1 つまたは複数のメイクアップの形状、レイヤー、色、およびテクスチャを追加するために提案されています。

Nam et al. [136] は、図 15b に示すように、ポリゴンごとのメイクアップではなくピクセルごとのメイクアップを使用する拡張現実ベースのリップ メイクアップ方法を提案しました。

図 15: 合成仮想タトゥー [134] と、拡張現実に基づくピクセル単位の口紅メイクアップ [136]

6.5 プロジェクションマッピング

プロジェクションマッピングは、プロジェクターを使用して現実世界の映像の性格や表現を変更します。この技術は、静止画像に命を吹き込み、視覚的なプレゼンテーションを与えるために使用されます。2D映像と3D映像で異なる手法を用いて人の見え方を変えるプロジェクションマッピング。図 16 は、Face-Forge [137] という名前のリアルタイム プロジェクション マッピング システムを示しています。

図 16: FaceForge に基づくリアルタイム プロジェクション マッピング [137]

Lin et al. [24] は、入力画像を CNN に通し、その情報を 3DMM と組み合わせて顔の微細なテクスチャを取得する 3D 顔投影技術を提案しました (図 17 を参照)。

図 17: 3DMM モデルと組み合わせた 2D サーフェス投影マッピング [24]

6.6 顔の置換

顔の置換はエンターテインメント業界で一般的に使用されており、ソースの顔がターゲットの顔に置き換えられます。この技術は、アイデンティティ、顔の特徴、2 つの顔 (ソースとターゲット) の表情などのパラメータに基づいています。ソース面は、ターゲット面の条件と一致するようにレンダリングする必要があります。映画およびアニメーション業界で広く使用されているツールである Adob​​e After Effects は、顔の置換に役立ちます [138] (図 18 を参照)。

図 18: 表情が変化しない顔置換システム [138]

6.7 顔の老化

顔の老化は、3D 顔画像を 4D に変換する効果的な手法です。老朽化した GAN を使用して単一の 3D 画像を合成できれば、4D データセットの作成に役立ちます。顔の老化は、その特徴を変えることによって顔が「復活」するため、老化の進行または老化の合成としても知られています。元のイメージを維持するために、さまざまなテクニックを使用して顔の特徴を強調します。図 19 は、年齢条件付き GAN (ACGAN) [139] を使用した顔の変換のプロセスを示しています。

図 19: ACGAN を使用した顔の変換 [139]

Shi et al. [140] は、顔の部位が異なると時間の経過とともに老化速度が異なるため、顔の老化に GAN を使用しました。したがって、彼らは、正規化を備えたアテンションベースの条件付き GAN を使用して、区分的な顔の老化を処理します。

Fang et al. [141] は、GAN ジェネレーターレベルで三重項損失関数を使用した漸進的顔老化法を提案しました。複雑な変換損失は、顔の老化に効果的に対処するのに役立ちます。

Huang et al. [142] は、プログレッシブ GAN を使用して、同一性の保持、高忠実度、老化の正確さなど、顔の老化の 3 つの側面に対処しました。[143] は、入力顔画像の潜在空間を操作して顔の老化を制御するための制御可能な GAN を提案しました。

Yadav et al. [144] は、同じ人物の 2 つの異なる画像を使用して、さまざまな年齢差の下での顔認識の方法を提案しました。

Sharma et al. [145] は、CycleGAN のパイプラインを年齢の進行に使用し、高忠実度の融合 GAN のために強化された超解像度 GAN を使用しました。

[146] は、若々しい顔をモデル化し、顔の外観と幾何学的な変化をモデル化するための顔の老化方法を提案しました。

表 6 に示すように、顔の再構成は 3 つの異なるタイプの設定で使用できます。顔の操作、音声駆動のアニメーション、および顔の再現はすべて、アニメーションベースの顔の再構築の例です。顔の置換とビデオ ダビングは、ビデオ ベースのアプリケーションの 2 つの例です。顔の老化、バーチャル メイクアップ、プロジェクション マッピングは、最も一般的な 3D フェイシャル アプリケーションの一部です。

表 6: 3D 顔再構成技術の応用

7 つの課題と今後の研究の方向性

このセクションでは、3D 顔再構成中に直面する主な課題について説明し、その後、今後の研究の方向性について説明します。

7.1 現在の課題

3D 顔再構成における現在の課題には、咬合除去、メイクアップ除去、表情転写、年齢予測などがあります。これらについては次のサブセクションで説明します。

7.1.1 閉塞の除去

オクルージョンの除去は、3D 顔再構成にとって困難な作業です。研究者はボクセルと 3D ランドマークを使用して 3D 顔のオクルージョンを処理しています [2、8、9]。

Sharma と Kumar [2] は、ボクセルベースの顔再構成技術を開発しました。再構成プロセスの後、変分オートエンコーダー、双方向 LSTM、および三重項損失でトレーニングされたパイプラインを使用して、3D 顔認識を実現します。

Sharma と Kumar [20] は、ボクセルベースの顔の再構成および認識方法を提案しました。彼らは、ゲーム理論に基づいたジェネレーターとディスクリミネーターを使用してトリプレットを生成します。欠落した情報が再構築された後、オクルージョンが除去されます。Sharma と Kumar [22] は、3D 顔ランドマークを使用したワンショット学習 3D 顔再構成技術を構築しました (図 20 を参照)。

図 20: 顔のランドマークに基づく 3D 顔再構成 [9]

7.1.2 化粧品の塗布と除去

新型コロナウイルス感染症のパンデミック下でのバーチャル会議中にメイクアップとメイク落としを行うのは困難です [154-156]。

MakeupBag [154] は、メイクアップ分離と顔のメイクアップの問題を解決することにより、メイクアップ スタイルの自動転送技術を提案しています。MakeupBag の主な利点は、メイクアップを転写するときに肌の色調と色が考慮されることです (図 21 を参照)。

図 21: 参照顔からターゲット顔に適用されたメイクアップの出力に基づく MakeupBag [154]。

Li et al. [155] は、メイクアップに依存しない顔検証システムを提案しました。彼らは、Semantic-Aware Makeup Cleaner (SAMC) を使用して、さまざまな表情やポーズで顔のメイクを落とします。この技術は、顔のメイクの領域を特定する際に教師なしで機能し、メイクの程度を表す 0 から 1 までのアテンション マップを使用します。

Horita と Aizawa [156] は、スタイルと潜在ベクトルによって導かれる敵対的生成ネットワーク (SLGAN) を提案しました。制御可能な GAN を使用して、ユーザーが化粧品のシェーディング効果を調整できるようにします (図 22 を参照)。

図 22: GAN ベースの化粧品の転写と除去 [156]

7.1.3 式の転送

発現の伝達は、特に GAN の出現により深刻な問題となっています。

Wu et al. [157] は、人間の表情をソースビデオからターゲットビデオに転送できる方法である ReenactGAN を提案しました。ソースからターゲットへの顔の変換には、エンコーダ/デコーダベースのモデルが採用されています。変圧器は、反復損失、敵対的損失、形状拘束損失という 3 つの損失関数を使用して評価されます。図 23 は、表情を再現したドナルド・トランプの画像を示しています。

図 23: ReenactGAN を使用した式の転送 [157]

顔の表情や文脈が異なるディープフェイクが懸念されます。

Nirkin et al. [158] は、身元操作と顔の置き換えを検出するためのディープフェイク検出方法を提案しました。ディープフェイク画像では、変更される顔を状況に応じて変更することで顔領域が操作されます。

[159] は、完全合成、アイデンティティ交換、顔属性操作、表情交換を含む 4 つのディープフェイク手法を調査しました。

7.1.4 年齢の予測

ディープフェイクと敵対的生成ネットワーク [140、142] のおかげで、図 24 に示すように、顔を他の年齢に変形させることができます。したがって、特に ID カードやソーシャル ネットワーキング プラットフォーム上の偽の顔において、自分の年齢を予測するという課題は想像を超えています。

図 24: 顔の進行性老化に対する GAN の結果 [142]

Fang et al. [141] は、GAN ベースの顔年齢シミュレーション技術を提案しました。提案された Triple-GAN モデルは、三重項変換損失を使用して年齢パターン間の相互関係をモデル化します。彼らは、年齢分類にエンコーダ/デコーダベースのジェネレータとディスクリミネータを使用します。

Kumar ら [160] は、GAN モデル [161] に基づいた潜在空間での強化学習を採用しています。彼らはセマンティック操作にマルコフ決定プロセス (MDP) を使用します。

[162] は、リアルな顔画像を生成する半教師あり GAN 技術を提案しました。彼らは、ネットワークをトレーニングする際に、実際のデータと対象年齢を使用して顔画像を合成しました。

Zhu et al. [163] は、アテンションベースの条件付き GAN 技術を使用して、ターゲットを絞った忠実度の高い顔画像を合成しました。

7.2 今後の課題

教師なし学習は、3D 顔再構成において依然として未解決の問題です。最近、[164] は 3D 対称変形可能オブジェクトのソリューションを提案しました。この論文では、唇の再構成、歯と舌のキャプチャ、目とまぶたのキャプチャ、髪型の再構成、頭全体の再構成など、将来の 3D 顔再構成の可能性について詳しく説明します。これらの課題は、3D 顔再構成の分野で研究する研究者にとって課題となります。

7.2.1 唇の再構成

唇は口腔領域の最も重要な構成要素の 1 つです。さまざまな有名人が口唇リフト、口唇縮小、口唇増大などの唇の手術を受けています[165、166]。

Heidekrueger ら [165] は、女性が好む唇のプロポーションを調査しました。性別、年齢、職業、国が下唇の比率の好みに影響を与える可能性があると結論付けられました。

上唇の美学は Baudoin らによって検討されました [166]。フィラーから皮膚剥離術、外科的切除まで、さまざまな治療オプションが検討されています。

Zollhofer et al. [1] は、図 25 に 3D 顔再構成の応用として唇の再構成を示しています。[167] では、唇のビデオが唇の回転、伸縮、曲げを再構成しています。

図 25: 高品質の唇の再構成 [1]

7.2.2 歯と舌の捕捉

文献では、口腔内部の捕捉に焦点を当てた研究はほとんどありません。GAN ベースの 2D 顔再構成で歯と舌を再構成するのは困難な作業です。あごひげや口ひげがあると、歯や舌が引っかかりにくくなることがあります。[163] では、統計モデルについて説明しています。歯科領域を再構成するには、顔の形状に基づいてデジタル アバターや歯の修復のコンテンツを作成するなど、さまざまなアプリケーションがあります (図 26 を参照)。

図 26: 歯の再建とその応用 [168]

7.2.3 目とまぶたのキャプチャ

[170] は、RGB ビデオからの 3D 視線推定と顔の再構成を実証しました。

Wen et al. [169] は、3D まぶたのリアルタイム追跡および再構成のための技術を提案しました (図 27 を参照)。このアプローチを顔および目の追跡システムと組み合わせて、詳細な目の領域を備えたフルフェイスを実現します。[171] では、まぶたの追跡に双方向 LSTM が使用されました。

図 27: セマンティック エッジに基づくまぶたの追跡 [169]

7.2.4 髪型の再構築

3D 顔ではヘアスタイルの再構築は困難な作業です。体積変分オートエンコーダ [172] に基づく 3D 毛髪合成を図 28 に示します。

図 28: 体積変分オートエンコーダを使用した 3D 毛髪合成 [172]

Yeら[173]は、エンコーダ・デコーダ技術に基づいた毛髪再構成モデ​​ルを提案した。ヘアスタイルベースの方向マップを使用して体積ベクトル フィールドを生成します。彼らは、エンコーダー/デコーダー形式のアーキテクチャを生成するときに、CNN レイヤー、スキップ接続、完全接続レイヤー、およびデコンボリューション レイヤーを組み合わせて使用​​しました。トレーニング中に、構造的損失とコンテンツ損失が評価指標として使用されます。

7.2.5 頭部の完全な再構築

3D 頭部再構築は活発な研究分野です。

He et al. [174] は、完全な頭部主導の 3D 顔再構成を提案しました。入力画像と再構成結果は、サイドビュー テクスチャを使用して生成されました (図 29 を参照)。彼らは、頭部のテクスチャ マップを補完するためにアルベド パラメトリック モデルを採用しました。畳み込みネットワークは、顔と髪の領域のセグメンテーションに使用されます。人間の頭部の再構成は、仮想現実やアバターの生成にさまざまな応用が可能です。

図 29: 頭部の完全な再建 [174]

課題と今後の方向性、対象となる課題を表7に示します。

表 7: 3D 顔再構成の課題と今後の研究の方向性

8 結論

この文書では、3D 顔再構成技術の詳細な調査と徹底的な研究を提供します。

最初に 6 つの再構成手法について説明します。3D 顔には十分な規模の公的に利用可能なデータセットがないため、スケーラビリティが 3D 顔問題の最大の課題であることが観察されています。ほとんどの研究者は RGB-D 画像に取り組んできました。

深層学習の発展に伴い、グリッド画像やボクセル画像を操作するにはハードウェアの制約があります。

現実世界での 3D 顔再構成に関連する現在および将来の課題について説明します。この分野は、多くの課題、特に敵対的生成ネットワーク (GAN) とディープフェイクの機能に関連する課題を抱えるオープンな研究領域です。存在する

  • 唇の再建
  • 口腔内部再建
  • まぶたの再建
  • さまざまなヘアスタイル
  • 完全な頭部再建

一方で、この研究は十分に調査されていません。

利益相反の宣言: すべての著者を代表して、責任著者は利益相反がないことを宣言します。

参考文献

  1. Zollhöfer M、Thies J、Garrido P et al (2018) 単眼 3D 顔の再構築、追跡、およびアプリケーションにおける最近の進歩. Computational Graphics Forum 37(2):523–550. https://doi.org/10.1111/cgf.13382
  2. Sharma S、Kumar V (2020) 逐次深層学習を使用したボクセルベースの 3D 顔再構築と顔認識へのその応用 マルチメディア ツール アプリケーション 79:17303–17330. https://doi.org/10.1007/s11042- 020-08688-バツ
  3. Cloud Vision API | Google Cloud. https://cloud.google.com/vision/docs/face-tutorial. アクセス日: 2021 年 1 月 12 日
  4. AWS Marketplace: Deep Vision API. https://aws.amazon.com/marketplace/pp/Deep-Vision-AI-Inc-Deep-Vision-API/B07JHXVZ4M. 2021 年 1 月 12 日にアクセス
  5. Computer Vision | Microsoft Azure. https://azure.microsoft.com/en-in/services/cognitive-services/computer-vision/. 2021 年 1 月 12 日にアクセス
  6. Koujan MR、Dochev N、Roussos A (2020) LSFM モデルを使用したリアルタイム単眼 4D 顔再構成プレプリント arXiv:2006.10499。
  7. Behzad M、Vo N、Li X、Zhao G (2021) 顔読み取りを超えたスパース認識 4D 感情認識に向けて. Neural Computing 458:297–307
  8. Sharma S、Kumar V (2020) ゲーム理論とシミュレーテッド アニーリングを使用したボクセル ベースの 3D オクルージョン不変顔認識マルチメディア ツールとアプリケーション 79(35):26517–26547
  9. Sharma S、Kumar V (2021) 変分オートエンコーダーと三値損失を使用した認識のための 3D ランドマークベースの顔の回復. IET Biometrics 10(1):87–98. https://doi.org/ 10.1049/bme2.12005
  10. Tu X、Zhao J、Xie M 他 (2020) 野生における 2D 顔画像による単一画像 3D 顔再構成. IEEE Trans Multimed 23:1160–1172. https://doi.org/10.1109/TMM. 2020.2993962
  11. Bulat A、Tzimiropoulos G 2D と 3D の顔の位置合わせの問題はどの程度解決に近づいていますか? (および 230,000 の 3D 顔ランドマークのデータセット) In: Proceedings of the IEEE International Conference on Computer Vision (ICCV)、pp. 1021–1030
  12. Zhu X、Lei Z、Liu X 他 (2016) 大きなポーズにわたる顔の位置合わせ: 3D ソリューション、コンピューター ビジョンとパターン認識 (CVPR)、146 ~ 155 ページ
  13. Gu S、Bao J、Yang H 他 (2019) 条件付き GAN を使用したフェイスマスクガイドによるポートレート編集. In: Proceedings of the 2019 IEEE Computer Community Conference on Pattern Recognition in Computer Vision 2019- June:3431–3440. doi: https: https://doi.org/10.1109/CVPR.2019.00355
  14. Guo Y、Wang H、Hu Q 他 (2020) 3D 点群のための深層学習: 調査. IEEE Trans Pattern Anal Mach Intell 43(12):4338–4364. https://doi.org/10.1109/tpami .2020.3005434
  15. Ye M、Shen J、Lin G、他 (2021) 人物 Re-ID のためのディープラーニング: 調査と展望. IEEE Trans Pattern Anal Mach Intell 8828:1–1. https://doi.org/10.1109/tpami .2021.3054775
  16. Tran L、Liu X 非線形 3D 顔形態モデル、In: Proceedings of IEEE Con​​ference on Computer Vision and Pattern Recognition、ページ: 7346 ~ 7355
  17. Egger B、Smith WAP、Tewari A 他 (2020) 3D Morphological Facial Models—Past, Present, and Future. ACM Trans Graph 39(5):1–38. https://doi.org/10.1145/3395208
  18. Blanz V、Vetter T (1999) 3D 形態学的モデル フィッティングに基づく顔認識、IEEE Trans Pattern Anal Mach Intell 25(9):1063–1074
  19. Booth J、Roussos A、Ponniah A 他 (2018) Large-Scale 3D Morphological Models. Int J Comput Vis 126:233–254. https://doi.org/10.1007/s11263-017-1009-7
  20. Cao C、Weng Y、Zhou S 他 (2014) FaceWarehouse: A 3D Facial Expression Database for Visual Computing. IEEE Trans Vis Comput Graph 20:413–425. https://doi.org/10.1109/TVCG.2013.249
  21. Gerig T、Morel-Forster A、Blumer C et al. (2018) 形態学的顔モデル - オープン フレームワーク. In: Proceedings of the 13th IEEE International Conference on Automatic Facial Gesture Recognition, FG. ページ: 75–82. https:/ /doi.org/10.1109/FG.2018.00021
  22. Huber P、Hu G、Tena R 他 (2016) 多重解像度 3D 形態学的顔モデルとフィッティング フレームワーク. In: Proceedings of the 11th Joint Conference on Theory and Applications of Computer Vision, Imaging, and Computer Graphics, p. 79 –86.サイテプレス。
  23. Li T、Bolkart T 他 (2017) 4D スキャンからの顔の形状と表情のモデルの学習. ACM Trans Graphics 36(6):1–17. https://doi.org/10.1145/3130800.3130813
  24. Lin J、Yuan Y、Shao T、Zhou K (2020) グラフ畳み込みネットワークを使用した高忠実度 3D 顔再構成、コンピューター ビジョン パターン認識 (CVPR)、https://doi.org/10.1109/cvpr42600.2020.00593
  25. Paysan P、Knothe R、Amberg B 他 (2009) 姿勢および照明不変の顔認識のための 3D 顔モデル. 参加: 第 6 回 IEEE 国際会議先進ビデオおよび信号ベースの監視、AVSS 2009. ページ: 296–301
  26. Kim D、Hernandez M、Choi J、Medioni G (2018) Deep 3D Facial Recognition. IEEE International Joint Conference on Biometrics (IJCB)、IJCB 2017 2018- January:133–142. https://doi.org/10.1109/BTAS .2017.8272691
  27. Gecer B、Ploumpis S、Kotsia I、Zafeiriou S (2019) Ganfit: Generative Adversarial Networks を使用した高忠実度 3D 顔再構築. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition: 1155–1164. https:/ /doi .org/10.1109/CVPR.2019.00125
  28. Kim H、Garrido P、Tewari A 他 (2018) 深度ビデオ ポートレート、ACM Trans Graphics 37:1–14. https://doi.org/10.1145/3197517.3201283
  29. Maninchedda F、Oswald MR、Pollefeys M (2017) メガネをかけた顔の 3D モデルの高速再構成: コンピュータ ビジョンとパターン認識 (CVPR) に関する IEEE/CVF 会議 https://doi.org/10.1109/CVPR.2017.490
  30. Zhang S、Yu H、Wang T、他 (2018) 制約のない環境における単一深度画像からの密な 3D 顔の再構成、Virtual Reality 22(1):37–46. https://doi.org/10.1007/ s10055 -017-0311-6
  31. Jiang L、Wu X、Kittler J (2018) ポーズ不変 3D 顔面再構築. 1–8. arXiv プレプリント arXiv:1811.05295
  32. Wu F、Li S、Zhao T、他 (2019) ランドマーク変位を伴うカスケード回帰を使用した 3D 顔再構築. Pattern Recognition Letters 125:766–772. https://doi.org/10.1016/j.patrec.2019.07.017
  33. Kollias D、Cheng S、Ververas E 他 (2020) Deep Neural Network Augmentation: Generating Faces for Sentiment Analysis. International Journal of Computer Vision 128:1455–1484. https://doi.org/10.1007/s11263-020- 01304-3
  34. 4DFAB: 生体認証アプリケーション用の大規模 4D 顔表情データベース | DeepAI. https://deepai.org/publication/4dfab-a-large-scale-4d-facial-expression-database-for-biometric-applications. アクセス日 2020 年 10 月14
  35. Lyu J、Li X、Zhu X、Cheng C (2020) Pixel-Face: 3D 顔再構成のための大規模な高解像度ベンチマーク。arXiv 预印本 arXiv:2008.12444
  36. Zhu Z、Luo P、Wang X、Tang X (2013) 顔空間を保持するアイデンティティのための深層学習、掲載: コンピューター ビジョンに関する IEEE 国際会議議事録、電気電子学会、113 ~ 120 ページ
  37. Tang Y、Salakhutdinov R、Hinton G (2012) Deep Lambertian Networks. arXiv プレプリント arXiv:1206.6445
  38. Richardson E、Sela M、Kimmel R (2016) 合成データから学習することによる 3D 顔の再構築. In: Proceedings of 4th International Conference on 3D Vision 2016, 3DV 2016. Institute of Electrical and Electronics Engineers、pp. 460–467
  39. Richardson E、Sela M、Or-El R、Kimmel R (2017) 単一画像からの詳細な顔の再構成の学習、In: Proceedings of IEEE Con​​ference on Computer Vision and Pattern Recognition、pp. 1259–1268
  40. Laine S、Karras T、Aila T、他 (2016) ディープ ニューラル ネットワークを使用した顔の表現キャプチャ. arXiv プレプリント arXiv:1609.06536、3
  41. Nair V、Susskind J、Hinton GE (2008) 逆生成ブラック ボックスの学習による合成分析、In: International Conference on Artificial Neural Networks、pp. 971–981
  42. Peng X、Feris RS、Wang X、Metaxas DN (2016) 継続的な顔の位置合わせのためのリカレント エンコーダ/デコーダ ネットワーク、In: European Conference on Computer Vision、38 ~ 56 ページ。
  43. Zulqarnain Gilani S、Mian A (2018) 大規模な 3D 顔認識のための何百万もの 3D スキャンからの学習. In: Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 1896–1905. https:// doi .org/10.1109/CVPR.2018.00203
  44. Thies J、Elgharib M、Tewari A 他 (2019) ニューラルサウンド操作: オーディオ駆動の顔の再現、In: European Conference on Computer Vision、pp. 716–731
  45. Li X、Hu G、Zhu J 他 (2020) Learning Symmetrically Consistent Deep CNNs for Face Completion. IEEE Transactions on Image Processing 29:7641–7655. https://doi.org/10.1109/TIP.2020.3005241
  46. Han X、Hou K、Du D、他 (2020) CaricatureShop: パーソナライズされた写真レベルの似顔絵スケッチ。IEEE Transactions on Vision and Computer Graphics 26:2349–2361. https://doi.org/10.1109/TVCG.2018.2886007
  47. Moschoglou S、Ploumpis S、Nicolaou MA 他 (2020) 3DFaceGAN: 3D 顔表現、生成、変換のための敵対的ネットワーク。International Journal of Computer Vision 128(10):2534–2551. https://doi.org/10.1007/s11263-020-01329-8
  48. Feng M、Zulqarnain Gilani S、Wang Y 他 (2018)「ライト フィールド画像からの 3D 顔再構成: モデルフリーのアプローチ」。コンピューター サイエンスの講義ノート (人工知能の講義ノート サブシリーズおよびバイオインフォマティクスの講義ノート サブシリーズを含む) 11214 LNCS: 508–526. https://doi.org/10.1007/978-3-030-01249-6_31
  49. Anbarjafari G、Haamer RE、LÜSi I 他 (2019) 「仮想現実ベースのソーシャル メディアに携帯電話を使用した、地域ベースのベストフィット フュージョンによる 3D 顔の再構築」。ポーランド科学アカデミーの科学紀要. 67: 125–132. https://doi.org/10.24425/bpas.2019.127341
  50. Kim H、Zollhöfer M、Tewari A、他 (2018) 「InverseFaceNet: Deep Monocular Inverse Rendering」。コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、4625 ~ 4634 ページ。
  51. Jackson AS、Bulat A、Argyriou V、Tzimiropoulos G (2017) 「直接ボリューム CNN 回帰による単一画像からの大きなポーズの 3D 顔の再構成」。コンピュータ ビジョンに関する IEEE 国際会議議事録、2017 年 10 月:1031–1039。https://doi.org/10.1109/ICCV.2017.117
  52. Eigen D、Puhrsch C、Fergus R (2014) 「マルチスケール深層ネットワークを使用した単一画像からの深度マップの予測」。プレプリント arXiv:1406.2283。
  53. Saxena A、Chung SH、Ng AY (2008) 「単一の静止画像からの 3 次元深度再構成」。インターナショナル ジャーナル オブ コンピューター ビジョン 76:53–69。https://doi.org/10.1007/s11263-007-0071-y
  54. Tulsiani S、Zhou T、Efros AA、Malik J (2017) 「微分可能な光線の一貫性による単一ビュー再構築のためのマルチビュー監視」。コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、2626 ~ 2634 ページ。
  55. Tatarchenko M、Dosovitskiy A、Brox T (2017) 「オクツリー生成ネットワーク: 高解像度 3D 出力のための効率的な畳み込みアーキテクチャ」。コンピューター ビジョンに関する IEEE 国際会議議事録、2088 ~ 2096 ページ。
  56. Roth J、Tong Y、Liu X (2016) 「制約のない写真コレクションからの 3D 顔の適応的再構成」。コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、4197 ~ 4206 ページ。
  57. Kemelmacher-Shlizerman I、Seitz SM (2011)「野生における顔の再構築」。コンピューター ビジョンに関する IEEE 国際会議議事録、1746 ~ 1753 ページ。
  58. Xing Y、Tewari R、Mendonça PRS (2019) 「単一画像 3D 顔再構成のための自己監視ガイド付き手法」。2019 IEEE Winter Conference on Applied Computational Vision の議事録、WACV 2019:1014–1023。https://doi.org/10.1109/WACV.2019.00113
  59. Kemelmacher-Shlizerman I、Basri R (2011) 「単一の基準面形状を使用した単一の画像からの 3D 顔の再構築」。パターン分析とマシン インテリジェンスに関する IEEE トランザクション 33:394–405。https://doi.org/10.1109/TPAMI.2010.63
  60. Sengupta S、Lichy D、金沢 A 他 (2020) 「SfSNet: 野生の顔の形状、アルベド、およびイルミネーションの学習」。IEEE パターン分析とマシン インテリジェンス トレーディング。https://doi.org/10.1109/TPAMI.2020.3046915
  61. Jiang L、Zhang J、Deng B、他 (2018) 「単一画像からの幾何学的詳細を備えた 3D 顔の再構成」。画像処理に関する IEEE トランザクション 27:4756–4770。https://doi.org/10.1109/TIP.2018.2845697
  62. He K、Zhang X、Ren S、Sun J (2016) 「画像認識のための深層残差学習」。『コンピュータ ビジョンとパターン認識に関する IEEE 会議議事録』、770 ~ 778 ページ。
  63. Liu F、Zeng D、Li J、Zhao Q、jun (2017) 「形状空間におけるカスケード回帰による 3D 顔の再構成」。情報技術と電子工学のフロンティア 18:1978–1990。https://doi.org/10.1631/FITEE.1700253
  64. Tewari A、Zollhöfer M、Kim H 他 (2017) MoFA: 教師なし単眼再構成のためのモデルベースの深層畳み込み顔面オートエンコーダー。参照: 2017 IEEE International Conference on Computer Vision の作業議事録、ICCVW 2017 2018-Janua:1274-1283。https://doi.org/10.1109/ICCVW.2017.153
  65. Krizhevsky A、Sutskever I、Hinton GE (2012) ImageNet 分類のための深層畳み込みニューラル ネットワーク。神経情報処理システムの進歩 25: 1097-1105
  66. オックスフォード ビジュアル ジオメトリ グループ。http://www.robots.ox.ac.uk/~vgg/data/vgg_face/。2020 年 10 月 13 日にアクセス
  67. Dou P、Shah SK、Kakadiaris IA (2017) ディープ ニューラル ネットワークを使用したエンドツーエンドの 3D 顔再構成。: コンピュータ ビジョンにおけるパターン認識に関する第 30 回 IEEE 会議、CVPR、1503-1512。https://doi.org/10.1109/CVPR.2017.164
  68. Han X、Gao C、Yu Y (2017) DeepSketch2Face: 3D 顔モデルおよび似顔絵モデル用の深層学習ベースのスケッチ システム。グラフィックスにおける ACM トランザクション 36: 1-12。https://doi.org/10.1145/3072959.3073629
  69. Hsu GS、Shie HC、Hsieh CH、Chan JS (2018) クロスポーズ認識のための高速ローカリゼーション 3D コンポーネント再構築と CNN。回路およびシステムにおけるビデオ技術に関する IEEE トランザクション 28: 3194-3207。https://doi.org/10.1109/TCSVT.2017.2748379
  70. Cao X、Chen Z、Chen A 他 (2018) 形態学的モデルに基づいたスパース測光 3D 顔再構成。コンピュータ ビジョンにおけるパターン認識に関する IEEE コンピュータ協会会議の議事録。https://doi.org/10.1109/CVPR.2018.00487
  71. Tran AT、Hassner T、Masi I 他 (2018) Extreme 3D 顔面再構築: 咬合を透視する。コンピュータ ビジョンにおけるパターン認識に関する IEEE コンピュータ協会会議の議事録。https://doi.org/10.1109/CVPR.2018.00414
  72. Feng ZH、Huber P、Kittler J、他 (2018) 野生の 2D 顔画像からの高密度 3D 再構成の評価。所内: 第 13 回自動顔ジェスチャ認識に関する IEEE 国際会議、FG 2018 780-786。https://doi.org/10.1109/FG.2018.00123
  73. Feng Y、Wu F、Shao X 他 (2018) ロケーション グラフ回帰ネットワークによる共同 3D 顔再構成と密な位置合わせ。コンピュータ サイエンスの講義ノート (人工知能の講義ノート、バイオインフォマティクスの講義ノートのサブシリーズを含む) 11218 LNCS:557-574。https://doi.org/10.1007/978-3-030-01264-9_33
  74. Liu F、Zhu R、Zeng D、他 (2018) 関節面の再構成と認識のための 3D 顔形状の特徴のもつれの解消。コンピュータ ビジョンにおけるパターン認識に関する IEEE コンピュータ協会会議の議事録。https://doi.org/10.1109/CVPR.2018.00547
  75. Chinaev N、Chigorin A、Laptev I (2019) MobileFace: 効率的な CNN 回帰による 3D 顔の再構成。出典: Leal-Taixé Laura、Roth Stefan (編) Computer Vision - ECCV 2018 シンポジウム: ミュンヘン、ドイツ、2018 年 9 月 8 ~ 14 日、議事録、パート IV。Springer International Publishing、Cham、15 ~ 30 ページ。https://doi.org/10.1007/978-3-030-11018-5_3
  76. Deng Y、Yang J、Xu S、他 (2019) 弱教師学習を使用した正確な 3D 顔再構成: 単一画像から画像コレクションまで。コンピュータ ビジョンにおけるパターン認識に関する IEEE コンピュータ協会シンポジウム 2019 年 6 月: 285-295。https://doi.org/10.1109/CVPRW.2019.00038
  77. Yuan X、Park IK (2019) 3D 形態学的モデルと敵対的生成ネットワークを使用した顔の遮蔽解除。参照: IEEE International Conference on Computer Vision 2019-Octob:10061-10070 の議事録。https://doi.org/10.1109/ICCV.2019.01016
  78. Luo Y、Tu X、Xie M (2019) 堅牢な 3D 顔再構成と識別アイデンティティ表現の学習。2019 年第 2 回情報通信信号処理に関する IEEE 国際会議、ICICSP 2019 317-321。https://doi.org/10.1109/ICICSP48821.2019.8958506
  79. Gecer B、Lattas A、Ploumpis S、他 (2019) 結合された 3D 顔パターン用の幹-支脈生成敵対的ネットワークの合成。コンピュータービジョンに関する欧州会議。チャム・スプリンガー、415-433 ページ
  80. Chen Y、Wu F、Wang Z、他 (2019) 自己教師あり学習による詳細な 3D 顔面再構成。画像処理に関する IEEE トランザクション 29:8696-8705
  81. 大規模な有名人の顔の特徴 (CelebA) データセット。http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html. 2020 年 10 月 13 日にアクセス
  82. Labeled Faces in the Wild (LFW) データセット | Kaggle。https://www.kaggle.com/jessicali9530/lfw-dataset. 2020 年 10 月 13 日にアクセス
  83. Ren W、Yang J、Deng S、他 (2019) 顔ビデオのブレを除去するための 3D 顔事前分布の使用。コンピューター ビジョンに関する IEEE 国際会議の議事録。2019-10月:9387-9396。https://doi.org/10.1109/ICCV.2019.00948
  84. Jourabloo A、Liu X (2015) ポーズ不変の 3D 面の位置合わせ。コンピューター ビジョンに関する IEEE 国際会議の議事録。3694-3702ページ
  85. Cheng S、Kotsia I、Pantic M、他 (2018) 4DFAB: 生体認証アプリケーションのための大規模 4D 表情データベース。https://arxiv.org/pdf/1712.01443v2.pdf. 2020 年 10 月 14 日にアクセス
  86. Liu F、Zhao Q、Liu X、Zeng D (2020) 顔認識のための顔の位置合わせと 3D 顔再構成の統合。IEEE グラフィカル パターン分析とマシン インテリジェンス トランザクション。42:664-678。https://doi.org/10.1109/TPAMI.2018.2885995
  87. Ye Z、Yi R、Yu M、他 (2020) 3D-CariGAN: 顔写真から 3D 似顔絵の生成までのエンドツーエンドのソリューション。1-17. arXiv プレプリント arXiv:2003.06841
  88. Huo J、Li W、Shi Y 他 (2017) Web コミック: 漫画認識のベンチマーク。arXiv プレプリント arXiv:1703.03230
  89. Lattas A、Moschoglou S、Gecer B、他 (2020) AvatarMe: リアルにレンダリング可能な「In-the-World」3D 顔再構成。757-766。https://doi.org/10.1109/cvpr42600.2020.00084
  90. Cai H、Guo Y、Peng Z、Zhang J (2021) 非線形パラメトリック モデルを使用したマンガのキーポイント検出と 3D 顔の再構成。グラフィカル モデル 115:101103。 https://doi.org/10.1016/j.gmod.2021.101103
  91. Deng Y、Yang J、Chen D、他 (2020) 3D 模倣対比学習による、もつれを解き、制御可能な顔画像の生成。https://doi.org/10.1109/cvpr42600.2020.00520
  92. Li K、Yang J、Jiao N、他 (2020) 単一画像からの適応 3D 顔再構成。1-11. arXiv プレプリント arXiv:2007.03979
  93. Chaudhuri B、Vesdapunt N、Shapiro L、Wang B (2020) 顔の再構築とアクションのリダイレクトを改善するためのパーソナライズされた顔モデリング。Vedaldi A、Bischof H、Brox T、Frahm JM (編) Computer Vision - ECCV 2020: 16th European Conference、グラスゴー、英国、2020 年 8 月 23 ~ 28 日、議事録、パート V に記載。Springer International Publishing、Cham、142-160 ページ。https://doi.org/10.1007/978-3-030-58558-7_9
  94. Shang J、Shen T、Li S、他 (2020) オクルージョンの多視点幾何学的一貫性を考慮した自己教師付き単眼 3D 顔再構成。コンピューター ビジョン - ECCV 2020: 第 16 回欧州会議、英国グラスゴー、2020 年 8 月 23 ~ 28 日、議事録、XV パート 16 (pp. 53-70). Springer International Publishing
  95. Cai X、Yu H、Lou J、他 (2020) 注意誘導型敵対的生成ネットワークを使用して、深度ビューから 3D 顔のジオメトリを復元します。arXiv プレプリント arXiv:2009.00938
  96. Xu S、Yang J、Chen D、他 (2020) 単一の画像からの深度 3D ポートレート。7707-7717。https://doi.org/10.1109/cvpr42600.2020.00773
  97. Zhang J、Lin L、Zhu J、Hoi SCH (2021) 弱教師付きファセット 3D 再構成。1-9. arXiv プレプリント arXiv:2101.02000
  98. Köstinger M、Wohlhart P、Roth PM、Bischof H (2011) 注釈付きの野生の顔マーカー: 顔マーカーの位置特定のための大規模な実世界データベース。コンピューター ビジョンに関する IEEE 国際会議の議事録。https://doi.org/10.1109/ICCVW.2011.6130513
  99. ICG - AFLW。https://www.tugraz.at/institute/icg/research/teambischof/lrs/downloads/afw/. 2020 年 10 月 14 日にアクセス
  100. Tu X、Zhao J、Jiang Z、他 (2019) 野生の 2D 顔画像を利用した単一画像 3D 顔再構築. IEEE Trans Multimed. https://doi.org/10.1109/TMM.2020.2993962
  101. Moschoglou S、Papaioannou A、Sagonas C et al (2017) AgeDB: 最初に手動で収集された野生年齢データベース、コンピュータ ビジョンとパターン認識に関する IEEE 会議議事録、51-59 ページ
  102. Morphace. https://faces.dmi.unibas.ch/bfm/main.php?nav=1-1-0&id=details. 2020 年 10 月 14 日にアクセス
  103. Savran A、Alyüz N、Dibeklioğlu H 他 (2008) 3D 顔分析のためのボスポラス海峡データベース、バイオメトリクスとアイデンティティ管理に関する欧州シンポジウム、Springer、ベルリン、ハイデルベルク、47-56 ページ
  104. 3D 顔の表情データベース - ビンガムトン大学 http://www.cs.binghamton.edu/~lijun/Research/3DFE/3DFE_Analysis.html. 2020 年 10 月 13 日にアクセス
  105. Center for Biometric and Security Research. http://www.cbsr.ia.ac.cn/english/3DFace Databases.asp. 2020 年 10 月 14 日にアクセス
  106. Yi D、Lei Z、Liao S、Li SZ (2014) ゼロからの顔表現の学習. arXiv プレプリント arXiv:1411.7923
  107. フロントサイド セレブリティ・イン・ザ・ワイルド. http://www.cfpw.io/. 2020 年 10 月 14 日にアクセス
  108. Yang H、Zhu H、Wang Y 他 (2020) FaceScape: 大規模で高品質の 3D 顔データセットと詳細な操作可能な 3D 顔予測. 598-607
  109. FaceWarehouse. http://kunzhou.net/zjugaps/facewarehouse/. 2020 年 10 月 13 日にアクセス
  110. Phillips PJ、Flynn PJ、Scruggs T 他 (2005) 顔認識グランド チャレンジの概要、2005 年のコンピューター ビジョンとパターン認識に関する IEEE コンピューター協会会議 (CVPR'05)、Vol. 1: pp. 947-954
  111. MORENO, A. (2004) GavabDB : A 3D Face Database. 第 2 回 COST275 インターネット バイオメトリクス作業の議事録、2004 年、75-80 ページ
  112. Le V、Brandt J、Lin Z、他 (2012) インタラクティブな顔の特徴の位置特定、コンピューター サイエンスの講義ノート (人工知能の講義ノート、バイオインフォマティクスの講義ノートを含む) 7574 LNCS:679-692. https://doi.org/10.1007 /978-3-642-33712-3_49
  113. IJB-A データセット リクエスト フォーム | NIST. https://www.nist.gov/itl/iad/image-group/ijb-dataset-request-form. 2020 年 10 月 14 日にアクセス
  114. Min R、Kose N、Dugelay JL (2014) KinectfaceDB: 顔認識用の Kinect データベース. IEEE Trans Syst Man、Cyber​​n Syst 44:1534-1548. https://doi.org/10.1109/TSMC.2014.2331215
  115. Belhumeur PN、Jacobs DW、Kriegman DJ、Kumar N (2011) 一貫した例を使用した顔のパーツの位置特定、コンピュータ ビジョンにおけるパターン認識に関する IEEE Computer Society Conference の議事録. https://doi.org/10.1109/CVPR.2011.5995602
  116. Bagdanov AD、Del Bimbo A、Masi I (2011) Forence 2D/3D Hybrid Face Dataset. 2011 年、ACM Joint Studio Workshop on Human Gesture and Behavior Understanding - Proceedings of J-HGBU '11. ACM Press、ニューヨーク、米国、p .79
  117. ノートルダム CVRL. https://cvrl.nd.edu/projects/data/#nd-2006-data-set. 2020 年 10 月 13 日にアクセス
  118. テキサス大学オースティン校の画像およびビデオ工学研究所 http://live.ece.utexas.edu/research/texas3dfr/. 2020 年 10 月 14 日にアクセス
  119. Le HA、Kakadiaris IA (2017) UHDB31: ポーズと照明の変化の下での顔認識のより良い理解のためのデータセット. 2017 IEEE International Symposium on Computer Vision (ICCVW) の議事録. IEEE、pp. 2555-2563
  120. Colombo A、Cusano C、Schettini R (2011) UMB-DB: 部分的に遮られた 3D 顔データベース、コンピュータ ビジョンに関する IEEE 国際会議議事録、2113-2119 ページ
  121. Parkhi OM、Vedaldi A、Zisserman A、(2015) 深層顔認識、ページ 1 ~ 12
  122. Sanderson C (2002) VidTIMIT データベース (No. REP_WORK). IDIAP
  123. Son Chung J、Nagrani A、Zisserman A、(2018) VoxCeleb2: 深い声紋認識。arXiv プレプリント arXiv:1806.05622
  124. YouTube Faces データベース : ホームページ。https://www.cs.tau.ac.il/~wolf/ytfaces/。2020 年 10 月 14 日にアクセス
  125. 300-VW | コンピューター ビジョン オンライン。https://computervisiononline/.com/dataset/1105138793。2020 年 10 月 13 日にアクセス
  126. i・bug - リソース - 300 Faces In-the-Wild Challenge (300- W)、ICCV 2013。https://ibug.doc.ic.ac.uk/resources/300-W/。2020 年 10 月 14 日にアクセス
  127. Vijayan V、Bowyer K、Flynn P (2011) 3D ツインと表現チャレンジ。掲載: コンピューター ビジョンに関する IEEE 国際会議の議事録。ページ 2100–2105
  128. AI + X: キャリアを変えるのではなく、AI に参加してください - YouTube。http://www.youtube.com/watch?v=4Ai7wmUGFNA。2021 年 2 月 5 日にアクセス
  129. Cao C、Hou Q、Zhou K (2014) リアルタイムの顔追跡とアニメーションのための変位動的表現の回帰。: グラフィックスに関する ACM トランザクション。Association for Computing Machinery、1 ~ 10 ページ
  130. Bouaziz S、Wang Y、Pauly M (2013) リアルタイムのフェイシャル アニメーションのためのオンライン モデリング。ACM トランス グラフ 32:1–10。https://doi.org/10.1145/2461912.2461976
  131. Garrido P、Valgaerts L、Sarmadi H 他 (2015) VDub: 吹き替えオーディオ トラックとの視覚的な整合性を説得するための俳優の顔ビデオの変更。コンピュータ グラフィックス フォーラム 34:193–204。https://doi.org/10.1111/cgf.12552
  132. Thies J、Zollhöfer M、Stamminger M、他 Face2Face: RGB ビデオからのリアルタイムの顔のキャプチャと再生
  133. MIT ディープラーニング入門 | 6.S191 - YouTube。https://www.youtube.com/watch?v=5tvmMX8r_OM。2021 年 2 月 8 日にアクセス
  134. Garrido P、Valgaerts L、Wu C、Theobalt C (2013) 単眼ビデオからの詳細な動的顔のジオメトリの再構成。ACM トランス グラフ 32:1–10。https://doi.org/10.1145/2508363.2508380
  135. Viswanathan S、Heisters IES、Evangelista BP、他。(2021) 拡張現実メイクアップ効果を生成するためのシステムおよび方法。米国特許 10,885,697
  136. Nam H、Lee J、Park JI (2020) RGB カメラを使用したインタラクティブなピクセル単位の AR リップ メイクアップ システム。放送工学ジャーナル 25(7):1042–51
  137. Siegl C、Lange V、Stamminger M、他 FaceForge: マーカーのない非剛体面のマルチプロジェクション マッピング
  138. 静止画と顔ツールを使用してビデオ内の顔を置き換える - After Effects チュートリアル - YouTube。https://www.youtube.com/watch?v=x7T5jiUpUiE。2021 年 2 月 6 日にアクセス
  139. Antipov G、Baccouche M、および Dugelay JL、(2017)、条件付き敵対的生成ネットワークで老化に直面する。掲載: 画像処理に関する IEEE 国際会議 (ICIP)、2089 ~ 2093 ページ
  140. Shi C、Zhang J、Yao Y 他 (2020) CAN-GAN: 顔年齢合成のための条件付き注意正規化敵対的生成ネットワーク。パターン認識レター 138:520–526。https://doi.org/10.1016/j.patrec.2020.08.021
  141. Fang H、Deng W、Zhong Y、Hu J (2020) Triple-GAN: Triple Transformation Loss を使用した進行性の顔の老化。In: IEEE Computing Society Meeting Symposium on Pattern Recognition in Computer Vision (2020 年 6 月): 3500–3509。https://doi.org/10.1109/CVPRW50498.2020.00410
  142. Huang Z、Chen S、Zhang J、Shan H (2020) PFA-GAN: 敵対的生成ネットワークによる進行性の顔の老化。情報フォレンジックとセキュリティに関する IEEE トランザクション。https://doi.org/10.1109/TIFS.2020.3047753
  143. Liu S、Li D、Cao T、他 (2020) GAN ベースの顔属性編集。IEEE Grant 8:34854–34867。https://doi.org/10.1109/ACCESS.2020.2974043
  144. Yadav D、Kohli N、Vatsa M、他 (2020) 年齢差のある顔を認識するための Age Gap Reducer-GAN。掲載: 第 25 回パターン認識国際会議 (ICPR)、10090 ~ 10097 ページ
  145. Sharma N、Sharma R、Jindal N (2020) 敵対的生成ネットワークを使用した顔の年齢の進行に対する技術の改良と超解像度の強化. Wireless Personal Communications 114:2215-2233. https://doi.org/10.1007/s11277-020 - 07473-1
  146. Liu L、Yu H、Wang S、他 (2021) 子供の顔の老化に対する形状と質感のプロセスの学習. Signal Processing Image Communications 93:116127. https://doi.org/10.1016/j.image.2020.116127
  147. Nirkin Y、Keller Y、Hassner T (2019) FSGAN: 被験者に依存しない顔の置換と再現、In: Proceedings of the IEEE/CVF International Conference on Computer Vision、pp. 7184-7193
  148. Tripathy S、Kannala J、Rahtu E (2020) ICface: GAN を使用した解釈可能で制御可能な顔の再現、In: Proceedings of the IEEE/CVF Winter Conference on Computer Vision Applications、pp. 3385-3394
  149. Ha S、Kersner M、Kim B、他 (2019) MarioNETte: 目に見えないターゲットのアイデンティティを保存する少数ショットの顔の再現. arXiv 34:10893-10900
  150. Zhang J、Zeng † Xianfang、Wang M、他 (2020) FreeNet: マルチアイデンティティの顔の再現、In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition、pp. 5326-5335。
  151. Zeng X、Pan Y、Wang M、他 (2020) リアルな顔の再現のためのアイデンティティとポーズの自己監督による分離。arXiv 34:12757-12764
  152. Ding X、Raziei Z、Larson EC、他 (2020) 深層学習と主観的評価を使用した顔交換検出、EURASIP Journal of Information Security、pp. 1-12
  153. Zukerman J、Paglia M、Sager C 他 (2019) ビデオ操作と顔の置換、米国特許 10,446,189
  154. Hoshen D (2020) MakeupBag: メイクアップの抽出と塗布の分離. arXiv プレプリント rXiv:2012.02157
  155. Li Y、Huang H、Yu J 他 (2020) 美容を意識したメイクアップクリーナー. arXiv プレプリント arXiv:2004.09147
  156. 堀田 D、相沢 K (2020) SLGAN: 理想的なメイクアップの転写と除去のためのスタイルと潜在に誘導された敵対的生成ネットワーク. arXiv プレプリント arXiv:2009.07557
  157. Wu W、Zhang Y、Li C 他 (2018) ReenactGAN: Learning to Reproduction Faces via Boundary Transfer. In: Proceedings of the European Conference on Computer Vision (ECCV)、pp. 603-619
  158. Nirkin Y、Wolf L、Keller Y、Hassner T (2020) 顔とそのコンテキストの違いに基づくディープフェイク検出。arXiv プレプリント arXiv:2008.12262。
  159. Tolosana R、Vera-Rodriguez R、Fierrez J、他 (2020) ディープフェイクとその結果: 顔操作と仮説検出の調査. Information Fusion 64:131-148
  160. Shubham K、Venkatesh G、Sachdev R、他 (2020) Learning a Deep Reinforcement Learning Policy for Semantic Age Operations on the Latent Space of Pretrained GANs. In: 2021 International Joint Conference on Neural Networks (IJCNN)、pp. 1-8 .IEEE
  161. Karras T、Aila T、Laine S、Lehtinen J (2017) 品質、安定性、バリエーションを改善するための GAN の段階的成長. arXiv プレプリント arXiv:1710.10196
  162. Pham QTM、Yang J、Shin J (2020) 合成ペア画像による顔年齢の進行と退行のための半教師あり FaceGAN. Electronics 9:1-16. https://doi.org/10.3390/electronics9040603
  163. Zhu H、Huang Z、Shan H、Zhang J (2020) Global Observation, Local Aging: Facial Aging with tention Mechanism Haiping Zhu Zhizhong Huang Honming Shan Shanghai Key Laboratory of Intelligent Information Processing、School of Computer Science、復旦大学、中国、200433 ICASSP 2020 - 2020 オーディオ、音声および信号処理に関する IEEE 国際会議議事録 (1963 ~ 1967 年)
  164. Wu S、Rupprecht C、Vedaldi A (2021) 野生の画像におけるおそらく対称的な変形可能な 3D オブジェクトの教師なし学習. IEEE Trans Pattern Anal Mach Intell. https://doi.org/10.1109/TPAMI.2021.3076536
  165. Heidekrueger PI、Juran S、Szpalski C et al (2017) 現在の女性の好ましい唇のプロポーション. J Cranio-Maxillofacial Surg 45:655-660. https://doi.org/10.1016/j.jcms.2017.01.038
  166. Baudoin J、Meuli JN、di Summa PG 他 (2019) 上唇の美容修復に関する包括的なガイド. J Cosmet Dermatol 18:444-450
  167. Garrido P、Zollhöfer M、Wu C et al. (2016) 単眼ビデオからの唇の 3D 再構成を修正. ACM Trans Graph 35:1-11. https://doi.org/10.1145/2980179.2982419
  168. Wu C、Bradley D、Garrido P et al. (2016) モデルベースの歯の再構築. ACM Trans Graph 35(6):220-221. https://doi.org/10.1145/2980179.2980233
  169. Wen Q、Xu F、Lu M、Yong JH (2017) セマンティック エッジからのリアルタイム 3D まぶた追跡. ACM Trans Graph 36:1-11. https://doi.org/10.1145/3130800.3130837
  170. Wang C、Shi F、Xia S、Chai J (2016) 単一の RGB カメラを使用したリアルタイム 3D 視線アニメーション、ACM Trans Graph 35:1-14. https://doi.org/10.1145/2897824.2925947
  171. Zhou X、Lin J、Jiang J、Chen S (2019) 3D 視線推定のための双方向 LSTM と組み合わせた改善された itracker の学習. In: Proceedings of IEEE International Multimedia and Exposition. IEEE Computer Society, pp 850-855
  172. Li H、Hu L、Saito S (2020) 容積変動オートエンコーダーを使用した 3D 毛髪合成. ACM Transactions on Graphics (TOG) 37(6):1-12
  173. Ye Z、Li G、Yao B、Xian C (2020) HAO-CNN: Volumetric Vector Field-based Conscious Hair Reconstruction. Comput Animat Virtual Worlds 31:e1945. https://doi.org/10.1002/cav.1945
  174. He H、Li G、Ye Z、他 (2019) Data-driven 3D Human Head Reconstruction. Comput Graph 80:85-96. https://doi.org/10.1016/j.cag.2019.03.008

発行者の声明: Springer Nature は、地図および所属機関の発行における法的請求に関して中立を維持します。

おすすめ

転載: blog.csdn.net/I_am_Tony_Stark/article/details/132011256