あなたの顔フルフェイスの外観ベースの視線推定にわたり推定学习笔记(2)-Itの書き込まれたすべての視線

序文

このブログを読んだ後、紙の著者である:「それはすべてあなたに上書きだフェイスフルフェイスの外観ベースの視線推定」 少し要約した後。

主論文は、重量ルームCNNを2D、3D方式の視線方向、ロールの視線を検出するための実験及び分析の顔面と全体像を取得する権利を追加することによって、完全な顔画像に基づいて提示しました。

論文は、2つの部分に分かれています。最初の部分の視線検出方法の新ラインは、著者が提唱紹介:スペースCNNの重い重みの導入をこのセクションでは、著者が入力として全体像、右CNNで原因重いスペースの導入に直面するだろう説明し、フォローアップの実験によると、この新しいアプローチのパフォーマンスを分析するために、視力予測のラインの完全な顔画像の役割を説明します

重量CNNの空間右入力方法としてフルフェイス画像

著者はCNN構造を提案し、直接入力された顔画像から、MPIIGazeデータセット上でより高い精度のリフティング(14.3%)を得た2Dまたは3Dを取得する視線方向完了する。このCNN構造は、情報がCNNネットワークの古典的特徴と組み合わせた顔の異なる領域で符号化され、一つの空間ウェイト機構を含む顔の異なる領域に含まれる情報は、視線方向を決定するのに役立つ抽出します。

原因としてフルフェイスの画像入力

著者らはまた、視線の方向を決定するのに役立つ情報が含まれ、また、入力としてターゲット、及び紙の最近の一部の眼視線推定アルゴリズムの大部分が提案されている前画像は、眼の他の部分に対向することに留意しました。ニューラルネットワークは情報を抽出する強力な能力を持っているので、に基づいて、顔、目の他の部分の中でも、視線方向決定に役立つ重要な情報が含まれている著者は、ニューラルネットワークの入力として顔画像を完了しますと信じて、仮説を、これは、視線検出アルゴリズムのラインの精度を向上させることができます。

追加ウエイトルームCNN右の方法

論文は、2つの主な理由のためのスペースの重みを付加する、精緻化:

  • 完全な顔画像入力の場合は、背景など一部の地域では、視線は、その影響を最小限に抑える必要がある問題を解決する助けにはなりませんでした。
  • 前述のように、視線の問題には目を隠された情報の重要な脇役以外の顔領域。

そこで、著者らは、活性化によって学ぶことができます重いウェイトスペースメカニズムをマップCNNの古典的なアーキテクチャに参加し、良い結果を達成しました。

CNNの基本構造

古典的なCNNのために、作成者はコンボリューションは5つの層、2完全接続層有する使用AlexNetを、所望の接続層2Dまたは注意の焦点の三次元座標を得るためにフル線形回帰後に層を追加します。このセクションでは、著者はで使用されるLSVRC-2010 ImageNet良い引数に、そしてによって事前に訓練を受けたMPIIGaze微調整全体のネットワークデータセット。

空間重みメカニズム

図の最終的な特性を得た後に上記コンボリューションCNN層5、前記著者は、図は、入力として、活性化関数としてReLuを用いた3層1x1のコンボリューションカーネルの畳み込みを追加し、13X13の最終的に熱図。その後、著者図熱畳み込み機能が完全に入力層と接続要素毎の乗算層を、マップする直前。

実験と解析

この方法の精度をテストするために、著者らはあったMPIIGazeEYEDIAP 2D、3Dの視線は、データ収集の他の方法とは対照的に検出されました。比較方法は:のみ(可視化と理解単眼画像の方法を考える
(野生Appearancebasedの視線推定)、畳み込みネットワーク)の方法をまとめたブログの記事を 、iTrackerは、 のITracker AlexNetに変更iTracker目の部分だけを、考えてみましょう。

コントラスト2Dおよび3D二つのデータセットと、これらの問題の両方において、筆者らが提案した空間重量CNNの方法は、最高のパフォーマンスを達成しています。前記2次元問題の各メソッドEYEDIAP以下に設定率に関する正確なデータMPIIGazeのデータセットは、著者とすることができると信じてEYEDIAPによる低解像度データセットに。

頭部姿勢、表情の視線方向との関係

このセクションでは、視線の方向を決定するために、さまざまな要因の影響を調査するために著者は、以下の3つの特別な場合を比較します。

1.ヘッドは、視線検出の直接的な結果としてポーズ

2.入力ヘッドに基づいて得られた視線検出結果の直接線は、線形回帰モデルを提起します

3.カバーをすべて目MPIIGazeの訓練上のデータと結果として得られるモデル

比較後、精度が得られた:1 <2 <3。この驚くべき結果は、ことを示唆している入力として、完全な画像が視線を検出する問題を解決することができ頭部姿勢よりもさらに多くの情報に直面しています

(著者の個人的な理解は:情報ヘッドは、情報十分に強い前提を抽出するためのコンピテンシーモデルの下で、ポーズを含ん理論の完全な顔画像では、完全な顔画像は、提供することはできません。詳細については、頭部姿勢を提供することができるはずです視線方向を決定するのに役立ちます。)

顔の異なる領域の分析の重要性

著者が続く視線の方向を決定するのを助けるために他の顔領域は、視線の方向を模索しようとしているので、様々な状況の下、顔のどの領域を検出するのに役立ちます。この部分の後に、マスクを使用して著者の研究は、異なる領域における顔検出問題の視線の重要性を近似するために取得するヒートマップの程度の減少の分析精度率の64×64画像の異なる部分をカバーします。

イルミネーション

MPIIGazeのデータセット、異なる光条件の分類に基づいて水平方向の平均グレー値の異なる密度は、著者らは発見した他の領域の強い目で図熱的に連通する光強い側照明の様々な同時に、宇宙の重み正確な方法CNN率が考慮さだけ目の画像のアプローチよりも高くなっています。

視線方向

実験により見出される、ときにターゲットときの視線の直線、より高い熱目そして、するとき視線方向バイアス、顔の他の部分に向かって明らかな熱分散液

頭部ポーズ

このセクションでは、より広い分布のポーズヘッドを使用していますEYEDIAPのデータセットを。これは、ときにすることが見出された極端なバイアスの頭部姿勢、視線検出を助けるために、顔の他の領域は、特に明白ですさらに、EYEDIAPのデータセットに比べ熱MPIIGaze、周囲部で顕著な分散は、で証明することができる大きな利点を用いて、低解像度、完全な顔画像の場合

結論

入力、頭のポーズのために極端な空間重量CNN方法の添加量、視線方向と顔画像の完全な使用は、極端なヘッドによって生じる照明変化は、より高いロバスト性をもたらします。

一方、外観ベースの視線検出問題の入力が学習の方法に基づいて(など顔の特徴認識、表情認識、など)他のCV関連の問題に非常に近いので、完全な顔画像を撮る実験ショーの結果は、これらの将来問題の種類を考慮すると、より良い結果を得ることができます。

おすすめ

転載: www.cnblogs.com/kirito12138/p/11641085.html
おすすめ