まず、アイデアを考えるだけでなく、以前の仕事が行われ
課題は、顔検出:
複雑な多様性(実際の写真変種):顔隠さは、異なるスケール、顔の表情、絵、人間の姿勢に置か画像の照明条件に直面しています。
考えます:
基づいて提示された紙、場合領域は、大成功で顔検出の方法で行われているが、直接特定に領域にポリシー機能FCN (完全畳み込みネットワーク)などResNets 、分類精度低下につながります。提案された後にR-FCNのネットワーク見つけることができFCNの問題を。R-FCN でConvNetは、画像全体の計算を共有することができ、訓練および試験の効率が改善されています。
より R&LT-CNN 、R&LT FCN- 結合FCN 及びモジュールを領域ベースレス使用領域ごとの研究の検出および分類のバランスをとるために層を。
Q :直接に領域が適用さFCNの中、なぜ分類の精度を低下させるのでしょうか?R-FCNが見つけ、ので、どのように配置することができますか?
私たちは、サプリメントの後、関連書類を見てする必要があります
第二に、本論文の貢献
図1は、新規で効果的な技術の数を統合することによって思考範囲に特別な属性に直面するだろう。
図2に示すように、新規な(の使用新規)正感受性平均プーリング。再定義するプーリング方式スコアマップこうしての各顔の部分還元、ウェイトの重量分布を非均一に、分布に影響を与えるのではなく、直接平均法より加重平均、すなわち使用を、。
第三に、ネットワーク構造
1、に基づいて、 R-FCNの構造
使用した 101層のResNetをバックボーンとして、前記ResNetの代表画像特徴高さ(抽出できる特徴抽出の役割高代表画像の特徴をより大きな受容野を含む);一方ResNet 最終段階(最終ステージ)中空畳み込み(使用Atrous /拡張型CONV 小さな検出面(に、コンテキスト情報を失われない大きな受容野を確保するため)、特徴マップのスケールを小型面)、コンテキスト情報があってよいです利益。
図2に示すように、位置敏感平均プーリング
使用位置敏感平均プーリングを置き換える元を、株式会社フリーは平均プーリングに参加し、最終的な行うには、投票機能(最終的な分類、単純過半数の票のすべての結果を)。比較プーリンググローバル平均絶対平均値を、位置sentive平均プーリングは、特徴マップのスケール(加重平均を使用して、N-N- * )トレーニングパラメータ(N-N- * )。これは、例えば、目の焦点が口の中、それは、直接平均化することができないため関心の度合いよりも高いが、加重平均を取ることも異なることがあり、顔検出で顔の各位置に注意のレベルを与えられていますこれより良い人間の顔を識別することができ。
前記 W Jが最初指す j番目のパラメータで、Nは、選択されたRoIののスケール。
3、マルチスケールのトレーニングとテスト
ときに訓練:最短辺として1024 または1200pixels 。これは、本論文で提案したモデルは、特にの検出には、人間の顔の異なるスケールの検出に堅調ことができます小さな人間の顔。一方、負のサンプルで使用OHEM(実施例マイニングハード・オン・ライン)、提供陽性試料:陰性サンプル1 =。 :3。; OHEMのブートストラップ時間(bootstrpping)効果的な技術。
テストでは、確立画像ピラミッドは、各スケールは個々に試験され、異なるスケールからの結果は、最終的に得られる画像を統合します。
第四に、分析
1、R-FCN 及び高速R-CNN との比較
R-FCNは、より深い使用CNNを、ヘッドに使用されていない画像全体の計算速度を共有します。
使用位置敏感プーリング投資収益率を、各RoIのセットを介して、位置情報に符号化特徴マップは、にプールされたマップ出力スコアの正確な位置決めを、
しませんでした完全に層接続にResNetの構造を、R-FCNの取得するためのトレーニング機能では、マップし、より豊かな情報、そしてより便利にeラーニングのクラススコアとバウンディングボックスの位置を。
2、実験を提供します
それぞれ WIDER顔データセットとFDDBデータセット実験のために。WIDER FACE の合計32203枚の写真は、合計393703 人がトレーニングセットを設定し、顔をマークし、検証セットとテストセットが分割され40 、10 、50 。識別検証およびテストセットの難しさは、(に基づいて3つのサブセットに分割されている簡単な、ミディアム、ハード)。FDDB パーティー2845枚の絵、の合計5171は、顔をマーク。