RetinaFace: 現場での単一段階の密な顔の位置特定

1.ネットワーク構造:

ここに画像の説明を挿入します
簡単に言うとバックボーン+FPN+SSHです。

背骨

RetinaFace は、MobileNetV1-0.25 または Resnet50 を使用します。Resnet50
は、アクティブ化されたときにモバイルの 2 倍の速度でテストおよび検出されているため、実験中に MobileNetV1-0.25 を使用しました。MobileNetV1-0.25 は、コンボリューション カーネルの各層で MobileNetV1 に基づいています。チャンネル数は元の 4 分の 1 に減少します。最後に、バックボーン ネットワークの最後の 3 層の特徴 C3、C4、および C5 を FPN の入力として取得します。MobileNetV1 は異なるサイズの画像を受け入れることができるため、これら 3 層の特徴マップのサイズは固定されていません。は固定されていません。

FPN

ここに画像の説明を挿入します
FPN は多くのターゲット検出ネットワークに登場しており、最も有名なものは YOLO シリーズです。FPN は多重特徴融合手法であり、低レベルの特徴がアップサンプリングされ、上位レベルの特徴と融合されて、高解像度で強力な意味論的な特徴が得られます。フィーチャー C3、C4、および C5 は、フィーチャー P3、P4、および P5 を取得するために FPN を通じて取得されます。

SSH(シングルステージヘッドレス顔検出器)

ここに画像の説明を挿入します
著者は、2 つの 3*3 畳み込みを使用して 5*5 畳み込みをシミュレートし、3 つの 3*3 畳み込みを使用して 7*7 畳み込みをシミュレートして、受容野を拡張し、より多くのコンテキスト情報 (顔の周りのピクセル) を導入します。異なる受容野を持つ 3 つの畳み込みがあります。SSH の後、P3、P4、および P5 は S3、S4、および S5 になります。これら 3 つのレイヤーには、豊富なセマンティック機能、有用なコンテキスト情報があり、さまざまなスケールの面も考慮できます。

2.検出ヘッド

最後のステップは、取得した S3、S4、および S5 を検出ヘッドに渡すことであり、作成者は分類予測を実行します (顔検出は 2 分類タスクであるため、分類予測の値は顔の信頼スコアになります)。微調整 (アプリオリ用) 予測フレームを取得するためにフレームを調整するには、4 つのパラメーターが必要です。最初の 2 つはアプリオリ フレームの中心を調整するために使用され、最後の 2 つはアプリオリ フレームの幅と高さを調整するために使用されます。事前フレーム)と顔キーポイント予測(顔キーポイントは合計 5 つあるので、水平方向と垂直方向の座標パラメータは合計 10 個あります)の 3 つの部分に分解され、1 つずつ推定されます。
最後に、1 回の非最大抑制の後、最終的な検出結果が得られます。

おすすめ

転載: blog.csdn.net/qq_41950533/article/details/125723860