RCNNネットワーク原理の詳細説明

I.はじめに

ターゲット検出を学ぶには、ターゲット検出分野の先駆者である R-CNN を学ぶ必要があります。この記事は個人的なメモです。
ここに画像の説明を挿入

2. R-CNN の主な手順

R-CNN は 4 つのステップに分かれています。

1. SS アルゴリズムによって約 1 ~ 2k の候補ボックスが生成されます。
2. 候補フレームをディープネットワークに入力して特徴を抽出します。
3. SVM 分類器を使用して、各カテゴリに属する​​各候補ボックスのスコアを取得します。
4. リグレッサーを使用して候補フレームの位置を修正します
ここに画像の説明を挿入

2.1.選択的探索によるターゲット検出フレームの生成

選択的検索の原理については、私が書いた別のブログ投稿を参照してください。簡単に言うと、一般的な意味は、最初に画像分割アルゴリズムに従って分割領域を初期化することです。

次に、類似度を計算し、さまざまなカラー モード、ターゲット カラー、テクスチャ、サイズ、形状、その他の特性に従ってサブ領域をマージします。これにより、領域が網羅的な方法よりも少なくなり、コンピューティング リソースが節約され、効率が向上します。

同時に、良好な再現率を実現できるため、生成された候補ボックスは検出対象のすべてを十分にカバーできます。

2.2. ディープネットワークを使用して候補領域の特徴を抽出する

ここに画像の説明を挿入

以前との違いは、AlexNet が次の完全に接続された層を削除し、完全に接続された 1 つの層だけを保持することです。

2.3. SVM の分類

ここに画像の説明を挿入
ここでは PASCAL VOC データセットが使用されているため、最終的に 20 個の SVM 分類器が存在します。
ここに画像の説明を挿入

上に示したように、2000✖4096 の特徴行列は、深層畳み込みネットワークを通過した後の 2000 個の候補フレームから抽出された特徴を表しており、各候補フレーム、つまり 4096 次元の特徴ベクトルごとに、SVM を使用して判断する必要があります。 , 各カテゴリを判定する必要があり、合計 20 個のカテゴリがあるため、重み行列は 2000✖20 となり、最終的な確率行列 2000✖20 が得られます。各行は、そのカテゴリが属する確率分布を表します。 20 次元の確率ベクトルの場合、その中の各位置の確率は、候補フレーム ターゲットが対応する位置カテゴリに属する​​確率を表します。

ここに画像の説明を挿入
すべての候補ボックスのカテゴリスコアを取得した後、非最大値抑制を実行して、一部の重複する候補ボックスを除去します。

例: 上の図でヒマワリの候補ボックスをいくつか取得し、深い畳み込みネットワークを入力して特徴を抽出し、SVM 分類器を使用すると、最終的にヒマワリ カテゴリのこれらの候補ボックスのスコアを取得し、最高のスコアを見つけたとします。得点候補ボックス、候補ボックスと他の候補ボックスとの間の IOU を計算し、IOU が一定のしきい値より大きい場合、2 つのボックスを同一とみなし、候補ボックスを削除します。残りの複数の候補枠はひまわりの候補枠と考えることができますが、位置が異なります。つまり、画面内に複数のひまわりが存在します。
質問1: 最大スコアの候補枠をそのまま保持すれば良いのではないかと思われる方もいると思いますが、あるスコア以上の閾値であれば、複数の候補枠を保持することはできるのでしょうか?
回答: 候補フレームが同じターゲットを検出していないことを保証できないため、この理解は実際には間違っています。同じターゲットが検出され、スコアがこのしきい値より大きい場合は、同じターゲットの複数の予測フレームが存在するということではないでしょうか。ここで、非最大値抑制とは、同じターゲットの重複する候補ボックスを削除すること、つまり、最後に残った候補ボックスは同じターゲットではないと考えることを個人的に理解しています。
質問 2: 図のループ演算はどのように機能しますか?
回答: 個人的には、最初に最大のスコアを持つ検出フレームを見つけてから、他のボックスとその IOU を計算し、検出したものと同じターゲットを検出した検出ボックスを削除します、最大の検出フレームを保持し (この検出フレームは後で計算に追加されません)、引き続き最高スコアの検出フレームを検索し、検出したターゲットと同じターゲットであるがスコアが低い検出フレームを削除します。それよりもスコアが高いなどのたとえ。

2.4. リグレッサーを使用して候補フレームの位置を微調整する

ここに画像の説明を挿入

ここでのさらなるスクリーニングとは、候補フレームと前のステップでフィルタリングされた実際のフレームとの間の IOU を計算し、特定のしきい値を超える IOU を持つ候補フレームを保持して、該当する候補フレームを削除することを指します。実際のフレームと違いすぎます。その後、リグレッサーを使用して候補フレームの位置を回帰および修正し、次の結果を取得します。修正された中心点の x、y オフセットと x、y 方向のスケーリング

3. まとめ

ここに画像の説明を挿入
ここに画像の説明を挿入

参考ブログと学習ビデオ

B局アップメインビデオ(強制プッシュ)
原紙アドレス
コードアドレス

おすすめ

転載: blog.csdn.net/SL1029_/article/details/130762011