要点:
- R-CNN は、深層学習をターゲット検出に利用した先駆的な研究と言えます。
1 つのR-CNN アルゴリズム
R-CNN は、深層学習をターゲット検出に利用した先駆的な研究と言えます。著者のRoss Girshick は、PAS C A L V O C目標検出コンペティションで何度も優勝しており、 2010 年にはチームを率いて生涯功績賞を受賞しました。
RCNNアルゴリズムのプロセスは 4 つのステップに分割できます。
- 1枚の画像から1K~2Kの候補領域を生成(選択的検索法を使用)
- 候補領域ごとにディープネットワークを使用して特徴を抽出します
- 特徴は各クラスの SVM 分類器に送信され、そのクラスに属するかどうかが判断されます。
- リグレッサーを使用して候補フレームの位置を微調整する
1.1候補領域の生成
選択的検索アルゴリズムを使用して画像セグメンテーションを通じて元の領域をいくつか取得し、次にいくつかの結合戦略を使用してこれらの領域を結合して階層領域構造を取得します。これらの構造にはオブジェクトの可能性が含まれます。
選択的検索アルゴリズムは、物体検出に基づく画像セグメンテーション アルゴリズムであり、画像を複数の領域に分割でき、各領域は類似したテクスチャ、色、その他の特性を持ちます。このアルゴリズムは、オブジェクトの認識や検出などのコンピューター ビジョン タスクで使用できます。
選択的検索アルゴリズムの中心となるアイデアは、同様の小さなブロックを継続的に結合することで、より大きな領域を生成することです。具体的には、まず画像を多数の小さなブロックに分割し、次にこれらの小さなブロック間の類似性を計算し、類似性の高い小さなブロックをより大きなスーパーピクセルにマージします。このプロセスは、画像全体がいくつかのスーパーピクセルに分割されるまで何度も繰り返されます。
選択的検索アルゴリズムでは、類似性の計算に、カラー ヒストグラム、エッジ密度、テクスチャなどのさまざまな方法を使用できます。さらに、アルゴリズムの効率を向上させるために、選択検索では、Felzenszwalb アルゴリズムや Huttenlocher アルゴリズムなどの高速画像セグメンテーション技術も使用できます。
最終的に、選択的検索アルゴリズムはスーパーピクセル画像を生成します。各スーパーピクセルは、同様の特性を持つ画像領域を表します。このスーパーピクセル画像は、オブジェクトの検出や認識などのコンピューター ビジョン アルゴリズムへの入力として使用でき、その精度と効率が向上します。
1.2候補領域ごとにディープネットワークを使用して特徴を抽出する
2000 個の候補領域を227x227 ピクセルにスケールし、事前トレーニング済みAlexNet CNNネットワークに候補領域を入力して4096 次元の特徴を取得し、 2000 × 4096次元の行列を取得します。
1.3 特徴は各カテゴリのSVM 分類器に送信され、カテゴリが決定されます。
2000×4096次元の特徴量に、20個のSVMから構成される重み行列4096×20を乗じて、各提案ボックスが、ある対象カテゴリのスコアであることを示す2000×20次元の行列を得る。上記の 2000 × 20 次元の行列の各列、つまり各カテゴリに対して非最大値抑制が適用され、重複する提案ボックスと、この列、つまりこのカテゴリで最も高いスコアを持ついくつかの提案ボックスが削除されます。 、が得られます。
2000 × 4096 の特徴行列と20 個のSVMで構成される重み行列4096 × 20を乗算して2000 × 20の確率行列を取得します。各行は、提案ボックスが各ターゲット カテゴリに属する確率を表します。上記の2000 × 20次元のマトリックスの各列、つまり各カテゴリは非最大値抑制の対象となり、重複する提案ボックスと、この列、つまりこのカテゴリで最高スコアを持ついくつかの提案ボックスが削除されます。 、が得られます。
IoU(Intersection over Union) 表示(A∩B)/(A∪B)
1.4リグレッサーを使用して候補フレームの位置を微調整する
R - CNNフレームワーク
1.5 R -C NNの問題点
-
テスト速度は遅く、 画像のテストに約 53 秒 (CPU)かかります 。 選択的 検索 アルゴリズムによる候補フレームの抽出には約2秒かかりますが、画像内で候補フレーム間の重複が多く、特徴抽出操作が冗長になります。
-
トレーニング速度が遅い : プロセスが 非常に煩雑
-
トレーニングに必要な大容量 : SVM および bbox回帰トレーニングの場合、 各画像内の各ターゲット候補 ボックスから特徴を抽出し 、ディスクに書き込む必要があります。 VGG16 などの非常に深いネットワークの場合 、 VOC07 トレーニング セットの 5k画像から 抽出された特徴には数百 GB のストレージが必要です 。