コンピューター ビジョン テクノロジー - 地域畳み込みニューラル ネットワーク (R-CNN)

領域ベースの CNN または CNN 特徴を備えた領域である R-CNN (Girshick et al., 2014) も、ディープ モデルをターゲット検出に適用する先駆的な研究の 1 つです。このセクションでは、R-CNN と一連の改善手法を紹介します: Fast R-CNN (Girshick, 2015)、Faster R-CNN (Ren et al., 2015))、Mask R-CNN (He et al., 2017) 。

R-CNN:

R-CNN は、まず入力画像からいくつか (たとえば 2000)の提案領域を選択し(アンカー ボックスなども選択方法です)、そのカテゴリと境界ボックス (オフセットなど) にラベルを付けます。(Girshick et al., 2014) 次に、畳み込みニューラル ネットワークを使用して、提案された各領域に対して順伝播を実行し、その特徴を抽出します。 

上の図は R-CNN モデルを示しています。具体的には、R-CNN には次の 4 つのステップが含まれます。

  1. 入力画像に対して選択的検索を使用して、複数の高品質提案領域を選択します (Uijlings et al.、2013)。これらの提案された領域は通常、複数のスケールで選択され、形状やサイズが異なります。提案された各領域には、クラスとグラウンドトゥルース境界ボックスがラベル付けされます。

  2. 事前トレーニング済みの畳み込みニューラル ネットワークを選択し、出力層の前で切り捨てます。各提案領域をネットワークが必要とする入力サイズに変換し、順伝播を通じて抽出された提案領域の特徴を出力します。

  3. 提案された各地域の特徴とその注釈付きカテゴリがサンプルとして取得されます。ターゲットを分類するために複数のサポート ベクター マシンをトレーニングします。各サポート ベクター マシンは、サンプルが特定のカテゴリに属する​​かどうかを判断するために使用されます。

  4. 提案された各領域の特徴とその注釈付き境界ボックスをサンプルとして取得し、真の境界ボックスを予測するように線形回帰モデルをトレーニングします。

R-CNN モデルは、事前トレーニングされた畳み込みニューラル ネットワークを通じて画像特徴を効果的に抽出しますが、速度は遅くなります。画像から提案された何千もの領域を選択する場合を想像してください。これには、物体検出を実行するために畳み込みニューラル ネットワークの何千もの順方向パスが必要です。この膨大な計算量により、R-CNN が現実世界で広く使用されることが困難になります。

高速R-CNN:

R-CNN の主なパフォーマンスのボトルネックは、提案領域ごとに、畳み込みニューラル ネットワークの前方伝播が共有計算なしで独立していることです。これらの領域は重なり合うことが多いため、独立した特徴抽出では計算が繰り返されることになります。 高速 R-CNN  (Girshick、2015) R-CNN に対する主な改良点の 1 つは、画像全体に対して畳み込みニューラル ネットワークの順伝播のみを実行することです。

上の図は、Fast R-CNN モデルを示しています。その主な計算は次のとおりです。

  1. R-CNN と比較すると、Fast R-CNN が特徴を抽出するために使用する畳み込みニューラル ネットワークの入力は、提案された個々の領域ではなく画像全体です。さらに、このネットワークは通常、トレーニングに関与しています。入力が画像であり、畳み込みニューラル ネットワークの出力の形状が 1× c× h_{1}×として記録されていると仮定しますw_{1}

  2. 選択的検索によりn提案領域が生成されるとします。これらの提案された異なる形状の領域は、畳み込みニューラル ネットワークの出力上の異なる形状の対象領域をマークします。次に、これらの関心領域は、簡単に連結して出力​​できるように、同じ形状 (指定された高さh_{2}と幅など) の特徴をさらに抽出する必要があります。w_{2}この目標を達成するために、Fast R-CNN は関心領域プーリング層(RoI プーリング) を導入します。畳み込みニューラル ネットワークの出力と提案された領域が入力として使用され、出力後に各提案された領域から抽出された特徴がn× c× h_{2}×の形でつながっていますw_{2}

  3. 全結合層を介して出力形状をn×に変換しますd。ここで、ハイパーパラメータはdモデル設計に依存します。

  4. n提案された各領域のクラスと境界ボックスを予測します。より具体的には、カテゴリと境界ボックスを予測する場合、全結合層の出力はそれぞれ形状の出力n\回q(qカテゴリの数) とn\times 4形状の出力に変換されます。ソフトマックス回帰は、カテゴリを予測するときに使用されます。

以下に、関心領域プーリング層の計算方法について説明する。畳み込みニューラル ネットワークによって抽出された特徴の高さと幅がX両方とも 4 で、チャネルが 1 つだけあると仮定します。

import torch
import torchvision

X = torch.arange(16.).reshape(1, 1, 4, 4)
X

tensor([[[[ 0., 1., 2., 3.], [ 4., 5., 6., 7.], [ 8., 9., 10., 11.], [12. 、13.、14.、15.]]]])

さらに、入力画像の高さと幅が両方とも 40 ピクセルであり、選択的検索によってこの画像上に 2 つの提案領域が生成されると仮定します。(x,y)各エリアはエリア対象カテゴリ、左上隅、右下隅の座標の5つの要素で表されます。

rois = torch.Tensor([[0, 0, 0, 20, 20], [0, 0, 10, 30, 30]])

より高速なR-CNN:

ターゲットの結果をより正確に検出するために、Fast R-CNN モデルは通常、選択的検索で多数の提案領域を生成する必要があります。 Faster R-CNN (Ren et al., 2015) は、選択的検索を領域提案ネットワーク に置き換えることを提案しています。これにより、生成される提案領域の数が減り、ターゲット検出の精度が保証されます。

上の図は Faster R-CNN モデルを示しています。Fast R-CNN と比較すると、Faster R-CNN では、提案領域の生成方法が選択検索から領域提案ネットワークに変更されるだけで、モデルの残りの部分は変更されません。具体的には、地域提案ネットワークの計算手順は次のとおりです。

  1. 1 でパディングされた 3×3 畳み込み層を使用して畳み込みニューラル ネットワークの出力を変換し、出力チャネルの数を として記録しますcこのようにして、画像の畳み込みニューラル ネットワークによって抽出された特徴マップ内の各ユニットは、c長さ の新しい特徴を取得します。

  2. 特徴マップの各ピクセルを中心として、異なるサイズとアスペクト比の複数のアンカー ボックスが生成され、注釈が付けられます。

  3. アンカー ボックスの中心単位の長さの特徴を使用して、cアンカー ボックスのバイナリ カテゴリ (ターゲットまたは背景を含む) と境界ボックスをそれぞれ予測します。

  4. 非最大抑制を使用して、予測クラスをターゲットとする予測境界ボックスから同様の結果を削除します。最終出力の予測バウンディング ボックスは、関心領域プーリング層に必要な提案された領域です。

Faster R-CNN モデルの一部として、領域提案ネットワークがモデル全体と一緒にトレーニングされることは言及する価値があります。言い換えれば、Faster R-CNN の目的関数には、物体検出におけるカテゴリとバウンディング ボックスの予測だけでなく、領域提案ネットワークにおけるアンカー ボックスのバイナリ カテゴリとバウンディング ボックスの予測も含まれます。エンドツーエンドのトレーニングの結果、領域提案ネットワークは高品質の提案領域を生成する方法を学習できるため、データから学習される提案領域の数を減らしながらオブジェクト検出の精度を維持できます。

マスクR-CNN:

画像上の各ターゲットのピクセルレベルの位置もトレーニングセットでマークされている場合、Mask R-CNN  (He et al., 2017) はこの詳細な注釈情報を効果的に使用して、ターゲット検出の精度をさらに向上させることができます。

マスク R-CNN は Faster R-CNN に基づいて修正されます。具体的には、Mask R-CNN は、対象領域の収束レイヤーを対象領域の位置合わせレイヤーに置き換え 双線形補間を使用して特徴マップ上の空間情報を保持することで、ピクセルレベルの予測により適したものにします。関心領域位置合わせレイヤーの出力には、関心領域と同じ形状を持つすべてのフィーチャ マップが含まれます。これらは、各関心領域のクラスと境界ボックスを予測するためだけでなく、追加の完全畳み込みネットワークを通じてオブジェクトのピクセル レベルの位置を予測するためにも使用されます。この章の後続の章では、完全畳み込みネットワークを使用して画像内のピクセル レベルのセマンティクスを予測する方法について詳しく説明します。 

おすすめ

転載: blog.csdn.net/weixin_43227851/article/details/135430275