ニューラルネットワーク(10)の高速化R-CNNの理解

より高速なR-CNN:このオブジェクト検出枠リージョン提案+ CNNの分類地方の提案ネットワークでリアルタイムに向けて物体検出、地域提案の質が直接対象タスクの検出精度に影響を与えます。唯一の数百または少ない高品質の偽の選択ウィンドウを抽出する方法、および(偽陽性例が少ない)、目標検出の速度を加速するだけでなく、目標検出のパフォーマンスを向上させるだけでなく、高い再現率を、あなたの見つけた場合。RPN(地域提案ネットワーク)ネットワークがされて入ってきました。

ここに画像を挿入説明

1)RPNの核となるアイデアは、領域提案直接生成畳み込みニューラルネットワークを使用することで、実質的に使用されるスライディングウィンドウ法です。RPN設計はより巧妙であるアンカー機構及びフレーム戻り、マルチスケール、マルチアスペクト比領域提案することができるので、RPNは、単に、最後の畳み込み層上に再びスライド。
2)画像を抽出する候補ボックスSelectiveSearch最も一般的な方法の抽出のための高速R-CNNアーキテクチャは約2秒の時間がかかり、改善されたアルゴリズムは、0.2秒に効率EdgeBoxesを改善するが、それは十分ではなかったです。候補フレーム抽出もこの仮定に基づいて、特徴マップ、低解像度マップ機能手段少ない計算することができ、元の上で行う必要はなく、レンShaoqingらRPN(RegionProposalネットワーク)、これに対する最適なソリューションのMSRA問題は、我々は最初のネットワークトポロジを見てください。
ここに画像を挿入説明
追加RPNブランチネットワークを追加することによって、候補フレーム抽出は、より速いRCNNランドマークの寄与であるネットワークの深さ、にマージ。RPNネットワーク特性スライディングウインドウの方法によって達成される抽出候補ブロック、各スライディングウィンドウの位置は、9つの候補ウィンドウ(異なるスケール、異なる幅と高さ)を生成し、ターゲットに対応する9つの候補ウィンドウ(アンカー)の特徴を抽出します同様のFastRCNNとの分類と回帰ボーダー。ターゲット分類は候補のみが前景または背景などの機能をボックスを区別する必要があります。
下に示すように、コマ戻し、より正確な決意目標位置、基本的なネットワーク構造:
ここに画像を挿入説明
候補ブロックの選択を伴うトレーニングプロセスによって選択します。

  • アンカー境界を越えて低下しました。
  • 0.7よりも面積の大きなオーバーラップアンカー試料は領域を重複する較正背景0.3未満である、前景としてラベル付けされます。

对于每一个位置,通过两个全连接层(目标分类+边框回归)对每个候选框(anchor)进行判断,并且结合概率值进行舍弃(仅保留约 300 个 anchor),没有显式地提取任何候选窗口,完全使用网络自身完成判断和修正。
从模型训练的角度来看,通过使用共享特征交替训练的方式,达到接近实时的性能,交替训练方式描述为:

  • 根据现有网络初始化权值 w,训练 RPN;
  • 用 RPN 提取训练集上的候选区域,用候选区域训练 FastRCNN,更新权值 w;
  • 重复 1、 2,直到收敛。

因为 Faster-RCNN, 这种基于 CNN 的 real-time 的目标检测方法看到了希望, 在这个方向上有了进一步的研究思路。至此,我们来看一下 RCNN 网络的演进,如下图所示:
ここに画像を挿入説明
ここに画像を挿入説明
ここに画像を挿入説明
3) RPN 架构
RPN 采用任意大小的的图像作为输入,并输出一组候选的矩形,每个矩形都有一个对象分数。RPN 被用于训练直接产生候选区域,不需要外部的候选区域。
ここに画像を挿入説明
ここに画像を挿入説明
Anchor 是滑动窗口的中心,它与尺度和长宽比相关,默认采 3 种尺度(128,256,512), 3种长宽比(1:1,1:2,2:1),则在每一个滑动位置 k=9 anchors。我们直接看上边的 RPN 网络结构图(使用了 ZF 模型),给定输入图像(假设分辨率为600*1000),经过卷积操作得到最后一层的卷积特征图(大小约为 40*60)。在这个特征图上使用 3*3 的卷积核(滑动窗口)与特征图进行卷积,最后一层卷积层共有 256 个feature map,那么这个 3*3 的区域卷积后可以获得一个 256 维的特征向量,后边接 clslayer(box-classification layer)和 reg layer(box-regression layer)分别用于分类和边框回归(跟 Fast R-CNN 类似,只不过这里的类别只有目标和背景两个类别)。 3*3 滑窗对应的每个特征区域同时预测输入图像 3 种尺度(128,256,512), 3 种长宽比(1:1,1:2,2:1)的 region proposal,这种映射的机制称为 anchor。所以对于这个 40*60的 feature map,总共有约 20000(40*60*9)个 anchor,也就是预测 20000 个 regionproposal。
高速R-CNNは、領域提案単離されたであろうとCNN分類は、エンドネットワークへのエンドの両方速度や精度で、標的検出を使用して、良好な増加となっている、一緒に融合されます。しかし、高速R-CNNのまたはリアルタイムターゲット検出、事前取得領域提案に達し、それは各案件の分類のための計算の非常に大きい量です。幸い、このようなターゲットの出現のためのリアルタイム検出方法が可能となることができYOLOです。この設計の利点は何ですか、それは?ウィンドウポリシーをスライドさせながら今ことを除いて、使用されている:スライディングウィンドウ操作は元の画像と比較して寸法を低減層、前記図畳み込み、上で実行される16*16(後に途中で4回回2*2操作をプール); 9つのアンカーのマルチスケール使用、当時ボーダー3度、アスペクト比の3種類に加え後ろ対応する9つのアンカーターゲットのようであっても外部ウィンドウが比較的近いregionproposalを得ることができます。

4)まとめ
ここに画像を挿入説明

公開された163元の記事 ウォンの賞賛117 ビュー210 000 +

おすすめ

転載: blog.csdn.net/u010095372/article/details/91344687
おすすめ