ターゲット検出比較直列R-CNN

これは、一連の記事についての一般的な考え方R-CNNを紹介します。トレーニングステップ、ステップの予測、および各論文の新規性を含みます。

R-CNN

以下は、R-CNNのフローチャートです。
R-CNNのフローチャート

トレーニング方法

図1に示すように、ラベルを有する入力画像を選択し、検索方法を使用する、候補領域を取得する(領域propossals、約2000)
2、各領域propossal、アフィン画像ワーピング(アフィン画像wraping)、これらの候補領域次に、特徴ベクトルは、CNNに投入された抽出物(CNNで固定サイズに入力場合、固定されている実際には気にしない入力層畳み込みサイズが、完全なバック接続層)と同じ大きさに画像を変換します。
図3は、候補領域の特徴ベクトルを得るために、予測カテゴリを取得するために彼のSVM分類器に投入し、次に容器回帰、回帰情報予測フレームに投入します。
図4に示すように、得られた予測結果は、タグの比較、損失関数、逆伝播の計算は、モデルパラメータを更新します。

ディテール

1、CNNの初期モデル

用途種類が事前教師研修モデルを描写し、このモデルは主に、後続の分類と回帰のための入力画像の特徴抽出のために使用されています

2、モデルを微調整

事前研修モデルがトレーニングデータセットの分類タスクを保持することであるが、今はないのでして分類に加えて、タスクを検出することであるが、また、国境に戻るには座標、その必要性微調整するためのモデルは、データ・セットを検出する作業をした、微調整は、2つの部分から成り、次のように:
(1)CNNの微調整:新しいトレーニング画像を、モデルを微調整するには、これらの候補領域を利用するために、約2000の候補領域を取得し、各候補領域の予測カテゴリと境界座標が前方に伝播することによって得ることができ、しかし、どのようにそれの目標値を決定するには?紙アプローチはIOUの予測フレームとターゲットフレーム(グランドトゥルース良好予め標識)を計算することであるIOU> = 0.5であれば、それは陽性クラス(ラベルがグランドトゥルースと一致している)であり、あるいは陰性クラスとして(カテゴリーに含まれていませんCNN微調整するトレーニングデータのセットと機能の喪失、モデルを訓練するために使用されていない)、
(2)トレーニングSVMを:ここで使用される(ハイパーパラメータは、実験的に得られるSVMバイナリ製、または方法は、上述したが、閾値を0.3に変更されます0.3未満の1より大きく0.3、0)へ。なぜソフトマックス分類されていませんか?論文は、精度が高く、SVMはないと言います。

予測プロセス

図1に示すように、選択し、検索方法を、候補領域得るために
2を、前記畳み込み各候補領域抽出
3、訓練された分類と回帰予測部使用して得られた特性を保持し
、4を最終的な予測結果得られたNMSを使用。

概要

R-CNNは、任意の技術革新で、アルゴリズムの各特定の工程ではないが、基準方法の論文があるが、この方法は、新しいものではないが、より基本的な方法をまとめているが、良い結果を得ました。
短所:
1、候補領域を選択するように選択検索、非効率、及び畳み込み演算が多数繰り返され、そこである
ターゲットの変形をもたらす、2、スケールスケーリング問題候補領域は、認識の正確さに影響を与えます

速いR-CNN

欠点が改善するために行うためにR_CNN主のために

トレーニング方法

ここに画像を挿入説明
図1に示すように、ラベルの付いた入力画像、候補領域を取得することを選択し、検索方法の使用;
2、ROIプーリング:

  • フォワード畳み込み特徴マップは、ROIの投影(マッピング動作)は、特定領域の候補領域は、このように、候補領域とき畳み込み)をカウントダブル回避、最初のステップで特徴マップにマッピングされます。
  • ポーリングROIは、その後特別な場合にはSPP(プールされた空間ピラミッド)であるROIのサイズと同じサイズに変換され、単一のスケールされたROIのプールを使用しながら、操作をプールスケールの複数を使用してSPP細胞層をプールし、完全に接続された後、各ROIの特徴ベクトルを取得します。

3、損失の計算が、マルチタスクの損失ではなく、単一の列車SVM分類リターンと国境コントロールを使用して開始し、分類および回帰が最適化されている間、この分類は、ソフトマックス、一度微調整を開始しました(これは、操作を簡素化し、加速します速度)
4、バックプロパゲーションモデルのパラメータ更新

ディテール

1、ROIプーリング

ここに画像を挿入説明プーリングROIは、主に2つのことを行う:
原画像特徴マップの特徴マップ内の候補領域をマッピングするステップと、異なるサイズのROIを特徴ベクトル最大プールと同じ大きさに。
図マッピングは最後のステップとして、マトリックスは2.86に四捨五入される7×7 20×20及び2の行列から生成され、それは必要が2×2の最大プールの行列から1×1行列を生成することを意味し、それが実際にありますこれは、14×14のマトリクスによって生成される7×7行列です。
問題のROIプーリング:
我々はチャートから見ることができ、すべてのマップの上に、特徴マップ、ROIの機能に特徴マップから第二に、元の画像から、初めてのマッピングを行うために数回前後が取られます全体の動作は、複数の丸め操作は、元のフレームをマッピングするために、複数の画素がますます不正確な境界につながる、バイアスされます。

図2に示すように、マルチタスク損失

速いR-CNN統一カテゴリ出力タスクと候補ボックスタスクを返します。マルチタスクの損失関数の定義は次のとおりです。
ここに画像を挿入説明

概要

速いR-CNNの主要な改善点:

  • 候補領域の共有畳み込み、畳み込み繰り返し動作が高速化によって引き起こされる単一の候補領域を避けます。
  • 利用roi pooling,避免了剪裁而导致的变形问题;
  • 多任务损失,统一了类别输出任务和候选框回归任务。

faster R-CNN

最主要的改进就是在候选区域的改进,提出RPN和anchor box,大幅增加速度。。
其中RPN网络将候选区域的选择从图像中移到了feature map,拿anchor box在feature map中滑动窗口,相比select search快了很多。

训练过程

1、cov layers:直接对有原图进行正向卷积,得到feature map;
2、RPN:

  • 对feature map进行滑动窗口,同时利用anchor box,得到ROI,如果当前feature map大小为W×H,k = 9个anchor box,那么将会得到k×W×H个anchor;
  • 利用ROI pooling将ROI转换为同样大小的特征向量;
  • 将特征向量同时扔给分类器和回归器,cls分类器是一个two-class softmax layer,预测输出一个二维数据,用来预测当前这个ROI有无目标的概率(共2k个scores),回归器用来回归边框的坐标信息,是一个四维的输出(4k个坐标值)
    ここに画像を挿入説明
    4、IOU>0.7视为正类,<0.3为反例,其余的不用于训练,损失函数如下,从损失函数可以看出,坐标的回归只对存在目标的边框计算损失(Lcls 和 Lreg 和fast R-CNN一样)
    ここに画像を挿入説明
    ここに画像を挿入説明ここに画像を挿入説明
    5、反向传播更新模型参数

测试过程

1、 把任意大小的图片输入 CNN 通过卷积层进行特征提取;
2、利用 RPN 网络产生高质量的建议框, 每张图片约产生 300 个建议框;
3、将建议框映射到 CNN 的最后一层卷积特征图上;
4、用 RoI pooling 层固定每个建议框的大小;
5、利用分类层和边框回归层对建议区域进行具体的类别判断和精确的边框回归;
6、NMS得到最终预测框;

总结

R-CNN系列论文主要就是在不断的加速,主要是针对候选框的加速,而采用的方法就是不断地将任务向feature map上迁移,尽量用网络解决问题,这样训练的更快。

Mask R-CNN

mask R-cnn是一种对象实例分割方法,基于faster R-cnn做了改进。
实例分割(instance segmentation):不仅区分类别,而且区分单个对象
语义分割(semantic segmentation):仅区分类别,不区分单个对象

相对于faster R-cnn的改变

(1)多分支输出
(2)binary mask
(3)ROI Align

多分支输出

在faster R-CNN中,到class box输出就结束了,但是,这里继续对ROI特征进行全卷积(FCN),从而得到ROI中对象的mask。
ここに画像を挿入説明

binary mask

在FCN中,是对每个像素用softmax进行多分类,而mask R-CNN对ROI进行二分类,只需要判断每个像素是背景还是识别对象即可,二分类相对于多分类,难度下降,分类精度也提高了
ここに画像を挿入説明

ROI Align

ROI ROIプーリングの合わせ実際に正確なバージョン、
特徴マップにおける小さな変化、必要以上に厳しいセグメンテーションタスク境界検査タスクの精度ので、それに合わせてもよい、原画像の各画素におけるいくつかの変化にマッピングされてもよいですセグメンテーション精度を高めます。
ここに画像を挿入説明ROI整列算出マッピングプロセスなし丸め操作、
上に示したように、マッピングの最後のステップにおいて、マトリックス20.78×20.78からの7×7にマッピングされたマトリックスは、マトリックス2.97×2.97でからプールされた最大値を必要とします1×1の代表値は、どのようにそれを行うには?
バイリニア補間
ここに画像を挿入説明
図4のようにサンプルの数を想定している、すなわち2.97 * 2.97 4つの各小領域についても同様に、いずれかの各中心点、画素の中心点、二線手段補間法を算出するので、4点の画素値を得るであろう、「×」画素値を双線形補間アルゴリズムにより算出される上に4つの赤い十字は、の4つの画素値の最大値とします画素値(最大プール)の小領域(即ち:2.97×2.97サイズの領域)

おすすめ

転載: blog.csdn.net/qq_41332469/article/details/89286595