目標検出アルゴリズム高速R-CNN

:高速-R-CNNアルゴリズム:

  1.PRN候補フレーム抽出モジュール。

  2.Fast R-CNN検出モジュール。

2:より速く-R-CNNのフレームの紹介

  

 3:RPN導入

  トレーニングステップ3.1:1、入力画像又はZF VGGに最終的な特徴マップを与える層畳み込み、畳み込み層を共有してもよいが共有されてもよいです。

            2.小​​規模ネットワークのコンボリューションこの特徴マップを使用します

        元の矩形のウィンドウに対応する各画素スライディングウインドウ画像が9(アスペクト比の三種類の三種類*スケール)に設けられているにおいて2.1、アンカーポイントと呼ばれます。

        なぜここのオリジナルで、用として最後のアンカーは、元のキャリブレーションボックス最小勾配降下を求めて維持するために。

        2.2コンボリューション結果は、ネットワークへの入力とアンカー二つの小さなREG 1 * 1(回帰、ターゲットボックスを求める)とCLS(分類、ボックスは対象でないと判断)であります

       各ブロック位置よくトレーニングセット、コンパレータの出力REG標識3.場所ボックス、ネットワークは、勾配降下を使用して訓練されます

  

入力、出力矩形オブジェクト提案のシリーズのような任意スケール画像にRPNネットワークは、各オブジェクトの提案がobjectnessスコアをもたらしました。私たちは、このセクションでは、それを説明し、このプロセスをシミュレートするために、完全な畳み込みネットワークを使用しています。私たちの究極の目標は、目標検出の高速R-CNNネットワーク共有コンピューティングであるため、我々は2つのネットワークが同じコンボリューション層のシリーズを持っているという仮説を立てました。我々が研究ZeilerとFergusのモデル(ZF)畳み込みを共有することができる5つの層を有し、かつSimonyanおよびZisserman・モデル(VGG-16)畳み込み13を有し、層を共有することができます。

我々は小規模ネットワークのコンボリューション特徴マップ上を滑り、地域の提案を生成するには、これが最後の機能は、畳み込み層の共有出力をマップです。この小さな特徴マップネットワークのn * nは窓の畳み込みを入力する必要があります。各スライディングウィンドウは、低次元の特徴(ZF 256の寸法512の寸法VGGは、活性化関数ReLUが続く)にマッピングされます。この特徴は、二人の兄弟に入力され、完全に接続された層(ボックス回帰(REGの層)、箱分類層(CLS))。我々は、この論文では、N = 3を用い、入力された画像は、大きなドメインの有効な受け入れ(ZF 171個の画素、VGG 228画素)です。このミニ・ネットワークは、図3に示されている位置(左)です。全ての空間位置におけるスライディングウィンドウで動作するミニネットワークので、全体の接続層が共有するので、なお。このアーキテクチャは、二人の兄弟の畳み込み層1 *(REG、それぞれとCLS)に続いて達成さのn×n個の畳み込みの層です。

 3.2アンカー(アンカー)

  各スライディングウィンドウの位置において、我々は、各位置のための推奨の最大可能数をkとして表現された複数の領域の提案を、予測します。したがって、REG出力層k。4(角座標であってもよい(X、Y)+幅+高さ)は、k番目のボックスの座標を符号化するために、各オブジェクトの提案の確率かどうかを推定するCLS層2 k個の出力スコア確率。K Kの提案は、基準のパラメトリックなフレームで、我々はこれらの提案、と呼ばれるアンカー(アンカー)を置きます。問題のアンカーは、スライディングウィンドウに位置し、アスペクト比の比と関連されています。デフォルトでは、各スライド位置で発生3つのスケール三のアスペクト比、K = 9アンカーポイントを使用します。(通常2,400)畳み込み特性図のW * hでのサイズはW * H *のk個のアンカーポイントの合計

翻訳不変アンカー

  我们的方法的一个重要特性是是平移不变性,锚点本身和计算锚点的函数都是平移不变的。如果在图像中平移一个目标,那么proposal也会跟着平移,这时,同一个函数需要能够在任何位置都预测到这个proposal。我们的方法可以保证这种平移不变性。作为比较,the MultiBox method使用k聚类方法生成800个锚点,这不是平移不变的。因此,MultiBox并不保证当一个对象被平移式,会生成相同的proposal。

  平移不变性也减少了模型的尺寸,当锚点数k=9时MultiBox有一个(4+1)*800维全连接的输出层,而我们的方法有一个(4+2)*9维的卷积输出层。因此,我们输出层的参数比MultiBox少两个数量级(原文有具体的数,感觉用处不大,没有具体翻译)。如果考虑到feature projection层,我们的建议层仍然比MultiBox的参数少了一个数量级。我们希望我们的方法在像PASCAL VOC这样的小数据集上的风险更小

3.3  损失函数

在计算Loss值之前,作者设置了anchors的标定方法。正样本标定规则: 
  1) 如果Anchor对应的refrence box 与 ground truth 的 IOU值最大,标记为正样本; 
  2)如果Anchor对应的refrence box与ground truth的IoU>0.7,标定为正样本。事实上,采用第2个规则基本上可以找到足够的正样本,但是对于一些极端情况,例如所有的Anchor对应的reference box与groud truth的IoU不大于0.7,可以采用第一种规则生成. 
  3)负样本标定规则:如果Anchor对应的reference box 与 ground truth的IoU<0.3,标记为负样本。 
  4)剩下的既不是正样本也不是负样本,不用于最终训练。 
  5)训练RPN的Loss是有classification loss(即softmax loss)和 regression loss(即L1 loss)按一定比重组成的。

在计算Loss值之前,作者设置了anchors的标定方法。正样本标定规则: 
  1) 如果Anchor对应的refrence box 与 ground truth 的 IOU值最大,标记为正样本; 
  2)如果Anchor对应的refrence box与ground truth的IoU>0.7,标定为正样本。事实上,采用第2个规则基本上可以找到足够的正样本,但是对于一些极端情况,例如所有的Anchor对应的reference box与groud truth的IoU不大于0.7,可以采用第一种规则生成. 
  3)负样本标定规则:如果Anchor对应的reference box 与 ground truth的IoU<0.3,标记为负样本。 
  4)剩下的既不是正样本也不是负样本,不用于最终训练。 
  5)训练RPN的Loss是有classification loss(即softmax loss)和 regression loss(即L1 loss)按一定比重组成的。

3.4  RPN训练设置

(1)在训练RPN时,一个Mini-batch是由一幅图像中任意选取的256个proposal组成的,其中正负样本的比例为1:1.

(2)如果正样本不足128,则多用一些负样本以满足有256个Proposal可以用于训练,反之亦然.

(3)训练RPN时,与VGG共有的层参数可以直接拷贝经ImageNet训练得到的模型中的参数;剩下没有的层参数用标准差=0.01的高斯分布初始化.

四:.Fast R-CNN 的介绍

4.1 模型的流程图如下

  

  1.1 - 训练

    输入是224×224224×224的固定大小图片,经过5个卷积层+2个降采样层(分别跟在第一和第二个卷积层后面),进入ROIPooling层(其输入是conv5层的输出和region proposal,region proposal个数大约为2000个),再经过两个output都为4096维的全连接分别经过output各为21和84维的全连接层(并列的,前者是分类输出,后者是回归输出),最后接上两个损失层(分类是softmax,回归是smoothL1)

4.2  损失函数

  多损失融合(分类损失和回归损失融合),分类采用log loss(即对真实分类的概率取负log,分类输出K+1维),回归的loss和R-CNN基本一样。

  

 

おすすめ

転載: www.cnblogs.com/zhouyuqiu/p/11323350.html