古典的な目標検出ネットワークを学ぼう!兄を崇拝します!!
より高速なR-CNNのオブジェクトは、リアルタイムターゲット検出領域候補のネットワークタスクを達成することです
- 検出対象領域ネットワーク上の現在位置は、候補オブジェクトの仮説のアルゴリズムを利用しています。SPPNet高速走行時間を短縮するためにR-CNNなどが、今回もその候補の実行時間のボトルネックの計算面積という。本研究では、候補領域のネットワークは、このようにほとんど費用の候補領域を取得し、検出ネットワークと共有畳み込みの全体像を特色に紹介します。
- RPNは、完全な畳み込みネットワークであり、それは同時に、各位置での国境とobjectnessスコアを予測することができます。列車のRPN終了するように高品質領域候補生成する検出のための高速R-CNNに使用されます。我々はさらに、単一のネットワークにRPNと速いR-CNNを合わせ、注意メカニズムを使用し、それらの畳み込みを共有することによって特徴付けられます。RPNは見て統一ネットワークのこの部分を教えてください。
- 高速R-CNNネットワーク領域候補に費やした時間を無視して、当然のことながら、リアルタイムに近い速度を達成するために、非常に深い使用。
- この記事では、我々はアルゴリズムの変化を示し、深い畳み込みニューラルネットワークの候補によって算出され、この時点では、与えられたネットワークの検出を計算する際に、候補者はほとんど計算される負いません。テスト時に畳み込みを共有することにより、候補者の計算で追加コストは小さいです。
- 上記畳み込み高速R-CNN層に基づいて、我々は、畳み込みを実行するために、追加の層を追加し、バック境界領域は、規則的なグリッド上の各位置で同時にターゲット。
RPNは、有効領域候補が寸法の広い範囲を有するとのアスペクト比を予測するように設計された
図が示されている上述の図、(A)は、このモデル画像と特徴、全てのスケール上の場合の分類を実行、(B)のピラミッドピラミッドは特徴マップ、©参照ボックスのピラミッドを使用した方への復帰で実行した場合。
(A)は、すなわち、異なるスケールの使用は、画像をスケーリングし、各スケールのための特徴マップを計算し、画像/特徴ピラミッドと呼びます。効果的で時間のかかる方法
図フィーチャサイズの(B)は、この時点で固定されているが、マルチスケールの使用は、図のスライディングウィンドウにあります。典型的には、この方法は、組み合わせて(A)である
方法が本明細書中で使用される、よりコスト効率の高い保存角錐アンカーとなる(C)。このとき、異なるアンカーボックスのバウンディングボックスの分類および回帰の寸法およびアスペクト比を有します。この場合、画像は、前記図、スライディングウィンドウのサイズはユニークです。 - 我々は、彼らが様々な比率及びアスペクト比の基準として使用することができ、新たな「アンカー」ボックスを導入しました。我々の回帰方式は、列挙又はイメージ比又はフィルタのアスペクト比を複数有する回避基準ピラミッド(図1、C)として見ることができます。単一の画像スケール訓練および試験は、モデルがうまく実行されたとき、それによって、動作速度を上げます。
統一R-CNNとFast R-CNN目標検出ネットワークへのために、我々はトレーニングモードを提案します。彼は交互に固定候補にこれらの二つの側面の目標検出微調整のための微小領域候補タスクに取りました。これらのモデルは、2つのタスクはコンボリューション特性を共有することができる間、同時に、急速に収束します。
- 高速R-CNNは、2つのモジュールで構成され、第一のモジュールは、領域を抽出するために、ネットワークの完全な畳み込みの深さで、第2のモジュールは、高速R-CNN検出器であり、それは、その領域を使用することが提案されています。
- アクティブ領域候補ネットワークが:入力、出力として任意のサイズの矩形ターゲット候補の一連の画像は、各候補はobjectness画分を有します。ここで、objectnessセットにグループコンテキストオブジェクトのクラスのメンバーとの関係「objectness」対策のメンバーシップを測定するための「オブジェクト」の背景対オブジェクトクラスの。
畳み込み順に農産物候補領域に、我々は最後の畳み込み層で共有生成します図の出力特性に摺動小さなウェブ。入力ウィンドウとしてN×N図の特徴空間の入力ネットワークのこの小さな畳み込み。各スライディングウィンドウは(256-DにZF 512-DにVGG、ReLU [33]に続く)低次元の特徴にマッピングされます。
バック層とカートリッジ分類REG層CLSカートリッジ:この機能は、2つのフル姉妹接続層に入力されています。このため、小規模なネットワークの全ての空間位置が完全に接続された層を共有しているように、スライディングウィンドウ上で動作します。 - アンカー:候補位置の各々におけるkまで提案されており、出力は4K REG層が存在し、CLSスコアは(バイナリ物品を使用して)2Kを有しています。このkは参照フレームkについて「アンカー」と呼ばれる得られたパラメータの候補です。ここで、各アンカー窓中心をスライドセンター、及び対応するスケールをポイントし、アスペクト。
- アンカーは、候補に関連するアンカー、アンカーと計算関数の形から、不変性をシフトします。画像内のオブジェクトで候補は、候補もパンニングべきであり、同様の機能を実現することができる場合、両方の位置の候補と予想されます。翻訳不変性は、モデルのサイズを小さくします。
- 基準のフレームとしてアンカーのマルチスケールリターン
- 正と示すRPNの訓練で陰性サンプル:私たちは二分各アンカーに割り当てるクラスラベル。次の2つのアンカーは、正のタグを付与する:ゴールド標準カセットおよびIOUは、最高の重複を有し、アンカーと金本位制がIOUが0.7よりも高い比率と重なる有します。すべてのIOUカートリッジの非正およびアンカーゴールドスタンダードが0.3より低い場合は、負のサンプルのラベルを提供します。正と負のサンプル間のアンカーは、研修に参加していません
- 多任务损失函数:
仔细阅读这个损失函数:i表示anchor在mini-batch中的索引号,pi表示anchor i属于是一个对象的预测概率。这个损失函数分为两项,前者为类别loss,后者为回归loss。ti是指bbox的四个顶点构成的向量。且由于定义时,正样本的pi为1,负样本的pi为0,就代表后一项仅对正样本有效。
且从上述公式中可以知道,本工作用于回归的特征是具有相同的空间尺寸。为了考虑到变化的尺寸,学习了一系列的k个bounding-box回归器。每一个回归器负责一个尺寸和一个纵横比,这k个回归器不共享权值。 - 在训练过程中,来源于一个单一图像的每一个mini-batch都包含很多正负样本anchors。但是,由于负样本较多,如果使用所有的anchors来对网络进行训练,将会使得结果偏向于负样本。于是,本文采取的方法是从一幅图像中随机采样256个anchors来计算该mini-batch的损失函数。
15.有三种方式来训练有特征共享的网络:
1. 迭代式训练。首先训练RPN,然后使用候选来训练Fast R-CNN,由fast R-CNN调节过的网络然后被用来初始化RPN,这个过程被迭代。该方法在本篇论文中的所有实验中被使用;
2. 近似联合训练,此时这两个网络在训练过程中合并入一个网络。前向过程产生区域候选,这些候选将被视为固定大小、已经预计算的候选,来训练一个fast R-CNN检测器。在反向传播过程中,共享层的反向传播信号同时来源于RPN损失和Fast R-CNN损失。这个方法很容易实现,但是这种解决方案忽略了候选框坐标的梯度,但是这些梯度也是网络的响应。
3. 非近似联合训练,此时的RoI池化层对于box坐标是可微的,可以将bbox坐标作为输入,从而可以在反向传播过程中计算关于box坐标的梯度。 - 本文提出的训练方案(主要针对如何在Fast R-CNN和RPN间共享卷积层)。首先训练RPN网络;然后,使用由RPN网络生成的候选框来训练一个单独的Fast R-CNN检测网络,到目前为止,两个网络之间并没有共享的卷积层;然后,使用检测网络来初始化RPN的训练,但是此时固定住共享的卷积层,只对专注于RPN的层进行优调;最后,保持共享层固定,只对专注于Fast R-CNN层的卷积层进行优化
- 結果:
SSは、選択的検索であり、EBがEdgeBoxesがされた
トレーニングの速度をスピードアップするために、RPN高速R-CNNのネットワークで使用し、使用候補ブロックの数を減らすために、それは軽減も最後地域ごとの完全に接続された層を取るように。