深さの記事 - 手の込んだからの高速R-CNNのターゲット検出の高速化R-CNNにターゲット検出（D）の歴史

メインコンテンツにスキップ

ディレクトリオブジェクトの検出履歴を返します。

前：深さ記事-ターゲット検出履歴（C） SPP-Netのターゲット検出を手の込んだ

次へ：深さ記事-ターゲット検出履歴（5）精巧なSSDの目標検出

このセクションで、精巧からの高速R-CNN高速R-CNN物体検出、次のセクション精巧SSDにおける物体検出に

四。高速R-CNNターゲット検出（2015）

R-CNNの著者は、高速R-CNNを開発しましたので、ダブルカウントR-CNNとSPP-ネットの問題を解決するために、2Kについてバウンディングボックスをもたらします。

1.高速R-CNN主なアイデア

（1）簡略化層SPPを使用して

使用ROIは、層をプールし、操作はSPPに似ています

（2）トレーニングとテストはいくつかのステップではなくなり

中間層の店舗機能、傾斜層への追加のハードディスクいいえ線形ROIをプールすることによって広げることはできません。マルチタスクの方法に加えて、分類および回帰一緒に

（3）。SVD

SVD接続層のフルマトリックス・パラメータを使用して、2つの小規模な圧縮多くは、完全に層を接続されています。

2.高速R-CNNの主な手順

（1）。指名エリアに地域の提案

そのような選択的な検索などの方法により、元の画像から抽出された領域提案バウンディングボックス

（2）特徴抽出

画像全体がCNNネットワークに入力され、関連する特徴マップを取得

（3）マッピング

最後のマッピング機能にバウンディングボックスが上にマッピング

（4）領域の正規化

ROIは、特徴マップの固定サイズを与えるために、特徴マップの各々のための境界ボックス操作領域提案を（このプロセスは動作層SPPの簡略化されたバージョンに類似している）プーリング行います。

ROI特定の操作のプールは、私が書いたものに戻って参照することができます：深さ記事-上CNN畳み込みニューラルネットワーク（C）ROIプーリングとROI合わせ補間を

（5）分類および回帰

次に、2つの完全に接続された層、マルチターゲット検出ソフトマックス分類それぞれ（ここでの重要な変更は、以前はSVM分類によって行われていた）を経て、微調整回帰モデルとの境界の位置とサイズ。

SPP-Netは良い方法である、R-CNNは、高速R-CNNまで前進SPP-Netの方式でR-CNNに基づいて採用される性能をさらに向上させることができるので、R-CNNは、改善されました。高速R-CNN実際にはROIプーリングとSPP層を置き換える、マルチタスクの損失でSPP-NetのSVMを交換してください。

R-CNNの3高速フローチャート

機能4.高速R-CNNの損失をマルチタスク

（1）高速R-CNNは、2つの出力損失の結果を有しています

（2）出力は、カテゴリK + 1のために、（各ROIのための）離散確率分布である（kはROI、背景のオブジェクトの分類である）です。 $\大P =（P_ {0}、\; ......、\; P_ {K}）$

（3）他の出力は、（ボックス回帰effsets境界）リターンバウンディングボックスが補償されます。各クラスkのためのターゲット・クラスのK番目の目標のためのものです。 $\ラージT ^ {K} =（T_ {X} ^ {K}、\; T_ {Y} ^ {K}、\; T_ \、^ {K} {W}、T_ {H} ^ {K} ）$

（4）分類および回帰バウンディングボックスの共同訓練に各タグLのROI上の損失で複数のタスクを使用します。

$\ LARGE L（P、\ミュー、T ^ {\ muは}、V）= \ \ {行列} L_ {CLS}（P、\ MU）始める+ \ラムダL_ {LOC}（T ^ {{\左\ミュー}、V）および（\ MU \; \である。前景）\\ L_ {CLS}（P、\ MU）＆（\ MU \;れる\;バックグラウンド）\端{行列} \右。$

$\ LARGE L_ {CLS}（P、\ MU）= -log_ {2} P _ {\ MU}$

$\ LARGE L_ {LOC}（T ^ {\ MU}、V）= \ sum_ {I \で（X、Y、W、H）} smooth_ {L_ {1}}（T_ {I} ^ {\ MU} - V_ {I}）$

$\ LARGE smooth_ {L_ {1}}（X）= \ \左{\開始{行列} 0.5 X ^ {2}・| X | <1 \\ | X | - 0.5＆| X | \ GEQ 1 \端{行列} \右。$

$\大\ムー$ ：グランドトゥルースに対応する各研修ROIは、それが前景と背景とに分かれています

$\大V$ ：座標の本当の真実のための地面、 $\大V =（V_ {X}、\; V_ {Y}、\; V_ \、{W}、V_ {H}）$

$\ラージT ^ {\ MU}$ ：最初の場合 $\大\ムー$ 、ターゲットクラスのバウンディングボックスを戻り補償、 $\ラージT ^ {\ MU} =（T_ {X} ^ {\ MU}、\; T_ {Y} ^ {\ MU}、\; T_ \、^ {\ MU} {W}、T_ {H} ^ {\ MU}）$

$\大P$ ：Doが、算出された各ROIのk + 1分類確率のためのソフトマックス $\大P =（P_ {0}、P_ {1}、...、P_ {K}）$ 。このK + 1、kはターゲットの分類、背景の分類k番目です。

$\大L_ {CLS}（P、\ MU）$ ：最初の場合 $\大\ムー$ の損失の実数のカテゴリ（クロスエントロピー）

$\大L_ {LOC}（T ^ {\ MU}、V）$ ：各々について $\大\ムー$ タプル予測 $\ラージT ^ {\ MU} =（T_ {X} ^ {\ MU}、\; T_ {Y} ^ {\ MU}、\; T_ \、^ {\ MU} {W}、T_ {H} ^ {\ MU}）$ と実際のグランドトゥルースは、対応するタプル座標 $\大V =（V_ {X}、\; V_ {Y}、\; V_ \、{W}、V_ {H}）$ 失いました。

$\大L_ {1}$ ：強い $\大L_ {1}$ （R-CNNとSPPネットで使用外れ値に敏感損失、 $\大L_ {2}$ 損失）

$\大\ラムダ$ ：2つの損失関数のバランスを取るために超パラメータ。グランドトゥルース正規化されたリターン・ターゲットの $\大V_ {I}$ 平均と単位分散はゼロであり、これらの実験で使用されています $\大\ラムダ= 1$ 。

5.高速R-CNN VS R-CNN＆SPP-ネット

高速R-CNNは、入力画像全体が画像CNN演算、ROIプーリング及び効率は、より速いR-CNNとSPPネット、R-CNN作物よりや反りを生じないように使用されているため、またはエラー。また、高速R-CNNは、より良い効率分類モデルのトレーニング及びテストし、結果が大幅に改善されるように、ソフトマックス代替SVMを用います。ユーザーが大量のデータモデル、SVMの状況は非常に恥ずかしいです関係していたときに限られたデータでは、SVMの使用は、しかし、良くなります。それが計算別の目的ではなく、ソフトマックスがある計算されるので、それは一緒に計算され、それはまた、分類カテゴリ時間の比較的多く、その結果、SVMモデルは比較的大きくなります。

ファイブ。より高速なR-CNNのターゲット検出（2015）

1.高速R-CNN指名領域に選択的な検索を使用するには、速度がまだ十分に速くないです。高速R-CNN RPN（地域提案ネットワーク、RPN）ネットワークを使用して直接計算バウンディングボックス。RPNは、矩形領域の入力と出力の数の任意のサイズの画像は、ターゲット分類および位置情報に対応する各指名しました。

2. RPNノミネートエリアネットワーク

RPN出力は、ボックス/提案のセットで分類および回帰は、ターゲットがある場合、これらのボックス/提案検査、最終検査が発生するであろう。より正確には、RPNネットワークは、アンカー前景または背景を見込んでおり、アンカーは洗練されています。

（1）。具体的にはRPNネットワーク

①。RPNは、特徴マップ上のウィンドウをスライディング、最後の畳み込みネットワーク層の後に追加しました。

②。ニューラルネットワーク回帰オブジェクト分類+ボックスの場所を構築するには

位置③。スライドウィンドウ、オブジェクトの一般的な位置情報が提供されます。

④戻りボックスは、ボックスのより正確な場所を提供します

⑤。訓練されたバウンディングボックス領域によって。

（2）。前景と背景クラシファイア

最初のステップは、トレーニングデータセットを確立することである分類器をトレーニング、トレーニングデータセットは、アンカーのすべてをマークするRPNプロセスおよびそれらのグランドトゥルースボックスです。基本的な考え方は次のとおりです。望ましい高いフォアグラウンドオーバーラップアンカーとしてラベル持つように、下の重複ラベルされた背景を持つアンカー。明らかに、これは独立した、前景と背景にいくつかの調整と妥協が必要です。実際には、これらの詳細を照会することができますので、アンカーマークがあるでしょう。

（3）。で、アンカー上の特徴

例えば、600×800画像CNNの適用後、すべての16個のステップ回点滅し、1989（39 X 51）特徴マップを得ました。この1989年の特徴マップでは、それぞれの場所は9つのアンカー、アンカーを持っており、それぞれは、2つの可能なラベル（前景と背景）があります。特徴18（アンカーが2×9番目ラベル）の深さにマップする場合、各アンカーは、前景と背景として表される2つの値（一般ロジットをいう）が存在する、請求項ベクトルとして定義されます。入力ロジットソフトマックス/ロジスティック回帰機能が有効化されている場合、ラベルは予測することができます。だから、トレーニングデータは、既に機能やラベルが含まれています。その機能は、両方のアンカーにもラベルが含まれている、機能が含まれてマッピングします。

3.アンカーアンカー

（1）アンカーが速くR-CNNにボックス、位置（ピクセル）であるデフォルト画像9は、アンカーを有しています。

（2）の位置（ピクセル）9アンカー。

マークされた赤いボックスの縦横比が1：1,1：2,2：1、ブロックのこれら三つのグループは、このような比率であってもよいです。

（3）入力画像が各ステップのためのセレクト位置（ピクセル）16で、600×800である場合、1989（39 X 51）の位置が存在することになります。これは、17906（1989×9）の2つのボックスを考慮する必要があります。これは、スライディングウィンドウの絶対的な大きさとピラミッドの少数ではありません。それとも、それは良好な被覆およびその他の高度な方法として、ある理由であると推察することができます。明るい側は有意数を減少させるネットワークRPN高速R-CNNのアプローチで使用されます。これらのアンカーは、パスカルVOCデータセットとCOCOデータセットのために非常に効果的です。また、需要の自由度に応じてアンカーボックスの種類を設計することができます。

4.高速化R-CNNの主な手順：

（1）特徴抽出

画像特徴量を用いて得られたCNNネットワーク全体の入力画像は、CNNをマッピング

（2）。指名エリアに地域の提案

上記機能は、ネットワーク内のK個の異なるアンカーボックス畳み込みスライディングウィンドウ、ノミネート（RPNを使用して、CNN RPN入力ネットワークを取得マッピングし、RPNに対するネットワークの分類と回帰をマッピングすることによって真理ボックスアンカーを接地しますその特徴マップ、kは、）は、一般に約300の推奨を生成するために、各画像ウィンドウ9

（3）。ROIプーリング

1つのマッピング機能に得られた提案ウィンドウがCNNが発生マップ各ROI ROIプーリング固定サイズの機能を行うことにより、上記で得られたマップ

（4）分類および回帰

使用ソフトマックス損失（検出分類確率）と $\大smooth_ {L_ {1}} \。損失$ リターンとの国境の分類確率について（検出枠回帰）共同訓練。

5.高速R-CNNフローチャート

6.高速R-CNNは、選択検索を放棄し、RPNネットワークが導入されました。RPN、RPN計算の最大量と目標ネットワーク共有では、世界の提言を生成ノミネート面積オーバーヘッド領域は、選択的な検索代替検索よりもはるかに小さいです。単純に、フレームのRPN面積を置く（またはアンカーボックスとして理解）、ソート、および前方の物体を含む可能性が最も高い地域の枠を置きます。これはさらに加速を得るために畳み込みと共有領域の提案、分類、回帰機能を行います。

7.高速R-CNN損失関数

目的関数を最小化し、マルチタスクの損失の定義に従ってください。関数の高速R-CNN画像定義：

$\大L（\ {P_ {I} \}、\ {T_ {I} \}）= \ {} {マトリックスを開始\ \ FRACを{1} {N_ {CLS}} \ sum_ {I} L_ {\左CLS}（P_ {I}）+ \ラムダ\ FRAC {1} {N_ {REG}} \ sum_ {I} L_ {REG}（T_ {I}、T_ {I} ^ {*}）＆（前景） \\ \ FRAC {1} {N_ {CLS}} \ sum_ {I} L_ {CLS}（P_ {I}）＆（バックグラウンド）\端{行列} \右。$

$\大L_ {CLS}（P_ {I}）= \ \ {\開始{行列} -log \を残しました。 P_ {I} - （前景）\\ -log \。（1 - P_ {I}）＆（バックグラウンド）\端{行列} \右。$

$\大L_ {REG}（T_ {I}、T_ {I} ^ {*}）= smooth_ {L_ {1}}（T_ {I} - T_ {I} ^ {*}）$

$\大smooth_ {L_ {1}}（X）= \ \左{\開始{行列} 0.5 X ^ {2}・| X | <1 \\ | X | - 0.5＆| X | \ GEQ 1 \端{行列} \右。$

$\大P_I$ ：目標アンカーのための確率予報

$\大T_I$ ：バウンディングボックスの4つのパラメトリック座標は、ベクトル予測しました $\大T_ {I} =（T_ {X}、T_ {Y}、T_ {W}、T_ {H}）$

$\大T_ {I} ^ {*}$ ：ベクトル座標パラメトリック4つに対応するアンカーと対応するグランドトゥルースボックスの展望 $\大T_ {I} ^ {*} =（T_ {X} ^ {*}、T_ {Y} ^ {*}、T_ ^ {*}、T_ {H} {W} ^ {*}）$

$\大I$ ：インデックスのアンカーのようミニバッチ

$\大\ラムダ$ ：Hyperparametricは、開示されたコードの中で早期に達成され、 $\大\ラムダ= 10$

$\大N_ {} CLS$ ：ミニバッチサイズとして、

$\大N_ {REG}$ ：アンカー位置の数

$\大L_ {CLS}（P_ {I}）$ 2つのカテゴリ（標的及び非標的）に対数損失。

$\大L_ {REG}（T_ {I}、T_ {I} ^ {*}）$ ：境界ボックスのリターンロス

8. R-CNN速い損失の4つの機能があります

（1）。RPN分類損失（アンカー良いか悪いですか）

（2）。RPNの回帰損失（アンカー--->提案）

（3）。（クラス上）速いR-CNN分類損失

（4）。より高速なR-CNNの回帰損失（案--->ボックス）

RPN損失高速R-CNNは、それぞれ同様の損失に対応します。

訓練プロセス9.、その受容野に注力する必要があります。特徴マップ上の各不明の受容野は、それが表すアンカーのすべてをカバーできることを確認し、そうでない場合はこれらのアンカーの特徴ベクトルを予測するのに十分な情報を持っていないでしょう。高速R-CNNに、アンカー間の異なる受容野しばしばオーバーラップするので、保持位置検知RPNこと。

手順に加えて10.タグアンカーを以下、アンカーは、精製リグレッサ同様の基準に従って選択することができます。ここで注意すべきことの一つは、フォアグラウンドがグランドトゥルースボックスためではなく、バックグラウンドの回帰に含まれるべきではないアンカーがマークされているということです。

11.高速R-CNNの高速R-CNNに対して効率と精度は、多くの改善、しかし、その高いアンカー（9 GE）に起因し、一般的には、効率はまだ少し遅いたが。今後の開発では、人々は9つのアンカーが遅い効率を引っ張っているので、それはSSDとYOLOでアンカーの使用を削減しようとするだろうと考えて、効率を向上させるために、我々はアンカーの使用を削減しました。バランスに完全畳み込みスケールで+ 3つのサンプルを使用して効率を向上させるためのアンカーの使用を低減するために、しかし、したがって、依存SSDマルチボックス開始スタイルの設定を使用する精度を維持または増強したい、とYOLO-V3の順序でそして効率と精度を思い出させます。