高速R-CNN
ブリーフ:
プレゼンスRCCN以下の質問は:
(1)候補となる複数の領域に対応する画像を抽出する前に必要とします。;この現象は、ディスクスペースの多くを消費する
、伝統的なCNN(2)マップは、固定サイズを必要とし、生成された画像の正規の変形プロセスはCNNである画像のサイズの変化につながる入力を特徴抽出致命的な害;
(3)各領域の提案は、CNNのネットワーク・コンピューティングを入力する必要があります。ターンでは、何度も同じ特徴抽出を繰り返すようにコンピューティングの大きな浪費につながる動きをリードします。
上記の問題を解決するために、高速R-CNNは、トレーニングとテストの速度を向上させるためにいくつかのアップデートを使用していますが、また、検出精度を向上させます。この記事では、我々は、最も先進的な畳み込みニューラルネットワークに基づく訓練プロセスオブジェクト検出器を簡素化します。私たちは、分類アルゴリズムのローカライズ推奨共同研究・研修目標の単相を提案します。
モデル:
比較RCNN前に、改善されたよりも三倍:
1プルーフマス(MAP)は、RCNN、SPPnetより速い
2.トレーニングすべてのネットワーク層を更新することができるマルチタスク機能の損失を、トレーニングを使用して、単一段階であります
キャッシュメモリの4の特徴は、ディスクを必要としません。
モデルの詳細:
いくつかの畳み込み(CONV)と図CONV機能を生成する画像全体を処理する最大プール層を使用して最初のネットワーク。次いで、各ターゲット提案のために、関心領域(ROI)プーリング層が機能から固定長図特徴ベクトルを抽出しました。完全に接続(FC)層、マージされたマルチタスクモデルを分類する領域との内部にも、最後BBOX回帰、ニューラルネットワーク、に各特徴ベクトル系列。
1.特徴抽出段階:
選択検索選択検索(SS)の候補者の使用のような冒頭とRCCN方法は、画像内の2Kボックスについて取得します。抽出写真ながら畳み込みネットワーク機能。畳み込み後、元の画像サイズに異なる入力画像は、特徴マップ(図機能)異なるサイズを得る結果となるので、直接フル層分類に接続することができません。ROIのプーリングは、固定された寸法は、地図上の各機能のROIは、任意の大きさを表し、後続の各領域を分類することができることを確実にするために機能入力を抽出することができ、ネットワーク層(層conv5入出力領域提案)を提案しています通常の実行。
ROIプーリング層:
ROIは畳み込みマッピング機能マップのSS「候補ブロック」の完了後に得られることを意味し、各候補領域がH×W均一ブロックに分割し、各ブロックの最大プーリング。次の層への均一なサイズに候補領域特徴マップデータのサイズ。図は、以下:
このように、異なる入力画像サイズ、異なる寸法にして得られた特徴マップ(グラフ)が、この魔法ROIプーリング層領域に追加することができ、各機能のために抽出されているが、固定寸法を表すことができ、次いでによって通常のソフトマックスタイプ識別(紙に使用VGG16を、7×7を抽出するために必要とされます)。各ROIは、4つのタプル(R、C、H、Wによって定義される )、 指定された四組の左上隅(R、C)及び高さと幅(H、W)。
RCNNの存在を避けるために、上記の動作は、変形画像を聞かせ、または画像が小さすぎる問題となるため、一部の機能は、巨大なインパクトを選択した後、その後の機能を喪失していました。
2.特徴抽出:
高速R-CNNは、微調整の段階、共同最適化されたソフトマックスの分類があり、回帰は、境界ボックスされ、合理化されたトレーニングプロセスを使用しています。損失と損失の分類の統合を返す関数の合計損失は次のように
ネットワークを微調整して、分類および回帰BBOXが一緒に最適化されたソフトマックスに関連します:マルチタスク損失(マルチタスクの損失)、低容量サンプリング(ミニバッチサンプリング) 、バックプロパゲーションされたROIプーリング層(ROIプーリング層を介してバックプロパゲーション )、SGDのハイパー(SGDのハイパー)。