アンカーの理解の高速化R-CNN

RPN

  まず、RPNは、候補領域選出方法ですか?上記の図を参照してください。ネットワークVGG全体特徴画像を抽出した後、我々は画像ウィンドウのスライドをスライド3×3を使用し、各位置のために、我々はまた、K個の異なる領域提案を予測するので、出力分類層含む2Kの左上隅(ことを示しますバック層を有するフレームの右上隅には、4K出力(領域座標グラウンドトゥルースに4つの補正量の座標で表される)、)オブジェクトの確率です。提案は、実質的に対応するオブジェクト内の画像フレームにおけるk k番目の位置であることを特徴とします。
  第二に、なぜ256次元ベクトルのうち畳み込みは、k個のアンカーに対応することができますか?個人的な理解、アンカーボックス固定(青色で概略図に対応する原画像上の中心点のアンカーボックスであるが、そのほとんどである中心点である原画像のサイズに対応するアンカーボックス)の私達の人間の大きさが、実際には、ニューラルネットワークとk番目のニューラルネットワークパラメータとしてで箱入りのアンカーを調整しませんでした。その代わりに、各々に基づいて訓練プロセスにおけるニューラルネットワークは、アンカーにその対応のK 4 * k個の箱は、アンカーの座標に対応する「アンカーボックスに応じて補正量を調整(補正座標の量を学習し、グラウンドトゥルースオブジェクト座標、学ぶために生じる損失の両方のずれ量」)。(誤解するだけでなく、見た目の批評家はコメントで指摘している場合、あなたに感謝!)

公開された40元の記事 ウォン称賛44 ビュー90000 +

おすすめ

転載: blog.csdn.net/Site1997/article/details/79327265