ニューラルネットワーク(IX)の高速R-CNNの理解

したがって、フレーム
ここに画像を挿入説明
枠R-CNN図の比較とは、それが二つの主な違いがある発見された:最初、畳み込みプラスROIプーリング層の最後の層は、第二のマルチタスク(マルチタスク損失)を用いて機能喪失機能の喪失であり、トレーニングCNNネットワークにおけるボーダーバックに直接追加されます。

  1. 層をプールROIは、実際に各提案のためにピラミッド、ちょうど図の特徴をサンプリングする7×7の下に層をプールROIの異なるサイズを使用してSPP-NET、SPP-NETマッピングの簡素化バージョンです。VGG16ネットワーク512のための請求項図のconv5_3ので、七全領域提案対応すること。7入力次元として特徴ベクトル512は、完全に層を接続します。
  2. R-CNNトレーニングプロセスは、3つの段階に分け、また、ネットワークに参加マルチタスク機能フレームリターンロスを使用しながら、高速R-CNN SVM分類器、あるいは、その結果、トレーニングプロセスの全体の端部(除去領域提案を直接ソフトマックスを使用しています抽出段階)。
  3. 高速R-CNNのトリミングの過程でネットワーク、層の部分は、より良好な検出を得るためにも微調整畳み込みです。

RCNNで高速RCNNメイン貢献嘘我々は目標を追求してきた高速の加速は、問題は以下の分野で改善されました:

  • 販売1-- SPPのアイデアを学ぶ、添加しながら、(音符無駄ピラミッドという)層をプールROIの簡略化されたバージョンを提案
    候補ボックスマッピング機能に、SPPネットワークトレーニングの全体的な問題を解決するために、バックプロパゲーションにネットワークを可能にします。
  • 層マルチタスク損失 - ポイント2を販売
    1. 代わりに、SVMのSoftmaxLoss、SVMよりも証明したソフトマックス良い結果。
    2. SmoothL1LossはBoudingボックスのリターンを交換してください。分類および回帰境界合併(別の画期的なアイデア)、マルチタスキング損失層を介してネットワークの深さのさらなる統合、トレーニングプロセスの統合は、それによってアルゴリズムの精度を向上させることができます。
    3. 完全に接続された層は、いくつかの改善があり、私たちは見上げることができ、SVDによって加速が、革命的ではありません。
    4. 全ての層のモデルの訓練を更新するとき、外側引き上げ速度を除いて、製造することができる上記結合改善(高速SPP、10回の試験速度のトレーニングよりも3倍)より良好な検出結果を得るために(VOC07データセットマップ70、ノート:マップ、平均値の平均精度)。

次に、拡大し、2つのセールスポイントがあります。
すでに、その後、訓練パラメータどのようにROIプーリング層の伝導を引き込み、プール層を理解?連鎖ルール誘導体、マッピングYJ = MAX(XI)のための式の従来の最大プーリングは:
ここに画像を挿入説明
選択された最大値1、0が破棄される場合、即ち、右に対応し、エラーを返す必要がない判別関数であることを特徴と値を更新する必要はありません。以下に示すように、入力された拡張は、式XIで表される:
ここに画像を挿入説明
(I、R、j)が選択されているかどうかj番目のノードのR番目のフレームを示すXIは、対応する図の最大値(y0,8およびy1,0あります。行う場合)、XIパラメータは正面と傾斜誤差に対する被験者の背中に影響を与えます。
ここに画像を挿入説明
損失層(層が完全に接続された)マルチタスキングは、上記のように、第二の核となるアイデアであることを特徴とする請求分類cls_score、bbox_reg回帰計算フレーム、ラベル標識された訓練サンプルを決定します。
前記のLCL分類エラー:
ここに画像を挿入説明
PX対応する分類確率ソフトマックスは、PLはPL = 1、損失の計算結果が0である、小さい、大きい損失値(0.01損失に対応する確率に対応するラベル(正確な分類の確率)であります2)。
フレームのLREG回帰エラー:
ここに画像を挿入説明
四つのパラメータに対応する、バックフレームとラベルフィールドとの間の正しい分類エラー(L1スムース)の場合においては、Gは、単一のパラメータの差に対応する、フレーム(垂直方向と水平方向のパンまたはズーム)に記載しました| X |> 1は、雑音低減する線形外れ値に変換される:
ここに画像を挿入説明
:LTOTALは目的関数(かかわらず回帰バックグラウンド損失)重み付けされた
ここに画像を挿入説明
性能比較データ:
ここに画像を挿入説明
ここに画像を挿入説明

  • Fast R-CNN 优点:
    Fast R-CNN 融合了 R-CNN 和 SPP-NET 的精髓, 并且引入多任务损失函数, 使整个网络的训练和测试变得十分方便。在 Pascal VOC2007 训练集上训练,在VOC2007 测试的结果为66.9%(mAP),如果使用 VOC2007+2012 训练集训练,在 VOC2007 上测试结果为 70%(数据集的扩充能大幅提高目标检测性能)。使用 VGG16 每张图像总共需要 3s 左右。
  • Fast R-CNN 缺点:
    SPP 的第三个问题还没有解决,依然是耗时的候选框提取过程:Region Proposal 的提取使用 selective search, 目标检测时间大多消耗在这上面(提Region Proposal2~3s, 而提特征分类只需 0.32s), 无法满足实时应用, 而且并没有实现
    真正意义上的端到端训练测试(region proposal 使用 selective search 先提取处来) 。那么有没有可能直接使用 CNN 直接产生 Region Proposal 并对其分类? Faster R-CNN 框架就是符合这样需要的目标检测框架。

步骤图
**こちら**画像の挿入の説明

  1. 与R-CNN相⽐, Fast R-CNN⽤来提取特征的卷积神经⽹络的输⼊是整个图像,而不是各个提议区域。而且,这个⽹络通常会参与训练,即更新模型参数。设输⼊为⼀张图像,将卷积神经⽹络的输出的形状记为1 × c × h1 × w1。
  2. n個の領域に選択的に検索⽣提案を仮定します。これらの形状は、畳み込みニューラル領域オープンネットワークの出力に提案されているが、関心形状の領域に示されています。関心の抽出された領域は、同一の形状特性(幅およびADVANCEDを仮定H2とW2として指定されている)が必要のでリンクに出力するように。高速R-CNN関心領域プライマーSTARTをプール前記層(interestpoolingの領域を、ROIはプールされた)を、畳み込みニューラルオープンネットワーク及び種々の提案の出力は、抽出されたSTART入力、出力結合領域の後の領域としてn個の形状を提案し×C×H2×W2。
  3. 接続層の完全な形状による出力は、Dハイパーパラメータは設計モデルに依存するN×Dに変換されます。
  4. 予測クラス、全接続層の出力の形状、さらにN×Qへとsofmax回帰を使用して(Qは、カテゴリの数である)場合。バウンディングボックスを予測し、接続層の出力の全体形状は、n×4に変換されます。言い換えれば、我々は、各カテゴリと予測バウンディングボックスの領域を提案します。
公開された163元の記事 ウォンの賞賛117 ビュー210 000 +

おすすめ

転載: blog.csdn.net/u010095372/article/details/91318498