ここで私は2018年7月に仕事を探していたときに何をされ、目標検出(検出)をまとめ学んだ個々に基づくアルゴリズムを見直します。
その中で、唯一の私はアルゴリズムのより重要なシリーズ、時系列順に簡潔な概要を考えて選びます。
間違った場所を精緻化した場合、親切に指摘しました。
R-CNN
時間
2013
意味
- 創始レベルCNN検出手段と
- だから、「検出タスクの分類作業を変換」という。
- CNNの伝統的なモデルからモデルへの主流の検出アルゴリズム。
- CVPR2014。
革新
2つの大きな問題を解決するには:
- どの位置に。
- どのように特定のデータセットの検出が存在しない場合に検出タスクを達成するために。
ソリューション
- 回帰、および設計エンコード/デコード機構の位置を特定する領域の提案の使用。
- ImageNetの事前研修、微調整にVOCを移動すること。ImageNet 2.事前研修、微調整にVOCを移動すること。
短所
- 各特徴抽出のためのRPは、あまりにも非効率的、再びなくなっていました。
インフラストラクチャネットワーク
AlexNet。
考えます
- R-CNNが目印ですが、それについて我々は(例えばOverFeatなど)知恵の前任者の多くを見ることができました。
SPPNet
時間
2014
意味
- 特徴抽出、SPP層を共有します。
- ECCV2014。
革新
- 共有する特徴抽出:抽出時間がもはや数ヶ月高速R-CNN後にボトルネックであることに特徴が改善された吸収性コアのこの部分の本質、さらに点です。
- SPP層:ネットワークの検出は、任意のサイズの画像を入力することができるように、プールの提案に関する。ので、入力画像のFC-符号化サイズが存在することができないように、FCへの入力画像から提案のプールに挟ま。
短所
- ルートテンソル以前に端と端を配列が、直接重要な位置情報を破棄として位置関係をプールはなく後に得られた、分類提案に助長されていません(改善提案高速-CNNはRをRoIPoolingこの時点)。
インフラストラクチャネットワーク
- AlexNet。
考えます
- SPPNetは無視顕著な貢献です。
高速R-CNN
時間
2015
意味
- 4段 - > 2段。
- RoIPooling;
- ICCV2015。
革新
- 単一CNN、2段目の年齢に4段からの検出アルゴリズムに3つのタスク(特徴抽出、分類、回帰)により、
- RoIPooling:SPP層設計の簡略化に、よりよい位置情報を保持します。
- 提案認知ミニバッチ= 2、コンセンサス。
- リターンロス:L2 - > L1スムース。
構造
半後:2共有FC、分類および回帰を担う二つの平行な単一のFC、続きます。
インフラストラクチャネットワーク
VGG-16。
より高速なR-CNN
時間
2015
意味
- SS - > RPN +アンカー機構、第一エンド・ツー・エンドの検出器と
- NIPS2015;
- COCO2015 1日。
革新
- RPN +アンカーメカニズム:SSは、このタスクは良いGPUを楽しむことができるので、「RPを生成する」という、RPNで置き換えます。各画像のRP数は不変発生するが、効率は100FPSに0.5fpsからジャンプ。RPNは、本質的に「ウィンドウ検出器をスライドに基づいて、2つの分類」され、追加のオーバーヘッドは、2階層ネットワークです。
- 新しいターゲットメカニズム。
短所
- 唯一の特徴マップ(FPNを補正すること)のトップを使用。
インフラストラクチャネットワーク
ZFNetまたはVGGNet。
ディテール
- 4つの損失の合計は、RPNは、検出器サブネットワークは、2つを占め、2を占めました。
考えます
- より高速なR-CNN極度を達成するための高速R-CNN「ネットワーク」の傾向で、「一つのネットワーク内のすべて」を達成します。すべての二段階法の後に、そのすべての変種。
YOLOv1
時間
2015
意味
- 第1段目の検出器と
- 最初のリアルタイム検出。
- CVPR2016。
革新
- これは、RPを生成するために、余分な段階を必要とするが、直接の分類と回帰出力しません。
- 各グリッドはとても自然に候補ブロックの数が大幅に効果的にカテゴリの不均衡を緩和するため、S×S×Bを減らすために、予測対象のための唯一の責任です。
利点
- 超高速:YOLOv1は45fps、速いYOLOv1は155fps。
インフラストラクチャネットワーク
GoogleNet。
考えます
- 各グリッドは、このデザインは明らかに事前情報で、非常にシンプルで、粗で、一つのオブジェクトのための唯一の責任です。写真のほとんどは、データセット、従来の映像配信や秩序、合理的なサイズであるため。しかし、型にはまらない画像の小さな部分だけ見逃すことができる(例えば、二つ以上の物体の中心位置は、同じグリッドに入ります)。
- その小さなターゲット検出が悪い結果ように、図7 * 7の最終的な特性のみYOLOv1分析、以来。
- YOLOv1は、1段目を作成するために、2段階の制限パターンを破壊するで高速トラックウェイ選択ジレンマ試験速度と精度を選択しました。精度は高くありませんが、リアルタイム検出が現実になるだけでなく、リアルタイムの検出器の一般的な方向性を指摘しますが。
- YOLOシステムは、一般的に高精度ではないが、実際の床面、ベースはYOLOシステムを使用していません。でもリアルタイム自動操縦を要求するために、また、FPN(+高速R-CNN)、そのセットを使用します。
SSD
時間
2015
意味
- マルチスケール特徴マップ。
- ECCV2016。
革新
- 最初のタップとは、異なるスケールの特徴マップを利用しています。それ以来、検出はの特徴マップの縮尺でより一般的になってきています。
- アンカーが最初に提案された高速R-CNN、SSDは、(アンカーの数、サイズ、アスペクト比など)最初の詳細な研究で、後続YOLOv2はこれに基づいてさらにあります。
インフラストラクチャネットワーク
VGGNet。
考えます
- 実際には、最初の高精度のリアルタイム検出を主張ではなく、どのように高精度。
- その後SSDに基づいてDSSDへと進化し、FPNを追加しました。
R-FCN
時間
2016
意味
- ヘッドを共有する第一のサブネットワーク。
- NIPS2016。
革新
- 「共有されていない提案プロセス(すなわち、尾サブネット)」のために、提案された位置敏感スコアマップ、廃棄RoIPooling、一緒に検出ネットワークの第1の半分と完全に接続された半セクション、完全な畳み込みネットワークを形成します。
利点
- 2〜20倍速い高速R-CNNの精度とほぼ同じ、推論速度。
短所
- ヘッドは、光ヘッドR-CNNは予示として厚みのK×K×(C + 1)があり、厚すぎます。
YOLOv2
時間
2016
意味
- 最初の大規模な検出器と
- CVPR2017最優秀論文で言及します。
革新
- ダークネット-19 - トリックの多くは、とは自分のbasemodelを設計します。
- 大規模:ソフトマックスネストされたソフトマックス、それによって、階層的な構文木を達成します。階層的な構文木を持つYOLOv2はYOLO-9000と呼ばれています。
短所
- 精度が高くないため、最初の大規模な検出器のための高価なものの、しかし、それは実用的ではありません。その後のR-FCN-3000継承は、その先駆的なアイデアとは、大規模で高精度を達成し続けます。
FPN(+高速R-CNN)
時間
2016
意味
- 逃した小さなオブジェクトを解決します。
- CVPR2017。
革新
- 設計モジュールは、ヒューズに、「トップダウンパス」及び「横方向接続を」含む「機能の詳細を欠落が、意味情報マップの複数の頂部層」および「複数の意味情報が、特徴マップの基礎となる詳細を欠いています」。
利点
FPN小さなオーバーヘッド、それが構成要素は、標準的な検出アルゴリズムなり、小さな物体を検出することができます。
短所
特徴マップのトップは、FPNを楽しむために多くの肯定を持っていなかった、それはまだ多くの意味情報よりもですが、情報は依然として大きな物体を検出することは好ましくない場所を欠いています。(問題が表示されますがPANを予示)
DSSD
時間
2017
意味
SSD + FPN。
考えます
水文1。
R-CNNマスク
時間
2017
意味
- RoIPooling - > RoIAlign。
- インスタンスセグメンテーションのための第三のパイプラインを追加します。
- ICCV2017最優秀論文。
DCN
時間
2017
意味
- 変形可能なモジュール(モジュールが可能となります)。
革新
- リア出力RoIPooling 2-Dの層を有する従来の畳み込み創始者に出力することができるように、オフセット「自動変形」。「変形」を積み重ねる層ごとに、CNNは、より正確なセマンティクスの目標を読むことができるようになります。
利点
- シンプルなデザイン、一般的なことができ、複雑な視覚的なタスクのさまざまなサポートエンド・ツー・エンドの訓練に、以下のパラメータを増加させました。
考えます
- 後者の失われた、より詳細な情報は、それがより良い変形操作対象を特徴付けるために必要があるため、一般的に、唯一の最終的な層のために使用しました。
- 私たちは、プレスFMに殺到すると、ヘッドの残留値は、提案は、別の方法、手術の畳み込みを計算するための最も基本的な方法、洞察力の偉大DCNです。
RetinaNet
時間
2017
意味
- CE - > FL;
- ICCV2017ベスト学生論文。
革新
- 我々は主導絶対BG内のアンカーの大部分を占めて1段システムの失われた精密2段システムの根本的な原因見つかった「アンバランスのカテゴリを。」1段RPNは、カバーしている影響を受けません、1段階誰がカバーされません。設計焦点損失ので、1ステージをカバーします。
短所
- FPとより。
考えます
- 問題の根は非常に多くの問題を解決するよりも見つけます。
- RetinaNet非常に強い、それは電流検出器の最高の一つとなっている、また、広く使用着陸です。
Megd
時間
2017
意味
- 大ミニバッチ;
- COCO2017 1日。
- CVPR2018。
革新
- イノベーションプロジェクト、真に大ミニバッチ。
短所
- あなたは128 GPUを持っていない限り再現することは困難。
光ヘッドR-CNN
時間
2017
意味
- CVPR投票が拒否されました。
革新
- 厚い非常に薄いR-FCNヘッダ圧縮、大幅に加速しました。
考えます
- だから、激しくモデル、パフォーマンス実際には該当しない、上昇を圧縮し、それが直感的です。キャストCVPRが拒否されて、著者は、良い説明を与えていません。
をちょきちょきと切る
時間
2017
意味
- 画像ピラミッド;
- CVPR2018。
革新
- 画像ピラミッドの価値を再発見し、各スケールの有効範囲はこれに基づいて生成される参加。これのおかげで、3つの部門では、弱点のパイプラインのイベントになることができます。V革新]画像ピラミッドの価値を再発見し、各スケールの有効範囲に参加するには、この基づいて生成されます。これのおかげで、3つの部門では、弱点のパイプラインのイベントになることができます。
短所
- このモデルは、あまりにも、メモリの1080ti 11Gは単に単に、実用的ではない持ち上げることができません。
考えます
- タスクを割り当てることによって、大幅それによって達成すること「は、式の不正行為」、各パイプラインを検出することにおける困難さを軽減「スケール不変性」を
カスケードR-CNN
時間
2017
意味
- 第一の検出器カスケードアプローチ、2段 - > 4段。
- CVPR2018。
革新
- 著者は、ポジショニングの質を向上させるために、ラウンドボックスをカスケード接続することで、顔検出、「ガイドカスケード」アプローチの使用に触発さ。
考えます
- 高速R-CNN検出アルゴリズムは、4段にカスケードR-CNNながら順に2段の開発バック、2段目〜4段目から進化していく、それがスパイラルとみなすことができます。
- 最初は、カスケード目標検出の考え方を紹介します。
FCN-R-3000
時間
2017
意味
- 最初の有効な大規模検出器。
革新
- サブカテゴリによって回帰 - >主要なカテゴリによって回帰。
PAN
時間
2018
意味
- FPN - > PAN;
- COCO2017第二。
YOLOv3
時間
2018
革新
- 改善されたYOLOシステムは、主要な疼痛患者である:小さなオブジェクトが検出されません。
DetNet
時間
2018
意味
- 第一バックボーンの検出のために特異的にカスタマイズされました。
- ECCV2018。
革新
- 受容野として知られている32時間で元のサンプリング、交換するには、2つのコンボリューション16回だけ畳み込みを重畳することにより拡大を達成し、またために起因するダウンサンプリングの位置情報の損失を回避することができます。
考えます
- 16年YOLOv1は、そうしただろうが、手紙に来ませんでした。