人工知能の詳細メモ: コンピューター ビジョン、ターゲット検出、R-CNN シリーズ YOLO シリーズ モデル

コンピュータビジョン

コンピュータ ビジョンの概要: コンピュータ ビジョンは、コンピュータ アルゴリズムと数学的モデルを使用して人間の視覚をシミュレートおよび自動化する学問です。

コンピューター ビジョンの状況: コンピューター ビジョン (CV)、自然言語処理 (NLP)、および音声認識 (SR) が、機械学習の方向における 3 つのホット スポットとしてリストされています。

コンピュータ ビジョンの一般的なタスク: 以下では、粗粒度から粒度の細かい 4 つの一般的なコンピュータ ビジョン タスクを紹介します。

  • 画像分類: カテゴリを表す 1 つ以上のラベルを画像に割り当てます。
  • オブジェクト検出: 画像内のオブジェクトのクラスとその位置を特定します。位置はボックスで囲まれます。
  • 画像セマンティック セグメンテーション: 画像内のオブジェクトのカテゴリを決定し、その位置を正確に概説するには、各ピクセルを分類する必要があります。
  • 画像インスタンスのセグメンテーション: 画像のセマンティック セグメンテーションに基づいて、同じタイプのオブジェクトの異なるインスタンスをさらに区別し、ピクセル レベルの分類も実行する必要があります。

ターゲットの検出

物体検出の概要

ターゲット検出タスクの概要: ターゲット検出タスクは、画像またはビデオからターゲット オブジェクトを検出して位置を特定し、そのカテゴリ ラベルを付けることを目的としたコンピューター ビジョンのタスクです。

ターゲット検出タスクの難易度:

  • オブジェクトのサイズは大きく異なります。
  • 物体の角度や姿勢は一定ではありません。
  • オブジェクトは画像内のどこにでも現れる可能性があります。
  • オブジェクトは同時に複数のカテゴリに属する​​ことができます。
  • オブジェクトはオクルージョンによって切り詰められることがよくあります。

ターゲット検出モデルの開発履歴

  1. R-CNN モデル (2014) : RCNN モデルは、領域提案に基づく畳み込みニューラル ネットワーク モデルであり、候補領域抽出と畳み込み特徴抽出の 2 段階を通じてターゲット検出タスクを完了します。
  2. SPP-net モデル (He Kaiming、2014 年末) : SPP-net モデルは、あらゆるサイズの入力画像を処理でき、空間ピラミッド プーリング層を通じて異なるスケールの特徴抽出と融合を実現する畳み込みニューラル ネットワーク モデルです。
  3. Fast R-CNN モデル (2015) : Fast R-CNN モデルは、領域提案に基づく畳み込みニューラル ネットワーク モデルであり、RoI プーリング層を通じてエンドツーエンドのターゲット検出を実現します。これは、RCNN よりも高速かつ正確です。モデルの高いです。
  4. Faster R-CNN モデル (2015) : Faster R-CNN モデルは、ディープ ニューラル ネットワークに基づくターゲット検出モデルであり、RPN ネットワークの導入によりエンドツーエンドのターゲット検出を実現し、検出速度において大きな成果を上げていますそして精度の向上。
  5. YOLO モデル (2016) : YOLO (You Only Look Once) モデルは、ディープ ニューラル ネットワークに基づくリアルタイム ターゲット検出モデルです. ターゲット検出問題を回帰問題に変換することで高速検出を実現し、複数のターゲットを処理できます同時に。
  6. SSD モデル (2016) : SSD モデルは、ディープ ニューラル ネットワークに基づくターゲット検出モデルであり、ターゲットのカテゴリと位置情報を複数のレベルで予測することで高速検出を実現します。
  7. FPN モデル (2017) : FPN (Feature Pyramid Network) モデルは、さまざまなレベルで特徴を融合し、高解像度の情報を保持することで、ターゲット検出とセマンティック セグメンテーションのパフォーマンスを向上させる特徴ピラミッド ベースのネットワーク構造です。
  8. マスク R-CNN モデル (2018) : マスク R-CNN モデルは、Faster R-CNN モデルに基づくターゲット検出およびインスタンス セグメンテーション モデルです。セグメンテーション ブランチを追加することで、オブジェクト インスタンスのピクセルレベルの検出が、検出ブランチの基礎、セグメンテーション。
  9. IoU-Net モデル (2019) : IoU-Net モデルは、U-Net モデルに基づくターゲット検出モデルであり、IoU 損失関数を導入することでターゲット検出のより正確な最適化を実現します。
  10. GioU-Net モデル (2019) : GIoU-Net モデルは、U-Net モデルに基づくターゲット検出モデルであり、GIoU 損失関数を導入することでターゲット検出のより正確な最適化を実現します。

ターゲット検出タスクの開発履歴:

  • 初期の非深層学習オブジェクト検出では、より強力な機能の設計に重点が置かれていました。
  • 深層学習オブジェクト検出は、ネットワーク構造、最適化方法、損失関数の設計プロセスに焦点を当てています。

物体検出のその他の内容:

  • 物体検出システムの重要な要件: 精度とリアルタイム性能。
  • 移動ターゲット検出: 変化するシーケンス画像からのターゲット検出。静的背景でのターゲット検出と動的背景での動き検出に分けられます。

従来の物体検出方法

R-CNNモデル

R-CNN モデルの提案: R-CNN (Region-based Convolutional Neural Network) は、2014 年に Ross Girshick らによって提案された古典的なターゲット検出アルゴリズムです。

R-CNN のアルゴリズム フロー: R-CNN モデルは主に、領域抽出、特徴抽出、ターゲット分類の 3 つのステップに分かれています。

  • R-CNN は、まず選択検索などのアルゴリズムを使用して、画像から一連の候補領域を抽出します。
  • 次に、各候補領域に対して特徴抽出が実行され、固定次元の特徴ベクトルが取得されます。この特徴抽出プロセスは、領域提案に対して畳み込みニューラル ネットワーク (CNN) を使用することによって実現されます。
  • 最後に、サポート ベクター マシン (SVM) やマルチレイヤー パーセプトロン (MLP) などの分類器を使用して、各候補領域に対してオブジェクト分類が実行されます。

R-CNN の利点: CNN を特徴抽出に使用することで、R-CNN は従来のターゲット検出アルゴリズムにおける手動での特徴設計の問題を克服し、それによって検出の精度を向上させることができます。

R-CNN モデルの欠点: R-CNN は速度が遅く、大規模な画像データをリアルタイムで処理できません。

SPP-Netモデル

SPP-Net モデルの提案: SPP-Net は、畳み込みニューラル ネットワーク (CNN) が可変サイズの入力画像を処理する際に、固定サイズの出力が発生する問題を解決する方法です。SPP-Net は、2014 年に Kaiming He らによって提案された、R-CNN ターゲット検出アルゴリズムに基づいて改良されたアルゴリズムです。

SPP-Netの特徴: SPP-Netは、空間ピラミッドプーリングの考え方を導入することにより、異なるサイズの入力画像から特徴を抽出し、固定長の特徴ベクトルに変換します。具体的には、SPP-Net は、最後の畳み込み層の後に空間ピラミッド プーリング層を追加します。これにより、さまざまなサイズの特徴マップに対してプーリング操作を実行し、さまざまなサイズのプーリング結果をつなぎ合わせて、固定長の固有ベクトルを形成できます。

SPP-Net の利点: さまざまなサイズの入力画像から特徴を抽出し、固定長の特徴ベクトルに変換できるため、CNN ネットワークの出力サイズが一貫していない問題を回避できます。

高速 R-CNN モデル

Fast R-CNN モデルの提案: Fast R-CNN は、2015 年に Ross Girshick によって提案された深層学習に基づくターゲット検出アルゴリズムであり、R-CNN シリーズのアルゴリズムの改良版です。

高速R-CNNの特徴

  • RoI プーリング: 高速 R-CNN は、R-CNN の特徴抽出とターゲット分類を 1 つのネットワークに結合し、RoI プーリング (関心領域プーリング) を使用して、さまざまなスケールの候補ボックスを処理します。RoI プーリングは、各候補ボックスをセグメント化し、各セグメント化された領域を最大プーリングすることにより、オブジェクト分類と境界ボックス回帰用の固定長の特徴ベクトルを取得します。
  • マルチタスク損失関数: Fast R-CNN は、2 つのタスク間の相互影響を考慮しながら、ターゲット分類損失と境界ボックス回帰損失を含むマルチタスク損失関数を導入します。マルチタスク損失関数を最小限に抑えることで、オブジェクト分類と境界ボックス回帰の両方のパフォーマンスを同時に最適化できます。
  • 特徴共有: 高速 R-CNN は、ネットワーク全体で特徴共有戦略を使用します。つまり、異なる候補ボックスが同じ畳み込み特徴マップを共有するため、計算量と保存スペースが削減されます。

Fast R-CNN の利点: トレーニングとテストの速度が速く、エンドツーエンドでトレーニングと最適化が可能です。

高速な R-CNN モデル

Faster R-CNN モデルの提案: Faster R-CNN は、2015 年に Shaoqing Ren らによって提案された深層学習に基づくターゲット検出アルゴリズムであり、R-CNN シリーズのアルゴリズムをさらに改良したものです。

Faster R-CNN モデルの改善:

  • 領域提案ネットワーク: より高速な R-CNN では、候補ボックスを生成するために領域提案ネットワーク (RPN) が導入されています。RPN は、入力画像から特徴を抽出し、候補ボックスの一連の座標とスコアを出力できる特別な畳み込みニューラル ネットワークです。RPN は畳み込み層の特徴マップを共有し、異なるスケールとアスペクト比のアンカー ボックスを通じて候補ボックスを生成できるため、高速かつ正確な候補ボックスの生成が実現します。
  • ネットワーク構造の最適化: ターゲット検出の精度と速度をさらに向上させるために、Faster R-CNN はネットワーク構造を最適化しました。具体的には、Faster R-CNN は、RPN のターゲット検出ネットワークと Fast R-CNN を融合し、畳み込み層の特徴マップを共有するため、ネットワーク全体をエンドツーエンドでトレーニングおよび最適化できます。また、Faster R-CNNではRoIプーリングの代わりにRoIアライメント(RoI Align)も利用することで、候補フレームと特徴マップの位置関係をより正確に合わせることができます。

高速な R-CNN の利点:

  • より速い検出速度とより高い精度で、エンドツーエンドのトレーニングと最適化を実現できます。
  • 領域提案ネットワークは畳み込み特徴マップを共有できるため、計算量と記憶スペースが削減され、ネットワーク全体がより軽量かつ効率的になります。

ヨロ V1

YOLO V1 の提案: YOLO (You Only Look Once) は、2015 年に Joseph Redmon らによって提案された深層学習に基づくターゲット検出アルゴリズムであり、検出速度が速い、エンドツーエンドのターゲット検出アルゴリズムですそして精度が向上します。

YOLO V1 の利点: エンドツーエンドのトレーニングと最適化を実現でき、検出速度が速く、リアルタイム パフォーマンスが向上し、リアルタイム アプリケーション シナリオに特に適しています。

YOLO V1 の欠点: 特に小さなターゲットの検出において精度が比較的低い。

ヨロV2

YOLO V2 の提案: YOLO V2 は、2016 年に Joseph Redmon らによって提案された YOLO シリーズのターゲット検出アルゴリズムの第 2 バージョンです。

YOLO V2 の利点: 高速な検出速度を維持しながら、特にマルチスケールのターゲット検出において優れた検出精度を備えています。

YOLO V2 の欠点: 他のターゲット検出アルゴリズムと比較すると、YOLO V2 の検出速度は依然として遅く、小さなターゲットや遮蔽されたターゲットの処理には依然として一定の課題があります。

ヨロV3

YOLO V3 の提案: YOLO V3 は、2018 年に Joseph Redmon らによって提案された YOLO シリーズのターゲット検出アルゴリズムの第 3 バージョンです。

おすすめ

転載: blog.csdn.net/hanmo22357/article/details/131031916