(3) ターゲット検出における複数のボックス [アンカー、bボックス、前のボックス、グリッド ユニット、ROI、プロポーザル、DenseBox]

bbox (バウンディングボックス/バウンディングボックス)

  Bbox は BoundingBox (バウンディング ボックス) の略で、ターゲット検出において物体の位置や大きさを表すために使用される有向の長方形のボックスを指します。通常、画像内のターゲット オブジェクトごとに、対応する Bbox がトレーニング セット内で事前にマークされます。これは、画像内のオブジェクトの位置とサイズを意味します。
  モデルが予測する場合、画像内の複数の位置やスケールのBboxを検出することで、画像に含まれる対象物体を特定することができます。
  ターゲット検出アルゴリズムでは、アンカー ボックスは通常、ターゲットを含む可能性のある領域を捕捉するための事前定義された候補ボックスとして使用されるため、Bbox はアンカー ボックスと密接に関連しています。アンカーボックスによって生成された候補ボックスは、さらに選別と調整を経て最終的な目的のBBoxが得られます。
  したがって、Bbox はオブジェクトの位置とサイズを表す重要な方法であるため、検出ボックスとも呼ばれます。

アンカー (アプリオリボックス)

  アンカーはBboxでフィルタリングされます。
  アンカーと BBox は、オブジェクト検出において異なる役割を果たします。
  アンカーは通常、所定の候補ボックスのセットであり、ターゲット オブジェクトが含まれる可能性のある入力画像上の位置を決定するために使用されます。具体的には、通常、サイズとアスペクト比が異なる一連のアンカー ボックスが画像上に生成され、ターゲット オブジェクトと照合および調整され、最終的にターゲットを含む候補ボックスが取得されます。
 より具体的には、モデルは、アンカーと実際のターゲット ボックスの間の IOU (交差対結合比) を比較することによって、どのアンカー ボックスにターゲットが含まれているかを判断し、ターゲットによりよく適合するようにアンカー ボックスを調整する方法を決定します。したがって、アンカー ボックスは、オブジェクトが含まれる可能性のある領域を見つけるために使用されるため、候補ボックスとみなすことができます。

候補ボックスにターゲットが含まれているかどうかを判断するにはどうすればよいですか?

  一般的には、訓練セット内の対象物体の大きさや形状などの情報に応じて事前に設定されることが多い。アンカー ボックスの数とサイズは、クラスタリング テクノロジ (K-means クラスタリング) によって決定できます。(クラスタリング プロセス: まず、トレーニング セット内のすべてのターゲット オブジェクトの境界ボックスをクラスタリングして、いくつかのクラスター中心を取得し、これらのクラスター中心をアンカー ボックスとして使用できます。) その後、トレーニング プロセス中に、モデルはアンカー ボックスに基づきます。ボックス 検出機能を実現するために、ターゲットオブジェクトの位置と信頼度を予測します。
  一般に、検出プロセス中に、アンカー ボックスの信頼度が比較的高い場合 (通常、設定されたしきい値を超えている)、ボックスにターゲット オブジェクトが含まれていると見なされます。

アンカーをフィルタリングするにはどうすればよいですか?

  複数のアンカー フレームで同じ対象物体が検出される場合があるため、重複した検出結果を除去して最終的な検出結果を得るために非最大値抑制 (NMS) 処理が必要になります。

グリッドセル

  ターゲット検出アルゴリズムにおいて、グリッド セルとは、入力画像をいくつかの小さなグリッドに分割する過程で得られる各小さなグリッドを指します。
  YOLO アルゴリズムは、入力画像を複数のグリッドに分割することでターゲット検出を実現します。モデルはグリッドごとに、グリッドにターゲット オブジェクトが含まれるかどうか、およびターゲット オブジェクトの位置やカテゴリなどの情報を予測する必要があります。予測を容易にするために、通常、完成した画像を複数のグリッドに分割し、各グリッド内で対象オブジェクトの位置を予測します。
  YOLO アルゴリズムでは、各グリッドはグリッド セルと見なすことができます。モデルは、グリッド セルごとに、3 つの境界ボックス (境界ボックス) の位置とサイズに加えて、ターゲット オブジェクトのカテゴリや信頼度などの情報を予測する必要があります。具体的には、各境界ボックスには、x、y、w、h、および信頼度という 5 つの属性が含まれます。ここで、x と y は、境界ボックスが配置されているグリッド セルの左上隅を基準とした境界ボックスの中心点のオフセットを表します。 w と h は境界ボックスの幅と高さを表し、信頼度は境界ボックス内にターゲット オブジェクトが存在するかどうかを示します。
  したがって、YOLO アルゴリズムでは、入力画像をいくつかの小さなグリッドに分割し、各グリッドを検出することがターゲット検出を実現するための重要な技術の 1 つです。
  入力画像を複数のグリッドに分割すると、画像全体を検出するよりも、小さなグリッドごとにのみ予測した方がモデルの演算効率が向上し、計算量が削減されます。
  画像全体で対象物検出を行うと、関係のない領域も検出されやすく、誤検出率が高くなります。画像が複数の小さなグリッドに分割された後、モデルは検出有可能出现目标物体的网格中を実行する、これにより検出精度が効果的に向上します。

ROI ボックス (関心領域)

  ターゲット検出アルゴリズムにおいて、ROI (Region of Interest、関心領域) とは、画像内の関心領域を選択してトリミングすることによって得られる領域を指します。一般に、ターゲット検出アルゴリズムは ROI ボックスを使用してターゲット オブジェクトを含む可能性のある領域を定義し、それによってこの領域内でターゲットの検出と分類を実現します。
  ROI ボックスは、Region Proposal Network (RPN) によって生成された候補ボックスや手動で描画された候補ボックスに基づくなど、さまざまな方法で生成できます。ROI ボックスが取得されると、ターゲット検出アルゴリズムで入力画像のサブ領域として処理できるため、ターゲット オブジェクトをより正確に検出および認識できます。
  通常、ROI ボックスにはターゲット オブジェクト自体が含まれるだけでなく、アルゴリズムがターゲットをより適切に検出および分類できるように、特定のコンテキスト情報も含まれます。ターゲット検出アルゴリズムでは、ROI フレームを検出に使用するプロセスを「領域抽出」または「領域プーリング」と呼びます。通常、ROI フレーム内の情報を固定サイズの特徴ベクトルに集約するために、さまざまなプーリング方法が使用されます (特徴ベクトル )、分類や位置回帰などのタスクのための後続の分類器または回帰器に入力します。

おすすめ

転載: blog.csdn.net/weixin_44463519/article/details/131269260