ベジタリアンパドル第 7 回: ターゲット検出の基本概念

1. ターゲット検出とは何ですか? 

前回の記事では、画像分類に畳み込みニューラル ネットワークを使用する方法を学習しました。たとえば、手書きの数字認識は、0 から 9 までの 10 個の数字を認識するために使用されます。単一のオブジェクトの識別を扱う画像分類とは異なり、ターゲット検出では、オブジェクトだけでなく複数のオブジェクトも認識し、オブジェクトの分類を決定するだけでなく、オブジェクトの位置も決定します。たとえば、次の図:

 ターゲット検出により、この写真には子犬と猫の両方がいることがわかるだけでなく、子犬は左側の赤いボックス内にあり、子猫は右側の赤いボックス内にあることがわかります。つまり、ターゲット検出の出力結果は[ターゲット分類+ターゲット座標]となります。

2. ターゲット検出に関する概念

1.境界ボックス

検出タスクでは、オブジェクトのカテゴリと位置を同時に予測する必要があるため、位置に関連するいくつかの概念を導入する必要があります。オブジェクトの位置は通常、バウンディング ボックス (bbox) によって表されます。これは、オブジェクトのみを含めることができる長方形のボックスです。上の写真の子犬と子猫の周りにある赤いボックスと同じように、これらは 2 つの境界ボックスです。

2. バウンディングボックスの位置の表現方法

  • xyxy、つまり (x1, y1, x2, y2)。(x1, y1) は長方形の左上隅の座標、(x2, y2) は長方形の右下隅の座標です。
  • xywh、つまり (x, y, w, h) です。(x, y) は長方形の中心点の座標、w は長方形の幅、h は長方形の高さです。

3. 予測フレーム

ターゲット検出タスクを完了するには、モデルが入力画像に基づいていくつかの予測された境界ボックスと、境界ボックスに含まれるオブジェクトのカテゴリまたは特定のカテゴリに属する​​確率を出力できることを期待します。たとえば、この形式です。 : [L ,P,x1,y1,x2,y2]、L はカテゴリ ラベル、P はオブジェクトがそのカテゴリに属する​​確率です。入力画像は複数の予測ボックスを生成する場合があります。

4.アンカーフレーム

アンカー ボックスは、特定の規則に従って人間によって生成される一種のボックスであるオブジェクト バウンディング ボックスとは異なります。まずアンカー枠のサイズと形状を設定し、画像上の任意の点を中心とした長方形の枠を描画します。ターゲット検出タスクでは、通常、特定のルールに従って一連のアンカー ボックスが画像上に生成され、これらのアンカー ボックスが候補領域とみなされます。モデルは、これらの候補領域にオブジェクトが含まれるかどうかを予測し、ターゲット オブジェクトが含まれる場合は、そのオブジェクトが属するカテゴリをさらに予測する必要があります。さらに重要なのは、アンカー フレームの位置は固定されているため、オブジェクトのバウンディング ボックスと一致する可能性は低く、正確に描写できる予測フレームを形成するにはアンカー フレームに基づいて微調整する必要があります。オブジェクトの位置、モデル 微調整の大きさを予測する必要があります。多くの場合、モデルが異なれば、アンカー ボックスを生成する方法も異なります。

5. クロスマージ比率

検出タスクでは、和集合 (IoU) が尺度として使用されます。この概念は数学の集合に由来し、2 つの集合 A と B の間の関係を説明するために使用されます。これは、2 つの集合の共通部分に含まれる要素の数を、それらの和集合に含まれる要素で割ったものに等しくなります。具体的な計算式は次のとおりです。

2 つのボックス間の一致度を表すために、交差対和集合の比率を使用します。2 つのボックスは 2 つのピクセルの集合とみなすことができ、その交差率は、下図に示すように、2 つのボックスの重なり合う部分の面積をそれらの結合面積で割った値に等しくなります。

画像分類で述べたように、ニューラル ネットワークは損失関数を確立する必要があるため、交差と和の比率は予測の品質を測定するのに適した損失関数です。

 

おすすめ

転載: blog.csdn.net/duzm200542901104/article/details/128296289