目次
1。概要
コンピューター ビジョンの基本タスクは、分類、位置特定、検出、セグメンテーションの 4 つのカテゴリに分類できます。分類タスクは、画像内のオブジェクトのカテゴリを判断することです。一般に、画像には 1 種類のオブジェクトのみが含まれており、画像の特徴の説明が画像分類タスクの主な研究内容です。位置決めタスクは、画像分類タスクの主な研究内容です。画像内のオブジェクトの特定の位置を決定します。通常、境界ボックス (バウンディング ボックス) の形式で表されます。通常、検出タスクは、画像内の各ターゲットの境界ボックスとラベルを出力することです。通常、分類と測位は単一ターゲットですが、ターゲットの検出は複数ターゲットであり、具体的な違いは次の図に示されています。
セグメンテーションタスクは、画像をいくつかの意味領域に分割するプロセスを指します。セマンティック セグメンテーション、エンティティ セグメンテーション、パノラマ セグメンテーションの 3 つの研究方向にさらに分類できます。画像セグメンテーションの 3 つの研究方向の違いは、図に示されています。下に。
セマンティックセグメンテーション(一般に画像セグメンテーションとして理解されています) は、ピクセルごとの画像分類問題です。各ピクセルは固有のカテゴリを予測し、可算オブジェクトと不可算オブジェクトの両方を分類する必要があります。インスタンス セグメンテーション (インスタンス セグメンテーション) だけではありませ ん。可算オブジェクトの意味ラベルを予測するだけでなく、個人の ID を区別するためにも必要です。意味ラベルはオブジェクトのカテゴリを指しますが、インスタンス ID はさまざまな数の類似オブジェクトに対応します。数えられないオブジェクトは予測する必要がないことに注意してください。インスタンス セグメンテーションは、ターゲットの検出 + セマンティック セグメンテーションと同等です。パノプティック セグメンテーション(パノプティック セグメンテーション) では、画像内の各ピクセルにセマンティック ラベルとインスタンス ID を割り当てる必要があり、パノプティック セグメンテーションは、セマンティック セグメンテーション + インスタンス セグメンテーションと同等です。
2. よく使われる評価指標
2.1 分類タスク
分類タスクでは、モデルの長所と短所を評価するために、正解率、適合率、再現率、F1_スコア、ROC 曲線などの指標がよく使用されます。もちろん、これらの基本的な指標は、セグメンテーション モデルや検出モデルの評価にも使用できます。そしてそれらは基本的に普遍的です。混同行列は、分類問題の予測結果をまとめたものであり、分類モデルの精度を測定するための最も基本的で、最も直感的で、最も簡単な方法でもあります。以下の表に示すように、混同マトリックスには、分類問題に対する 4 つの基本的な指標が含まれています。
混同行列 | 実価 | ||
真実 | 間違い | ||
予測値 | ポジティブ | TP | FP |
ネガティブ | FN | テネシー州 |
TP: モデルによってポジティブ クラスとして予測されたポジティブ サンプル、つまり実際のラベルが 1 であり、予測も 1 であるサンプル。
TN: モデルによって負のクラスとして予測された負のサンプル、つまり、実際のラベルが 0 であり、予測も 0 であるサンプル。
FP: モデルによってポジティブ クラスとして予測されたネガティブ サンプル、つまり実際のラベルは 0 ですが、サンプルは 1 と予測されます。
FN: モデルによってネガティブ クラスとして予測されたポジティブ サンプル、つまり、実際のラベルが 1 であるが 0 であると予測されるサンプル。
予測分類モデルは可能な限り正確である必要があります。つまり、混同行列では、TP と TN の数が多いほど優れており、FP と FN の数が少ないほど優れています。ただし、モデルが混同行列でいくつかの単純な基本指標を使用するだけでは十分ではないため、モデルの品質をさらに評価するには次の指標が必要です。
①精度
②適合率または適合率 (Precision):モデルによって予測されるサンプル内で 1 が 1 になる実際の確率を指します。
③再現率または再現率(Recall):実際には 1 であるサンプルにおいて 1 を予測する確率を指します。真陽性率、感度、TPRとも呼ばれます。
注:適合率と再現率は混同しやすい 2 つの概念であるため、適合率をどのようなシナリオで使用するのか、また再現率をいつ使用するのかがわからない人が多くいます。例 (肯定的なサンプルは、一般に、地震、腫瘍、スパムなどのサンプルのパフォーマンスをより重視します): 腫瘍の判定や地震の予測などのシナリオでは、モデルは、 「これは腫瘍か地震です。放っておいてください。スパム判定などのシナリオでは、モデルにはより高い精度が必要であり、すべてのスパム電子メールがゴミ箱に入れられることを保証する必要があり、通常のメール。
④F1_score: 分類モデルの精度と再現率を考慮し、モデルの精度と再現率の調和平均とみなすことができ、最大値は 1、最小値は 0 です。モデルであり、0 はモデルの最良の効果を表します。
⑤P-R曲線
PR 曲線は、横軸に再現率 Recall、縦軸に適合率 Precision をとり、曲線が右に凸であるほど、モデルの効果が高くなります。下の図に示すように、図には 3 つの黒、オレンジ、青の曲線があり、これらは 3 つのモデルの PR 曲線を表しており、黒とオレンジの曲線は常に青の曲線よりも上にあります。つまり、黒とオレンジの曲線は、オレンジ色の曲線はモデルの PR 曲線に対応し、青い曲線に対応するモデルよりも効果が優れていますが、黒とオレンジの曲線には交点がありますが、2 つのモデルの良し悪しを判断することはできません。それは状況によります。もう 1 つ注意すべき点は、PR 曲線の 2 つの指標は陽性サンプルのみに焦点を当てていることです。
これを見て疑問に思うかもしれませんが、PR 曲線はモデルを表しており、PR 曲線を描くには、まず複数の (R, P) 点のセットが必要です。つまり、モデルの再現率と精度は一意ではないのですか? まず第一に、特定のモデルについて、その再現率と適合率は一意でなければならないことがわかります。PR 曲線に複数の (P, R) 点のセットがあるのは、分類器が確率出力を持っているためです。0.5通常、しきい値として使用されます。0.5 より大きい場合は 1 つのカテゴリに属し、0.5 未満の場合は別のカテゴリに属しますが、さまざまなシナリオに基づいて、確率出力のしきい値を制御することで予測ラベルを変更できるため、異なる異なる閾値を選択することで (P, R) 点のグループを取得できるため、上図のような PR 曲線を描くことができます。
⑥ROCカーブ
ROC 曲線は、横軸に FPR、縦軸に TPR をとります。このうち、TPRは真陽性率または感度と呼ばれ、実際には1であるサンプルにおいて1を予測する確率を指す再現率、FPRは偽陽性率または特異度と呼ばれ、予測される確率を指します。実際には 0 であるサンプル内の 1。
ROC 曲線の傾向は下図に示されており、曲線が左に凸であるほどモデルの効果が高くなります。ROC 曲線と PR 曲線は両方とも、異なるしきい値を選択して異なる点を取得することによって曲線を描きます。
PR 曲線と ROC 曲線の比較:陽性サンプルと陰性サンプルの数が 1:1 に近い場合、PR 曲線と ROC 曲線の両方をモデルの長所と短所の評価に使用できます。PR 曲線が凸であるほど、が右にあるほどモデルは優れており、ROC 曲線も優れており、曲線が左に凸であるほどモデルは優れています。ROC 曲線の利点は、以下の図に示すように、陰性サンプルの数が多い場合、ROC 曲線は同じ傾向を維持できる一方で、PR 曲線は大きく変化し、基本的にモデルを評価する能力が失われることです。 。
PR 曲線が大きく変化する理由は、陰性サンプルの数が陽性サンプルの数を大きく上回る場合、PR 曲線の再現率 R、つまり ROC 曲線の真陽性率 TPR は基本的に変化しないためです。 , しかし、PR 曲線の FP の量が増えると、正解率 P の大幅な低下につながります。ROC 曲線が基本的にトレンドを維持できるのは、ROC 曲線の TPR と FPR という 2 つの指標がアンバランスなサンプルサイズによって大きく変化しないためですが、これは AUC 曲線の利点だけではなく、 AUC曲線のデメリットもあるのですが、なぜこのように言えるのでしょうか?これは、陰性サンプルが多すぎると FP 数が大幅に増加するためであり、FP の大きな増加は FPR のわずかな変化としか交換できないため、結果として陰性サンプルが多すぎるにもかかわらず、FP の数が大きく増加すると誤判定されるからです。陽性サンプルの場合、ROC 曲線上では直観的に検出できません。したがって、ROC 曲線のこの欠点を補うために、ROC 曲線 + AUC 指標がモデルの評価によく使用されます。実際のアプリケーションでは、地震や腫瘍などの陽性サンプルの方が一般的により懸念されます。このようなサンプルは収集が困難であることが多く、数が少なく、データセット内のカテゴリのバランス、つまり陽性サンプルの比率が不均衡です。陰性サンプルが大きいということは、非常に頻繁に起こります。
⑦AUCインジケーター
AUC 指標は、分類器の最悪のケースに対応する ROC 曲線の下の領域として定義されます。このとき、ROC 曲線は直線になり、TPR は常に FPR と等しくなります。サンプルの真のカテゴリは 1 または 0 であり、分類器モデルが 1 を予測する確率は等しいです。これは、分類機能なしでコインを投げるようなもので、分類器の最良のケースに対応します。つまり、モデルは常に予測できます。権利。
AUC の利点は、AUC の計算方法が、異なるしきい値の下で陽性サンプルと陰性サンプルの分類器の分類能力を同時に考慮していることです。不均衡なサンプルの場合でも、分類器の合理的な評価を行うことができます。これにより、ROC 曲線の欠点が補われます。つまり、AUC 指標は、分類モデルのより優れた評価指標の 1 つです。
2.2 検出タスク
分類タスクのいくつかの評価指標に加えて、ターゲット検出タスクには、mAP、FPS などのターゲット検出モデルのいくつかの特別な評価指標もあります。
①mAP(クラス平均正解率)
物体検出問題の各画像には、いくつかの異なるクラスの物体が含まれている可能性があります。物体検出器が画像内で特定のクラスの物体を検出したとしても、それを位置特定できなければ役に立たないため、同時にモデルを評価する必要があります。時間は物体分類と測位性能ですが、これには画像分類問題の標準指標「精度」をそのまま適用することができないため、mAP評価指標が出てきました。mAP は、ターゲット検出問題で最もよく使用される評価指標です。mAP を説明する前に、まず AP の意味を理解する必要があります。AP の英語の正式名は Average Precision であり、特定のカテゴリの PR 曲線の下の面積として定義されますつまり、カテゴリ AP 値を計算できます。mAP の英語の正式名は、mean Average Precision で、AP 値のすべてのカテゴリの平均値として定義されます。実際の計算プロセスでは、AP は領域を特徴付けることができる 10 Recall 値 ([0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9]) の下の Precision の平均値として定義されます。 PR 曲線全体の下で、mAP を計算する方法を示す例を以下に示します。
mAP 評価インデックスを計算するシナリオでは、最初にいくつかの定義を定義します。
1) 交差と和集合の比率 - IoU
Intersection-over-union Ratio (IOU) は、(ターゲット検出用) 2 つの検出フレーム間の重なりの度合いを表す尺度であり、式は次のとおりです。
ターゲット(Ground Truth、GT)の実際の境界を表すものと、 予測された境界を表すもので、両者の IOU を計算することで、予測された検出枠が条件を満たしているかどうかを判断できます。
2)TP、FP、FN、TN
TP: 満たす予測フレームの数 (実際の状況に応じてしきい値が取られます) (同じ Ground Truth は 1 回だけ計算されます。つまり、満たされる条件が複数ある場合、最大の IoU を持つものだけが計算されます)取られました)。
FP:満たされた予測ボックスの数、または同じ GT を検出する重複検出ボックスの数。
FN: 検出されなかった GT の数。
TN: これをターゲット検出問題に組み込むことはほとんど不可能なので、mAP の計算では使用されません。
3) 適合率 P と再現率 R
適合率 P は 1 と予測されたサンプルが実際に 1 である確率を指し、再現率は 1 と予測されたサンプルが実際に 1 であると予測される確率を指します。したがって、それらの式は次のように定義できます。ここで、すべてのグラウンド トゥルースはすべての GT の数を表し、この値はデータ セットが与えられたときに固定されます。
この例から始めましょう。7 つの画像 (Images1 ~ Image7) があると仮定します。これらの画像には 15 のターゲット (緑色のボックス、前述の GT の数) と 24 の予測境界ボックス (赤色のボックス、AY 番号、信頼値があります) があります all ground truths
。 )。
上の図と説明に従って、次の表をリストすることができます。ここで、Images はピクチャの番号を表し、Detections は予測フレームの数を表し、Confidences は予測フレームの信頼度を表し、TP または FP は予測フレームが正しいかどうかを表します。 TP または FP としてマークされます (予測フレームと GT の間の IOU 値が 0.3 以上の場合、TP としてマークされます。GT に複数の予測フレームがある場合、最大の IOU を持ち、それより大きい予測フレームが TP としてマークされます)。 0.3 以上は TP としてマークされるとみなされ、その他は FP としてマークされます。つまり、GT は TP としてマークされる予測フレームのみが存在します)。0.3 はランダムに選択された値です。
上記の表により、PR 曲線を描くことができます (AP は PR 曲線の下の領域であるため)。その前に、PR 曲線上の各点の座標を計算し、信頼度に従ってすべての予測ボックスを並べ替える必要があります。大きいものから小さいものまで、精度と再現率の値を計算できます。以下の表を参照してください。(累積と呼ばれる概念を覚えておく必要があります。下図の ACC TP と ACC FP です)
これら 24 組の PR 値を使用して、PR 曲線を描くことができます。
AP (PR 曲線下の面積) は、PR 曲線が得られた後に計算できます。PR 曲線下の面積を計算するには、計算の便宜上、通常、最初に曲線に対して滑らかな鋸歯状の演算を実行します。この演算は単純です。 Recall 軸 A の点で n を選択し、右側でどの精度が最も大きいかを確認し、この間隔でこの精度の値を使用します。たとえば、リコール軸上で 10 個のポイント [0、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9] が選択されていると仮定すると、各リコール ポイントに対応する精度の値は、リコール軸上のポイントから取得されます。 PR カーブの右側。下図の赤線で示すように、新しいカーブを取得する側の Precision の最大値を取得し、赤線の下の面積を計算したものが、このカテゴリの AP 値です。
上の式 AP の計算プロセスに示されているように、AP は PR 曲線の下の面積 (つまり、赤い線の下の面積)、または選択された 10 個のすべてのリコール ポイント [0,0.1,0.2, 0.3,0.4 ,0.5,0.6,0.7,0.8,0.9] は平均適合率 Precision に対応し、これが AP (Average Precision) という名前、つまり平均適合率の本当の由来である可能性があります。mAP を計算するには、すべてのカテゴリの AP を計算し、平均を計算する必要があります。
②FPS
FPS もターゲット検出モデルの重要な評価指標です。主にモデルの検出速度を評価するために使用され、1 秒あたりに処理できる画像の数を示します。1 秒あたりに処理できる画像の数が多いほど、モデルは優れています。
2.3 セグメンテーションタスク
①MIoU(平均交差点対ユニオン比率)
平均交差結合比 (MIoU) は、セグメンテーション モデルで最も一般的に使用される評価指標です。交差率 IoU の意味は、あるカテゴリに対するモデルの予測結果と実際の値との交差および和集合の比率ですが、ターゲット検出の場合は検出フレームと実際のフレームの交差比率、画像の場合は検出フレームと実際のフレームの交差比率になります。セグメンテーション 予測されたマスクと実際のマスクの間の交差比率を計算すること。すべてのカテゴリの IoU を計算した後、平均することで MIoU を取得できます。
②MPA(カテゴリ平均画素精度)
セグメンテーションモデルのもう一つの評価指標であるカテゴリー平均ピクセル正解率PAの意味は、あるカテゴリー内で正しく予測されたピクセル数の総ピクセル数に対する割合です全カテゴリーのPAを計算しますを計算し、累積して平均してカテゴリ平均ピクセル精度 MPA を取得します。