第2章モデルの評価と選択
2.3パフォーマンス測定(0207平均二乗誤差)
パフォーマンス測定:モデルの一般化パフォーマンスを評価するには、効果的で実行可能な実験的推定方法だけでなく、モデルの一般化能力を測定するための評価基準も必要です。
パフォーマンスメトリクスはタスク要件を反映します。異なるモデルの機能を比較する場合、異なるパフォーマンスメトリクスを使用すると評価結果が異なることがよくあります。
つまり、モデルの品質は相対的であり、どの種類のモデルが優れているかはアルゴリズムだけではありません。また、データは、
m = 3の場合などのタスク要件にも依存します。
D | (x1、y1) | (x2、y2) | (x3、y3) |
---|---|---|---|
(2,3) | (4,5) | (7,1) | |
f(x) | 4 | 5 | 1 |
その後
- 平均二乗誤差=((4-3)2 +(5-5)2 +(1-1)2)/ 3
- 式2.3は確率を乗算することです
2.3.1エラー率と精度(0208)
エラー率:サンプルの総数に対する、分類が正しくないサンプルの数の割合
精度:サンプルの総数に対する正しく分類されたサンプルの数の割合
たとえば、m = 3の場合
D | (x1、y1) | (x2、y2) | (x3、y3) |
---|---|---|---|
(2,3) | (4,5) | (7,1) | |
f(x) | 4 | 5 | 1 |
y1!= f(x1) | y2 = f(x2) | y3 = f(x3) |
その後
- エラー率= 1/3
- acc = 2/3 = 1-エラー率
2.3.2重複チェック率、再現率、およびF1
重複チェック率、再現率(0209)
精度、精度とも呼ばれます
- 選ばれたスイカはいくつの良いメロンですか
- 取得した情報の何パーセントがユーザーの関心を引くか
再現率(再現率)、別名再現率
- すべての良いメロンの何パーセントが選ばれましたか
- ユーザーが関心を持っている情報のどれだけが取得されたか
m = 100、y = 1が正の例、y = 0が負の例であるとします。
実際の値y | 1 | 0 | 1 | 0 | … | 1 |
---|---|---|---|---|---|---|
予測値y ' | 1 | 1 | 1 | 1 | … | 0 |
この時点での実際の状況で60のポジティブケースと40のネガティブケースがある場合、予測結果では70のポジティブケースと30のネガティブケースがあります。
実際の状況\予測結果 | 良い例(70) | 反例(30) |
---|---|---|
良い例(60) | TP(50の実際のケース) | FN(10の誤った反例) |
反例(40) | FP(20の誤検知) | TN(20の真の反例) |
再現率P = TP /(TP + FP)= 50/70再現
率R = TP /(TP + FN)= 50/60
PR逆関係の原則(0210)
機械学習の戦闘-第3章では、精度だけに問題があることを説明しています
。上の図は、手書きの数字認識の例です。10個の数字1〜10が与えられ、2つの分類が行われたとします。つまり、数字が5かどうか。
- 1つのモデルのトレーニングを開始したばかりで、予測精度(=予測された右/すべて)は96.615%です。
- 別のモデルをあげてください。数字が見える限り、5ではないと判断され、正解率は90%以上になります。
これは、特に偏ったデータセットを処理する場合、つまり特定のクラスが他のクラスよりも頻繁である場合に、精度が分類器の好ましいパフォーマンス指標ではない理由を説明しています。なぜ
PRが逆に変化するのでしょうか。(PRの逆変化関係の原理)
しきい値は、2-> 3 Pから大きく、Rが小さくなり、2-> 1 Pから小さく、Rが大きくなります。
一般的に、精度が高いと精度が低くなることが多く、精度が高いと精度が低くなることがよくあります。例えば、
- 良いメロンをできるだけ多く選びたい場合は、メロンの数を増やすことができます。すべてのスイカを選ぶと、すべての良いメロンが確実に選択されますが、この正解率は低くなります。
- 良いメロンの割合をできるだけ高くしたい場合は、最も確実なメロンしか選べませんが、リコール率が低いため、必然的に多くの良いメロンを見逃してしまいます。
通常、一部の単純なタスクでのみ、重複チェック率とリコール率が高くなる可能性があります
PR逆関係画像とF1(0211)
しきい値が大きくなると、Pが増加し、Rが減少します。
しきい値-PR図と同じモデルでPR画像になり
ます。しきい値-PR図でP = 0.1 R = 1です。図に点をプロットしてPRの逆関係図を取得
します。ただし、選択方法最高のモデルパフォーマンス?
最適なしきい値の決定
方法1:R = Pポイント
方法2:F1測定
方法3
円1と円3の重みは1で、円1と円2の重みはベータ2です。
ベータ> 1の場合、Rはより大きな影響
ベータ<1の場合、Pはより大きな影響を及ぼします
マクロ/ミクロ-P / R(0213)
複数の分類を実現します(例として手書き数字認識を取り上げます)
- アルゴリズムの直接使用
- 2つのカテゴリを使用する
- O vs 1(?):2つの数字のグループ、1、2; 1、3; 1、4;…; 2、3; 2、4;…。合計10 * 9/2 = 45モデルが必要です
- O vs Rest:1およびその他; 2およびその他; ...; 10およびその他。合計10モデルが必要です
上記の多くのPとRの2つのカテゴリがありますが、これら2つのカテゴリは基本的に同じであり、複数のカテゴリの問題を一緒に解決します。このモデルの品質を測定する方法は?
- 方法1:最初に計算し、次に平均する
- 方法2:最初に平均してから計算し
ます。1つのトレーニングセットと上記で学習した複数のアルゴリズム。
次に、複数のトレーニングセットと1つのアルゴリズム
0214 PR曲線を使用して、異なるモデルを比較します。
同じ再現率の場合、Bの精度は> Cであるため、BはCよりも優れています
が、ABを比較するのは簡単ではありません。3つの方法があります。
- ABのサイズを比較する
- F1より
- Fbetaより
2.3.3ROCとAUC
ROC曲線とAUC(0215)
2つの曲線が交差する場合、ROC曲線の下の面積を比較する方が合理的です。つまり、AUC(ROC曲線の下
の面積)AUCは上の図の影付き部分の面積であり、式2.20はマイクロエレメント法を使用します。
(上底+下底)*高さ/ 2
(y i + y i + 1)*(x i + 1 -x i)/ 2
ランクロスランクロス(0216)
+
:正例
-
:例アンチ
D +:全ての正の例のセット
D - :すべての集合の負例
M +:正例の数は、
mは- :反例の数
次の図の手書きの数字を例として取り上げます。
+
:= 5-
:!= 5- D +:すべての= 5枚の写真のコレクション
- D -:!= 5つの画像コレクションすべて
- m +:肯定的な例の数、6
- M - :実施例の反転数、6
横軸のスコアは、各画像に付けられたスコアです。右に行くほどスコアが高くなります。
正の例にはm + iの番号が付けられ、負の例にはm -iの番号が付けられます。
次にそれを見てください。順番に
- m -iには、m +1より大きいスコアがいくつかあります。この時点で、m- 5とm -6は条件を満たし、2つあります。
- m -iには、m +2より大きいスコアがいくつかあります。この時点で、m -6は条件を満たし、1があります。
- m -iには、m +3より大きいスコアがいくつかあります。この時点で、m -6は条件を満たし、1があります。
- m -iには、m +4より大きいスコアがいくつかあり、0があります。
- m -iには、m +5より大きいスコアがいくつかあり、0があります。
- m -iには、m +6より大きいスコアがいくつかあり、0があります。
ランク損失=(2 + 1 + 1 + 0 + 0 + 0)/(m + * m -)= 4 /(6 * 6)= 4/36
AUC与ランク損失(0217)
2.3.4コストに敏感なエラー率とコスト曲線(続き)
コストに敏感な曲線の導入(0218)
さまざまなタイプによって引き起こされたさまざまなタイプのエラーのさまざまな結果は、エラーによって引き起こされた損失を評価します。エラーには、図の二分された不平等な対価(不平等なコスト)の
コストマトリックスが割り当てられる場合があります。
- cost ijは、i番目のサンプルをj番目のサンプルとして予測するコストを表します。
- 一般的に言えば、コストij = 0
- カテゴリ0がカテゴリ1であると判断された場合、損失は大きくなり、コスト01 >コスト10になります。
- 損失の程度はおおよそ異なり、コスト01とコスト10の値の差が大きくなります。
以前のエラー率は、さまざまなエラーのさまざまな結果を考慮せずに、エラーの数を直接計算したものです。
コスト曲線思考(0219)
Zhihu-Machine Learning(Zhou Zhihua)セクション2.3.4、コスト曲線の理解を参照できますか?
2021/2/19終了しなかったので、スキップすることにしました