機械学習 --- 経験的エラーと過学習、分散とバイアス、パフォーマンス測定、比較テスト

1. 経験的誤差と過学習

3 番目の図で確立されたモデルは、トレーニング セット内の y から x までを適切に予測できますが、モデルが y を適切に予測できることは期待できません。

テスト セット外のデータ、つまり、このモデルには優れた汎化能力がありません。

最初の図は線形モデルを確立していますが、このモデルはトレーニング セット データの構造を正確に捉えていません。

画像内の大きなバイアスは、アンダーフィッティングとも呼ばれます。

3 番目の図は、5 次多項式関数を通じてサンプルによく適合していますが、確立されたモデルを一般化すると適合しません。

トレーニング セット外のデータを非常によく予測できます (過学習とも呼ばれます)。

機械学習の主な課題は、目に見えないデータ入力を適切に実行することであり、この能力は汎化能力と呼ばれます。

(一般化)。

誤差: 学習者の実際の予測出力とサンプルの真の出力の差。

トレーニング セット エラー: トレーニング エラー

トレーニングセットの補数: 汎化エラー

テストセットエラー: テストエラー

汎化誤差が小さい学習器を取得したいと考えています。

過学習: 過学習により汎化能力が低下します。

アンダーフィッティング: トレーニング サンプルの一般的なルールを学習できていないこと。

過剰適合は機械学習にとって重要な障害であり、避けられません。

モデルエラーにはデータエラーが含まれるか、モデル情報にノイズが含まれます。

過剰学習の例: たとえば、試験前に、誰かが質問を繰り返す戦略を採用し、すべての質問を暗記しますが、質問が変わると、その人は答えます。

このアプローチは一般的なルールを抽象化していないため、ここまではいきません。

 トレーニング セット S とテスト セット T はデータ セット D を形成します。

データの分割によって生じるバイアスを避けるために、テスト サンプルは実際の分布からサンプリングされると想定されています。

テスト セットはトレーニング セットと相互排他的である必要があります。

学習者の汎化評価のテスト方法:

2. 分散と偏り

地上の敵ユニットを攻撃するためにヘリコプターを運転し、数十のシャトルを連続して攻撃したと想像してください。結果は次のようになります。

1. 弾は基本的にチームが通り過ぎた木に当たりますが、これはばらつきが小さく(弾が集中している)、ばらつきが大きい(目標に沿っている)ことを意味します。

程遠い)。

2. 弾丸は木、岩、花、植物に命中しましたが、敵軍は無傷でした。これは分散が大きいためです(弾丸はあらゆる場所に命中しました)

はい)、偏差が大きいです(1と同じ)。

3. 弾丸は敵軍の一部を殺害しましたが、一部は外れ、花や植物に当たりました。これは、分散が大きい (弾丸が集中していない) ことを意味します。

小さい(すでにターゲットの周りにあります)。

4. 弾丸は一発も無駄ではなく、一発一弾が敵を殺しました。これは抗日戦争ドラマと同じで、ばらつきが小さいためです(すべての弾丸が集中しています)。

1つの位置)わずかなずれを伴います(弾丸が集中する位置が正確に発射されるべき場所です)。

3. 性能測定

パフォーマンス尺度: モデルの汎化能力を測定するための評価基準。

回帰: 平均二乗誤差

カテゴリ: エラー率と精度

混同行列:

 適合率 P と再現率 R:

 PR 曲線領域と平衡点:

F1 メトリクス: 

ROC (受信機動作特性曲線):

ROC 曲線グラフ内の 4 つの点と 1 つの線を考えてみましょう。(以下を参照してください)

最初の点 (0, 1)、つまり FPR = 0、TPR = 1、つまり FN (偽陰性) = 0、および FP 

(偽陽性)=0。これは、すべてのサンプルを正しく分類する完璧な分類器です。

2 番目の点 (1,0)、つまり FPR=1、TPR=0 は、同様の分析により、これが最悪の分類子であることがわかります。

すべての正解を回避することに成功しました。

3 番目の点 (0,0)、つまり FPR = TPR = 0、つまり FP (偽陽性) = TP (真陽性) = 0 となります。

分類器はすべてのサンプルが陰性であると予測したことがわかりました。

4 番目のポイント (1, 1) で、分類器は実際にすべてのサンプルが陽性サンプルであると予測します。

上記の分析の後、ROC 曲線が左上隅に近づくほど、分類器のパフォーマンスが向上すると結論付けることができます。

以下の図に従って、陽性サンプルに属する各検査サンプルの確率値を大きいものから小さいものまで並べ替えます。写真「クラス」には合計20個のテストサンプルがあります

1 つの列は各テスト サンプルの真のラベルを表し (p は陽性サンプルを表し、n は陰性サンプルを表します)、「スコア」は各テスト サンプルの属性を表します。

陽性サンプルの確率。

次に、高いものから低いものまで、「スコア」の値をしきい値として使用します。

陽性サンプルに属するテストサンプルの確率がこの閾値以上の場合、それを陽性サンプルとみなし、それ以外の場合は陰性サンプルとします。

たとえば、図の 4 番目のサンプルの「スコア」値は 0.6 であり、サンプル 1、2、3、および 4 はすべて陽性サンプルとみなされます。

なぜなら、それらの「スコア」値はすべて 0.6 以上であり、他のサンプルは陰性サンプルとみなされます。

異なるしきい値を選択するたびに、ROC 曲線上の点である FPR と TPR のセットを取得できます。

 

 4. 比較試験

統計的仮説検定: 検定誤り率の推定値に基づいて汎化誤り率の分布を推測します。

仮説を立てる → 特定の確率分布に適合する中間変数を見つける → 確率分布を使用して特定の信頼水準 (信頼度) を決定する

この仮説を受け入れるかどうか。

一人の学習者の場合:

複数のホールドアウト法または相互検証法を実行した後は、複数の検定誤り率が発生するため、「t 検定」 (t 検定) を使用して単一の誤り率を検定します。

研究。

事前に設定された重要度 α と自由度 k-1 に従って、テーブルを参照することで臨界値 b を取得できます。Tt が臨界値 b 未満の場合はそれを受け入れ、そうでない場合は、

拒否する。

1 つのデータセットに対する複数の学習者:

サンプルのセット D については、k 分割相互検証により k 個のテスト誤り率が生成され、両方の学習器がデータ サブセットの各ペアでテストされます。

トレーニングとテストでは、2 セットのテスト誤り率がそれぞれ生成され、結果の各ペアの差が計算されます。2 人の学習者の成績が同じである場合、

2 つのエラー率間の対応する差は 0 である必要があります。まず、差の平均 μ と分散 σ^2 を計算します。有意差 α の下で、変数根が

あらかじめ設定された重要度 α と自由度 k-1 に従って、テーブルを参照することで臨界値 b が得られ、Tt が臨界値未満の場合は受け入れられ、そうでない場合は拒否されます。

 

 

 

 

 

 

おすすめ

転載: blog.csdn.net/weixin_43961909/article/details/131838963