経験的誤差と一般化誤差
過学習が中心的な問題です。
過剰適合は避けられず、可能な限り軽減することしかできません。すべてのアルゴリズムは、過学習を軽減する方法を
考える必要があります。緩和策が失敗するのはどのような場合ですか?
モデルの選択
評価方法
取り置き方法
なぜ小さすぎることができないのですか?
Mx は M100 の結果を近似するために使用されるため、
なぜ大きすぎてはいけないのでしょうか? err100 ホールドアウト法の近似に使用される残りのデータに関する大きな問題は、100 回のランダムな除算が実行されたとしても、トレーニングされていないデータやテストされていないデータがまだ存在することです
。
相互検証法
予約方法の課題を解決します。
ランダムに 10 回分割します。10 回 10 分割交差検証と呼ばれます。
自助
環境設定
モデルのパラメーターをテスト セットで直接調整することはできません。
パフォーマンス指標
PR曲線は、
全検査サンプルを陽性例となる確率の高い順から低い順に並べ替え、縦軸を適合率、横軸を再現率として曲線を描きます。
一般に、A の曲線が B を完全に包み込む場合、A の方が B よりも優れていると考えられます。
BEP
PR 曲線のバランス ポイント。
ROC 曲線は
PR 曲線に似ていますが、横軸が偽陽性の例に置き換えられ、縦軸が真の例に置き換えられます。
本当の例 = TPTP + FN 本当の例 = \frac{TP}{TP+FN}実際の例=TP+FNTP
偽陽性 = FPTN + FP 偽陽性 = \frac{FP}{TN+FP}偽陽性=テネシー州+FPFP
AUC
ROC 曲線の下の面積
コスト依存エラー率
混同行列の FP と FN には重みが含まれます。
コスト曲線
描画:ROC曲線上の各点(TPR、FPR)のFNRを計算し、(0、FPR)から(1、FNR)までの線分を描き、線分の下の面積がこの条件での予想人口を表すコストとしては、すべての線分の下限の面積を取るだけです。
比較試験