機械学習 - モデルの評価と選択 (第 2 章) 授業後の演習

1運動

1.1 質問 1

データ セットには、500 個の正の例と 500 個の負の例を含む 1000 個のサンプルが含まれています。70% のサンプルを含むトレーニング セットと、ホールドアウト法の評価用の 30% のサンプルを含むテスト セットに分割されます。という分割方法があります。

回答:「hold-lout」メソッドは、データ セット D を 2 つの相互に排他的なセットに直接分割します。トレーニング セットとテスト セットの分割では、データ分布の一貫性を可能な限り維持する必要があります。質問の要件によると、トレーニング セットとして 700 個のトレーニング サンプル、テスト セットとして 300 個のテスト サンプルを選択する必要があります。正の例と負の例の比率は 1:1、つまり、正の例は 350 個あり、トレーニング セットには 350 の負の例、テスト セットには 150 の負の例、正の例と 150 の負の例。共有C_{500}^{350}\回 C_{500}^{350}種。

1.2 質問 2

データ セットには 100 個のサンプルが含まれており、そのうちの半分は正の例、半分は負の例です。学習アルゴリズムによって生成されたモデルは、新しいサンプルをより多くのトレーニング サンプルを持つカテゴリとして予測すると仮定します (トレーニング サンプルの数が同じ場合はランダムな推測が実行されます)。 . 10%オフを使ってみる 交差検定法とリーブワンアウト法でそれぞれ誤り率を評価します。

答え: 10 分割交差検証: 各トレーニング サンプル内の正の例と負の例の数が同じであるため、結果が正の例と負の例として判断される確率も同じであるため、エラー率の期待値は 50 です。 %。Leave-one-out 法: 正の例をテスト サンプルとした場合、トレーニング サンプルの正の例と負の例の比率は 49:50 になります。このとき、テスト サンプルに対するモデルの予測結果は負になります。たとえば、誤差率が 1 である場合、テスト サンプルとして負の例が使用される場合、トレーニング サンプルにおける正の例と負の例の比率は 50:49 になります。このとき、テスト サンプルに対するモデルの予測結果は次のようになります。は正の例であり、エラー率は 1 です。要約すると、予想されるエラー率は 1 です。

1.3 質問 3

学習者 A の F1 値が学習者 B の F1 値よりも高い場合、A の BEP 値も学習者 B の F1 値よりも高いかどうかを分析します。

答え:

F1 値は、2 次元座標内の曲線上の任意の点で計算できます。 

BEP は曲線上の特定の点です。Break-Event Point (略して BEP) はそのような指標であり、適合率 = 再現率の場合の値です。

ここで、学習者 A と学習者 B の交点の右半分に注目してください。A 上に点 (0.85, 0.5) があり、B 上に点 (0.9, 0.5) があるとします。次に、次のように計算されます。

学習者 A の F1(A)=(2*0.85*0.5)/(0.85+0.5)=0.630

学習者 B の F1(B)=(2*0.9*0.5)/(0.9+0.5)=0.643

F1(B)>F1(A) があります。

したがって、B の F1(B) が A の F1(A) より大きいため、B の BEP が A の BEP より大きいということにはなりません。

1.4 質問 4

真陽性率 (TPR)、偽陽性率 (FPR)、適合率 (P)、および再現率 (R) の関係を説明します。

答え:

再現率 (R): 陽性例であると予測される真陽性例の割合。R=TP/(TP+FN)

真陽性率 (TPR): 陽性例として予測される実際の陽性例の割合。TPR=TP/(TP+FN)

明らかに再現率 (R) = 真の症例率 (TPR)

適合率 (P): 陽性例として予測されたインスタンスのうち、真の陽性例の割合。P=TP/(TP+FP)

偽陽性率 (FPR): 陽性例であると予測される真陰性例の割合。FPR=FP/(FP+TN)

再現率が高いほど再現率は低くなり、再現率が高いほど再現率は低くなります。

1.5 質問 5

次の式を証明してみてください。

機械学習 (Xigua Book) 第 2 章 モデルの評価と選択 授業後の演習 - Jianshu (jianshu.com)

1.6 質問6

エラー率とROCカーブの関係について説明します。

回答:通常、サンプルの総数に対する誤って分類されたサンプルの割合をエラー率と呼びます。

ROC 曲線上の任意の点が (FPR、TPR) に対応します。

TPR=TP/(TP+FN)

FPR=FP/(FP+TN)

エラー率は次のようになります。\frac{FN+FP}{m_{+}+m_{-}}

したがって、誤り率は点ごとに異なります。

\frac{\left ( 1-TPR \right )m_{+}+FPRm_{-}}{m_{+}+m_{-}}

1.7 質問 7

ROC 曲線にはそれに対応するコスト曲線があること、またその逆も同様であることを証明してみてください。

答え:

真の症例率:TPR=\frac{TP}{TP+FN}

誤検知率:FPR=\frac{FP}{TN+FP}

偽の反例率:FNR=1-TPR

定義から、TPR と FPR が両方とも 0 から 1 に増加し、その後 FNR が 1 から 0 に減少することがわかります。

最初のコスト線セグメントは (0, 0)、(1, 1) であり、最後のコスト線セグメントは (0, 1) (1, 0) であるため、各 ROC 曲線はコスト曲線に対応します。

すべてのコスト線セグメントには常に、予想される全体コストである共通領域があり、この領域の境界はコスト曲線であり、(0, 0) から (1, 0) までである必要があります。

サンプル数が限られている場合、ROC は折れ線になるため、コスト曲線に基づいて ROC 曲線を復元することはできません。しかし、理論的にサンプルが無限にある場合、ROC は連続ポリラインであり、コスト曲線も連続ポリラインであり、各点の接線を使用して TPR と FNR を計算することで、一意の ROC 曲線が得られます。

1.8 質問 8

答え:

正規化: 元のメトリック値を無次元値に変換します。属性データをスケーリングすることにより、特定の属性の値範囲全体が関数を通じて新しい値範囲にマッピングされます。つまり、古い値がそれぞれ新しい値に置き換えられます。

最小値と最大値の正規化:

スケールダウン:\frac{x_{最大}^{'}-x_{分}^{'}}{x_{最大}-x_{分}}  

元のデータのオフセット:x-x_{分}

式全体の意味は、元のデータのオフセットを同じ割合で削減し、削減されたオフセットを新しい範囲の最小値に加算して、新しいデータの値を取得することです。

利点:元のデータ間のオフセットの関係が保持される、データ正規化後の値の範囲を指定できる、最も計算量の少ない方法である。

短所: 指定後の最大値と最小値を事前に知っておく必要がある; 元のデータ内の新しいデータが元の範囲 (最大値と最小値の範囲) を超える場合、「クロスボーダー」が発生し、以前のすべての結果が必要になる元のデータの一部の値が非常に外れ値が高い場合 (つまり、元のデータの最大値または最小値が非常に大きくなる場合)、正規化されたデータの大部分は特に集中しており、区別することが困難になります。

Z スコアの正規化:

この式は、元のデータがすべての元のデータの平均から減算され\bar{x}\シグマ_{x}正規化されたデータである標準偏差で除算されることを示しています。

式を変形すると、Z スコア正規化では実際に、すべての二乗偏差距離の合計に対する平均と比較した各データの二乗偏差距離の比率が計算されることがわかります。

利点: 元のデータが追加または削除されるたびに、その平均\bar{x}と分散が\シグマ_{x}変化する可能性があるため、再計算する必要があります。計算原理によれば、正規化されたデータの値の範囲は基本的に [-1,1] であることが簡単にわかります。 ]、データ間 分布が比較的密で外れ値に対する感度が比較的低いため、計算量が比較的多くなります。

1.9 質問9

わずかに

1.10 質問 10

わずかに

参考記事:

[1] 周志華、機械学習、清華大学出版局、2016

https://max.book118.com/html/2020/1229/8006134067003032.shtm

https://blog.csdn.net/cherryc2015/article/details/60132563

https://www.docin.com/p-2296476862.html

https://blog.csdn.net/huzimu_/article/details/123306748

https://www.zhihu.com/question/337049681

https://blog.csdn.net/u014134327/article/details/94603249

おすすめ

転載: blog.csdn.net/aaaccc444/article/details/133073265