機械学習ノート(B) - 品質の決意モデル

まず、トレーニングセットとテストセットを分割

  • トレーニングセット:トレーニングモデルの集合
  • テスト・セット:テストモデルのトレーニングセット。

解像度データセットの一般的な方法:

1. 留出法

別に方法(ホールドアウト)データセットDは直接テストセットTとSのようなトレーニングセット、および他の二つの相互に排他的なセットに分割します 即ち、D =S∪T、S∩T=∅。モデルの後推定汎化誤差として、誤差を評価するための試験でS、Tに訓練を受けています。
注:(1)分割トレーニング/テストセットの追加のバイアスを導入する過程にあるため、データの最終結果に影響を避けるために、可能な限りのデータ分布の一貫性を維持します。
(2)異なる部門が異なるトレーニング/テストセットにつながる、モデル評価結果も相違しています。
(3)一般的には、約2 / 3~4 / 5トレーニング用サンプル及び試験のための残りのサンプルします。

2.クロスバリデーション

交差検定(クロスバリデーション)最初のデータは、データ分布の一貫性を確保することができるように、同様のサイズのk個の互いに素なセットに各部分集合をDに設定する、すなわちDに積層した試料から テストセットの他の部分とトレーニングセットとしてK-1と設定された各サブセット、だから最終的な試験結果を返し訓練および試験回数Kとすることができるトレーニング/テストセット、kのk個のセットを得ることができること平均。10のK値は、一般に、ケース10倍クロスバリデーションと呼ばれます。他の一般的なk値は5、20などです。
ここに画像を挿入説明

3.ブートストラップ

セルフサービスの基礎とセルフサンプリング方法。よりよい異なるトレーニングサンプルサイズの影響を低減することができるだけでなく、より効率的に推定するための実験を実施すること。バックサンプルの初期データセットに次に:「Dの各々からランダムに選択されたサンプルDにコピー」、及びDのデータセットがM個のサンプルのセットを含む、我々は、データは、それがDサンプリングされる設定生成しますこのプロセスを繰り返し、データサンプルのセットを得るために、Dは、自己サンプリングの結果であるM「を含み、m回実行されたとき、Dサンプルがまだそう解釈されるべきである場合、次のサンプルように。サンプルのD部分は、D「が何度も表示されています、そしてサンプルの別の部分は表示されません。m個のサンプルにおける確率サンプルは、約0.368であると解釈されません。
自助方法は、初期データセット、継承された学習の大きな利点は異なるトレーニング複数の焦点を生成することと、小さなデータセットは、効果的にトレーニング/テストセットに分けることは困難であるとき自助方法が便利です。

第二に、評価結果:精度、混同行列、精度、リコール、F1スコア、ROC曲線

1.正確な比(精度):

予測1の値、および予測の比率、それは次のようになります。私たちはどのように正確に予測イベント、心配されています。

2.リコール(リコール):

すべての実際のデータが1、すなわち数の予測である:我々が懸念していることをイベントの発生の本当の場合、我々は成功し、どのくらいの割合を予測しました。

一般的に、精度と再現率は、矛盾の尺度です。場合は、高精度、しばしば低リコール、再現率、精度がしばしば低いながら。
メトリック・オフの選択では、多くの場合、彼らはシーンに基づいてする必要があります。バイナリ分類問題の株式の将来の動向では、これは希望のある、一般的な懸念は、人々は、上昇銘柄では、より大きな割合で本当の上昇が優れているということです呼び出す精度率さらにいくつかの上昇サイクルを省略し、我々は失うことはあまりありません。再現率が低い場合には、医療分野における疾患の診断のために、それは患者が病気を持っているであろうことを意味し、単一ませんが、我々は予測すべての患者にできるだけしたいので、予測し、そうすることが必要であるリコールを改善するには

3.混同行列:

二分質問、およびその真のクラス分類予測を学習するための実際の例(TP)、偽陽性例(FP)、真陰性(TN)、偽反例(FN)4例の組み合わせに分けることができます。次のようにTP + FP + TN + FN =サンプルの総数は、マトリックスが形成されています。

予測 予測
真実 正例 反例
正例 TP FN
反例 FP TN

前記
(1)精度精度= TP /(TP + FP )

(2)再現率、感度、リコール、リコール= TPR = TP /(TP + FN)真陽性率
(3)真の陰性率TNR、特異TNR = TN /(FP + TN)
(4)偽陰性レートFNR、誤診率(1-感度)FNR = FN /(TP + FN)、
(5)偽陽性率FPR、誤診率(1-特異性)FPR = FP /(FP + TN)

4.F1スコア:

我々は正解率(P)とリコール(R)これら2つの指標の両方の世話をする場合は、F1スコアは、精度と再現率の調和平均です。
2 =フロリダP R&LT /(P + R&LT)
すなわち1 / F1 =(1 / P + 1 / R)/ 2

分類閾値:

すなわち、閾値決意閾値試料正例を設定します。
ロジスティック回帰モデルのリターンの確率は0.9995としてメールを予測する場合は、そのモデルは、このメッセージがスパムである可能性が非常に高いと予測します。別の電子メールで0.0003のスコアを持つロジスティック回帰モデルで予測し、逆に、おそらくスパムではありません。あなたは0.6に電子メールそれのスコアを予測することができますか?バイナリロジスティック回帰カテゴリに値をマッピングするためには、分類閾値(も判定しきい値と呼ばれる)を指定する必要があります。値が閾値を超えている場合は、「スパム」、値がしきい値を下回っている場合、それは「非スパム」を示します。人々は、閾値が常に0.5に分類されるべきであると考える傾向があるが、しきい値は、特定の問題に依存しますので、あなたはそれを調整する必要があります。
精度が閾値の増加に伴って減少し、リコールは、閾値が増加するにつれて減少しますいくつかのシナリオは、精度が必要な場合は、リコールは、このようにして得られる80%の閾値に維持されます。

6.ROC曲線:

ROC曲線(受信機動作特性Cureve)、TPR及びFPRの間の関係を記述する。x軸はFPRであり、y軸はTPRです。
TPRが正しく陽性と判定されたどのように多くの肯定的な例であり、FPRは、すべてのケースで負の場合、数が間違って陽性と判定されました。分類閾値を異なる値、TPR及びFPRも異なる計算結果、最も理想的な状況では、我々は、全ての陽性症例&負例が正常にすべてのTPR = 1、FPR = 0、すなわち、正の例予測値の全てを>予測された期待します例えば、負の予測値は、その後、閾値は、最小予測例例陰性予測値の正の最大値との間の値をとることができます。
FPR、より良いTPRより大きく、より良い小さいが、二つしばしば矛盾する指標。TPRを増加させるために、より正例サンプルを予測することができ、同時により多くの偽陰性症例の場合のような増大は、正の例でした。
ここに画像を挿入説明
近いトップは、より良い、クラシファイア証拠効果をROC曲線の角を左に。完全な分類の左上の点、(TPR = 1、FPR = 0)、 医師が高い、フル診断権を熟練しているとして表しました。

7.AUC:

一般的なROC曲線では、我々が懸念しているAUC(下面積曲線)として知られ、曲線下面積です。AUCは、横軸(0,1)の範囲であり、縦軸(0,1)ので、総面積は1未満です。

台形のROC曲線下、矩形特性台形とみなすことができます。従って、この領域は、* H / 2)底のAUC :(下部ベース+考えることができ、曲線下面積は、台形の複数の領域の重ね合わせによって得ることができます。AUC、より良い分類器の分類結果。
•AUC = 1は、予測モデルを使用して、完璧な分類器は、あるときは、どんなしきい値は、完全な予測に来るように設定することはできません。大半は機会を予測し、完璧な分類器はありません。
•0.5 <AUC <1、ランダム推測よりも良いです。分類器(モデル)が正しく予測値を有するように、次に、閾値を設定します。
•AUC = 0.5は、ランダムな推測のように、何の予測値をモデル化していません。
•AUC <0.5、ランダム推測よりも悪い。しかし、長い行は、それがより良いランダム推測よりも、抗予測常にあるよう。

第三に、回帰分析結果の評価:MSE、RMSE、MAE、R乗

1.平均二乗誤差MSE

異なるテスト設定データ量m、蓄積動作するので、データが増加し、エラーが徐々に蓄積し、したがってmおよび相関の測度。画像データの量をオフセットするために、データの量は、オフセット誤差を除去することができます。このアプローチによって得られた結果は、平均二乗誤差と呼ばれています。統計的パラメータは、生データと対応する予測データポイントと平均二乗誤差である
MSE(平均二乗誤差):
ここに画像を挿入説明

2.根平均二乗誤差RMSE

しかし、平均二乗誤差MSEを使用して、衝撃次元を受けます。例えば、不動産の尺度は、Yの単位は(百万)であり、得られた結果は、測定値(百万平方フィート)です。寸法の問題を解決するには、ルート平均二乗誤差RMSE(二乗平均Squardeエラー)を得た(得二乗差の平方根である分散の問題を解決するために、寸法)を処方することができます。
ここに画像を挿入説明

3.平均絶対誤差MAE

線形回帰アルゴリズムについては、別の非常に単純な評価基準があります。真値と最小値の予測結果との間の必要な距離は、絶対値の減算は、平均絶対誤差MAE(平均絶対誤差)と呼ばれる平均距離を取得するために、その後のMプラスM倍で割った、直接行うことができます
ここに画像を挿入説明
前に損失関数を決定し、我々はそう絶対値を使用していない、どこでも、ない絶対値関数を述べました。しかし、それは評価モデルには影響を与えません。したがって、評価モデルの損失関数は異なる場合があります。

4.Rスクエア(決意の係数)

主な決定要因は、SST、これら2つのパラメータは、SSRによって決まります。
(1)SSR:二乗差回帰の二乗和、すなわち予測データと元のデータが合計を意味する、以下の式
ここに画像を挿入説明
(2)SST:合計の和二乗、 すなわち、元のデータと平均値の和との差の二乗、次式
ここに画像を挿入説明
これは、見つかりました:SST = SSE + SSR
と私たちの「決意の係数が」SSRとSSTの比として定義されるので、

ここに画像を挿入説明
「決意の係数は、」データのフィット感の変化によって特徴付けられる良いか悪いかです。上記式は、通常の値の範囲「決意の係数を」知ることができる[0 1]は、1に近い、このモデルの変数方程式y強い説明力はデータに良好にフィットしていることを示す。
ここに画像を挿入説明
R&LTこのインジケータ側はなぜ良いですか?
分子では、間違った当社のモデルを用いて予測値と真の値とし、その差の二乗が発生することを予測しています。
分母のために、それが「予測値=サンプルの平均」このモデル(基準モデル)を作製、平均値と真値とその思考間違った差の二乗です。
我々は、より少ないエラーで、独自のモデルを使用し、ベースラインモデル生成より多くのエラーを使用しています。だから、1で割った間違ったエラーの少ないマイナスより、実際には、それはありません、インデックスエラーに対応しているライブデータへの我々のモデルのフィット場所の尺度です。
上記の我々は、以下の結論がであることができる:
R&LT ^ 2 <= 1
R2イエ大きく、より大きな小分子の減算、低エラーレート; 1の予測モデル、我々は任意の間違いを犯す、R2の最大値
ときに我々モデルは、基準モデルと同じである場合、R ^ 2 = 0
であればR我々はない基準モデルとしてモデルを学習したこと^ 2 <0、。この時点で、それはデータがない任意の直線的な関係が存在している可能性があります。

リリース元の2件の記事 ウォンの賞賛0 ビュー82

おすすめ

転載: blog.csdn.net/weixin_43312354/article/details/104739970