評価方法の機械学習モデル

オーバーフィッティングエラーの経験

機械学習では、我々は一般的に誤分類サンプルの割合の合計数のサンプルの数は「というエラーレート誤り率Eの数を記録し、「」、エラーサンプルがmとサンプルの合計数であり、E = A / M対応して、表記精度 1 - E.

実際の学習者の予測出力と実際の出力サンプル「と呼ばれる間の差の誤差」、トレーニングセット上のエラーが「と呼ばれる訓練誤差」や「経験エラー」、新しいサンプルでエラーが呼ばれて「汎化誤差。 "

もちろん、我々はそれが可能性が高い学習者だけで、可能な限り小さく、時間のトレーニングエラーの多くの学習誤差が小さくなるようにしよう、しかしではないので、小さい汎化誤差の学習者が、私たちが知らないサンプルの新しいセットを取得したいですトレーニングセットは、すべてのサンプルセットは、そのような汎化能力の学習者が減少していることを、法の一般的なルールとしてユニークであり、我々は「として、この現象を呼び出すオーバーフィット」と呼ばれる対応する一方で、「underfitting」 、機械学習が直面はい主要な障害をオーバーフィット。

モデルの評価方法

私たちは、一般的に学習汎化誤差を評価するための実験的試験を使用しているため、「必要とテストセット」、汎化誤差の近似として、テストセットの測定誤差を。注意テストセットとトレーニングセットは、相互に排他的に保つ必要があり、我々は、一般的に教室最終試験の例として、質問に入れていないようでは、それ以外の場合はあまりにも楽観的な結果を来るかもしれません。

提供されたデータは、D = {(X1、Y1)は、(X2、Y2)、···、(XN、YN)}が含まれているN個のデータサンプル、Sはトレーニングセットであり、Dは、テストセットで設定され、次はいくつかの共通していますDにSおよびDを処理することによって得られます

留出法

直接Dには二つの相互に排他的なサブセットS、それらのいずれか、及びDのような他の、すなわち、D = S∪Tに分割され、S∩T = Oで

90のエラー場合トレーニングセットSとして700個のサンプルは、テストとして300個のサンプルがT、モデルTを用いてテストした後に得られたSの最初のトレーニング、サンプルの数を設定するとし、N = 1000、:栗のため70%の精度と比較して、エラー・レート(300分の90)* 100%= 30%。

維持しようとするためにトレーニングセットとテストセットを分割の原則に注意を払うする必要があり、データ配信の一貫性を追加偏差データパーティショニングの導入を避けるためには。例えば、分類タスクカテゴリーの割合が同様のサンプルを維持するために、私たちが使用できる「サンプリングを層化。」

栗のため:D 500の正の場合、500反例、我々は、トレーニングセットの70%を有していて、テストセットとして残りの30%が350反例350の正例を含むトレーニングセット内に保持されるべきであって、テスト・セット実施例150の正、負の150例。

さらに、Dの我々の異なる部門、Sによれば、異なるTになり、結果をテストするこの時間は、安定性を向上させるために、私たちができ、異なっていてもよく、分割撮影したいくつかの試験の結果を平均します

一般的に、我々は2/3を入れて - テストのためのトレーニング、休息のために使用されるサンプルの4/5。

クロスバリデーション

K類似のサイズにD 相互に排他的なサブセット、すなわち:

D = D1 D2∪∪...∪ディ∩Djの= O、I≠jのDkを、

データ分布の一貫性を維持するために、ディ試料を剥離することにより得られます。

Sとして各k-1のサブセットと、Tの残りのサブセットとして、訓練はk回行ってもよく、kは、平均リターンkの最終的な結果を結果を得ました。

我々は、クロスバリデーションとも呼ばれるように、明らかにかなりの程度まで、kの値は、評価結果の安定性と忠実度を決定する「K倍クロスバリデーション」。

kの最も一般的に使用される値は10であり、10倍のクロスバリデーションケースと呼ばれる、ならびにkの他の値は、典型的には、等5,20です。

また、異なる分割方法Dに起因し、それによって、その後、例えば、p番目の評価の平均値の最終的な評価の結果をp回繰り返し試験結果、我々通常ランダムP部門「10に影響を及ぼす異なるトレーニングおよび試験セットになり倍10倍クロス確認。」

例外:休暇1

SとDのみのサンプルとの間の差はK = M、ユニークな分割、ので、結果は通常、より正確であると考えられているが、Nが非常に大きい場合、例えば、Dが含まれている場合百万サンプルが1,000,000を訓練する必要がありますパラメータ調整アルゴリズムの場合には考慮されなかったモデル。

ブートストラップ

収集D 'は、我々は、ランダムD'、D、Dに配置された試料から採取し、再びサンプル、反復n回に、その後、D 'は、サンプルを含むN、およびサンプルDの数一貫性のあります。

この場合には、その後、重複サンプル、サンプリングn回の試料中のd存在する取られていなかったが、試料はPが取り込まN個のサンプルに提供されなかった確率D 'が存在してもよいです

P =(1 - 1 / N)^ N、 

Pの制限を取ります:

 = 1 / E≈0.368

私たちはトレーニングセット、DとD 'ことができるようにそれは、中D'サンプルDの36.8%いなかったです- D 'をテストセットとして、その現実的な評価モデルとモデルは、n個の学習サンプルの使用を評価することが期待されていることを、まだ合計ながら、テスト用サンプルの約1/3のような既知の試験結果として、トレーニングセットに表示されませんでした「見積もりをアウトソーシング。」

自己データセットは、一般的に効率的にトレーニングとテストセットの時間を分割するあまり難しく使用されています。

ブートストラップは、初期データから異なるトレーニングセットの数を作る、それが総合学習や他の方法に大きな利点です。

しかし、得られたデータは、ブートストラップは、このようにバイアス推定値を導入する、元のデータの分布を変更設定します。したがって、初期データが十分にしばしば脇に使用され、クロスバリデーション法。

ブログのこのシリーズは、私はノートのラインとして希望スイカブック学習の要約です。

上記。

おすすめ

転載: www.cnblogs.com/shenxi-ricardo/p/12056787.html