ズハウ・ジワ機械学習 - モデルの評価と選択

(1)エラーと過学習を経験します

エラー・レート・エラー・レート:サンプルの総数の割合を誤って分類されるサンプルの数。

精度精度:サンプルの数は正しく総サンプル1-Aの割合を分類します。

エラーエラー:|実際の出力予測 - 本物の出力サンプルを|

トレーニングエラーエラーエラーエラー経験の訓練や経験:トレーニングセットにおける誤差学習

汎化誤差の汎化誤差:新しいサンプルでのエラー

理想的には学習:「コモンロー」のすべての潜在的なサンプルに適用するためにトレーニングサンプルから学習可能な限り

オーバーフィッティング(過剰適合):学習者の訓練サンプルが「良い」を学ぶためには、サンプル自体のいくつかの特徴につながる可能性があり、このような汎化性能につながるものと、サンプルの共通電位として訓練されています。学習が強すぎるリードしているため。

Underfitting underfitting:学習サンプルの一般的な性質を学ぶことがなかったです。通常、学習障害につながるので。

オーバーフィッティング、解決することは比較的容易Underfittingすることは解決することは難しいことではありません、オーバーフィッティング機械学習が直面する主要な障害となっているが、オーバーフィッティングは完全に避けられないです。

実際の学習課題は、「モデル選択」(モデル選択)の問題であるパラメータや構成を決定する学習アルゴリズムを選択します。

(2)モデル評価

汎化誤差は、すべての試料について得られないため、それは一般的に汎化誤差近似としてテストセット(試験誤差)にのみ「測定エラー」です。

テストセットとトレーニングセットをとして相互に排他的でなければならない、即ち、試験サンプルを訓練に使用されていません。

サンプルデータセット= {D(のためのM X 1Y 1)、(X 2Y 2)、...、(XのMYのMトレーニングセットに分割する方法)}、S及びテストセットTを

方法①、データがトレーニング・セット内に直接設定ホールドアウトを残しSとテストセットTサンプルタイプの同様の比を維持するために、データセットの分割データ分布の一貫性を維持するために、分類タスクを、そのような予約一般に「層状サンプリング」(層化サンプリング)として知られているサンプリング方法の割合は、例えば、D例500トランス、30%層状サンプル試験サンプルを含む500回の正例の合計、Sは正のケース350、350を含むべきです反例、Tは、 150の正の場合、150個の負の例を含むべきです。

分割方法脇の様々な種類があり、SおよびT一般的に使用される、ランダムに数回に分け方法、単を用い脇方法は、後に繰り返し実験的評価を評価結果として、平均しました。Sが大きすぎると、訓練されたモデルは、に近いD、より良好な忠実度(フィデリティ)との評価結果が、テストセットTはない従って小さすぎると、評価結果は、安定して正確ではないそうでなければ忠実度の評価結果と保証することはできない、と完璧なソリューションは、それがテストの残りのための訓練のための約2 / 3-4 / 5の一般的な方法のサンプルです。

②クロスバリデーションは、D = D 1D 2 ∪...∪ D KD ID J =Φは(私はJの)、D Iは、層状のサンプル、それぞれ相互に排他的なサブセット、K-とそれぞれトレーニングセットとして1つのサブセットとセット、テストセット利用可能なk個のグループトレーニング/テストセットとしてそのサブセットの残りの部分は、とすることができるのk回のトレーニングとテスト、及び最終的に戻るk個の試験結果を意味します。安定性のクロスバリデーション及び評価結果を忠実に大きく依存のkと呼ばれる介して値K一般に10又は5,20を取る倍クロスバリデーション(K倍クロスバリデーション)。トレーニング/テストセットのk個のセットは、多くの分割が存在する、異なるランダムな分割を使用して一般的にK倍クロスバリデーションをp回繰り返され、最終的な評価は、p番目の平均K分割交差検証結果ということでした。

リーブ・ワン(リーブ・ワン・アウト、LOOをいう)、m個のサンプルを含むと仮定そのK = Mので、クロスバリデーションの特殊なケースが得られるリーブ・ワンを。まま-1を評価した結果、多くの場合、より正確と考えられますが、データセットは、計算のオーバーヘッド、大耐え難いです。

③自己ブートストラップ法を、クロスバリデーションを残している方法は、試料の左側の部分をテストするために使用されたため、訓練セット率で評価モデルDが小さい場合、必然的にいくつかのバイアス推定値は学習サンプルの大きさに起因して変化紹介(法律を残しこの最小限の影響が、計算の複雑さ)が高すぎます。ブートストラップは、Dのサンプルセットの能力のために、すなわち、M、それ自己サンプリング(ブートストラップサンプリング)が計算され、優れたソリューションである、m個のサンプルから採取した実施形態の置換を有するサンプリングを使用してデータセットD」を形成し、明らかにテストセットとして前記サンプル、サンプルDの約36.8%で設定された初期データDに表示されていない推定「次いでD」トレーニングセットとして、及びD \ D」が繰り返されてもよいです。

自助方法は、データセットに適している小さな、困難効果的に分割するために有用なトレーニング/テスト・セットです。データの最初の量が十分である場合、データセットの生成に起因するブートストラップ相互検証方法と、より一般的に残し、従って推定誤差が導入される、データの最初のセットの分布を変更し、。

④によるアルゴリズムの多くのパラメータに、最終調整するためのチューニングモデルパラメータやチューニングパラメータ(パラメータチューニング)に参加すると、各パラメータのため、実数の範囲の値では、モデルが不可能な訓練を受けて、それぞれの現実的な一般的な方法選択されたパラメータとレンジ変更ステップ。それでも、多くの学習アルゴリズムを設定すべきパラメータの数が多い、プロセスパラメータの調整作業を多量に発生します、どれだけのパラメータの調整は最終モデルのパフォーマンスに重大な影響を持っている傾向があります。

テスト・セットは、実際の使用テストデータで遭遇呼ばれるデータモデルを学びます。

検証セット(検証セット)、テスト・データ・セットを評価するためのモデル評価および選択。

トレーニング及び検証セットに実際に使用されているテスト・セットを推定する汎化能力、訓練データのパフォーマンスによって決定され、モデルパラメータの調整に基づく認証性能セットを選択します。

おすすめ

転載: www.cnblogs.com/Sweepingmonk/p/11037261.html