機械学習における一般的な評価方法

1.なぜ我々は評価方法を実行する必要がありません

通常、我々は評価することができ、さらなる実験は学習者の汎化誤差をテストし、選択をします。したがって、新しいサンプルの学習者の決意をテストするための「テストセット」、および近似の一般化誤差として、次に「測定エラー」テストセットを使用する必要があります。

2.どのような評価方法

トレーニングとテスト・セット、およびどのように訓練するために、テスト・セットの配布、最適な効果になるためのサンプルセット。フランスのうち滞在し、貧しい自己検証方法:3つの特定の慣行があります。

2.1留出法

直接データセットDには、二つの相互に排他的な集合S(トレーニングセット)とT(テストセット)に分割されます。D =S∪T、S∩Tは=∅、S上のモデルを訓練した後、Tは、試験誤差によって、その汎化誤差推定値として評価しました。

例えば:

方法:2つの分類タスク

サンプルコレクション:Dは1000個のサンプルが含まれ、nは例500、例500トランス

SとTの分割方法は:Sは、実施例350の正の700個のサンプルを含む、トランス例350; Tは、300個のサンプル、150基の正例、実施例150トランスが含まれてい

誤り率と精度の計算値:90 Tに誤分類サンプルを、そのエラーレート(300分の90)* 100%= 30%であると仮定し、精度[(300から90)/ 300]×100%= 1- 30%= 70%

注:脇の方法を取得した使い捨て推定誤差は、多くの場合、ランダム脇の評価方法のセットとして平均評価結果を取って実験を繰り返した後、数回に分け、一般的に使用される安定十分ではありません。繰り返しランダムT Sに分割することができ、上記のように1000個のサンプルが、モデルの精度を用いた方法は、平均しました。

 

2.2クロスバリデーション

同様のサイズのk個の互いに素なセットにDデータセット、即ち、D = D 1 D 2 ... D K D I D J =∅(I≠J)は、各サブセットD Iはベストを持っていますデータ配信契約を維持することがあります。

例えば:

方法:2つの分類タスク

サンプルコレクション:Dは1000個のサンプルが含まれ、nは例500、例500トランス

SとTの分割方法:

  • 1000サンプルDに分割される。1及び10のサンプル(5肯定の場合、5反例)、D 2および10サンプル(5肯定の場合、5反例)... D 10(5 N実施例10のサンプルを有しています、反例5)。
  • 訓練セット、および精度の計算の最終テストセット

トレーニングセット

テストセット

テスト結果

500 1

D 2

D 3

D 4

D 5

D 6

D 7

D- 8

D 9

D 10

テストセットの精度1

500 1

D 2

D 3

D 4

D 5

D 6

D 7

D- 8

D 10

D 9

テストセット確度2

......

......

......

D 2

D 3

D 4

D 5

D 6

D 7

D- 8

D 9

D 10

500 1

テストセット精度10

  • 究極汎化誤差として、テストセットの精度平均

クロスバリデーション::リーブ・ワンサプリメントの特別なケースがあります。サンプルセットはテストセットとして、1000、999にトレーニングセットである場合。大規模なデータセット、トレーニングの大きなオーバーヘッドのために。

ブートストラップ2.3

その後:D「の各々からランダムに選択されたサンプル、Dにコピー」、および試料Dに戻し、その結果、M個のデータセットDを生成するためにサンプリングされたデータDの所定のセットを含むサンプル次のサンプル中のヒト試料を採取することができ、繰り返しm回の後、それらはデータサンプルDは、M「を含むのセットを有することになります。

例えば:

方法:2つの分類タスク

サンプルコレクション:Dは1000個のサンプルが含まれ、nは例500、例500トランス

SとTの分割方法:

ランダムトレーニングセットとして700個のサンプルに引き戻さAは、このサンプルでは700個のサンプルが繰り返されます。前記試料中の確率サンプル700は常に(1内に取り込まれていない1/ 700)^ 700 = 0.3676。(ときにサンプリング数mは、確率サンプルは(1-するものと解釈される常にではない。1 / M)^ M、限界が生じるイムM (1- 1 / M)^ M1 / e≈0.368)。

サンプルのテストセットの0.36確率がテストセットとして300個のサンプルのD \ D」を選択し、トレーニングセットには表示されません。そして、モデルの濃度の精度を計算します。

補足:ブートストラップ法は、時に効果的にトレーニングとテストセットを分割することは困難である、小さいデータセットに有用です。しかし、初期データセットの分布を変えブートストラップデータセットによって生成、推定バイアスがあるでしょう。

最終モデルの決定に関与2.4転送

ほとんどのアルゴリズムは、構成パラメータ、異なる構成パラメータを要求し、パフォーマンスを学んだモデルが有意差を持っている傾向があります。設定パラメータ選択すると範囲変更ステップ。

データセットDのm個のサンプルをかじる考えると、モデルの評価と選択プロセスを評価するための試験データの一部として残ることが要求される、実際には、私たちは、データモデルの一部で訓練します。モデル選択が完了した後、学習アルゴリズムとパラメータは、データセットDべき再トレーニングトレーニングプロセスのすべてのM個のサンプルを使用したモデルは、これがユーザに提示さ究極のモデルである、選択されます。

データは、「テストセット」と呼ばれるデータ評価モデルとして形成されているモデルで使用される「検証セット」。

3、要約

上記のプロセスは、三つの方法は、主に主に方法を残して、テストセットと検証セットに分割され、最初の2つの方法に非常に類似した自己交差検証法は、後者の方法は、データの初期量がされる場合に適している説明しますバイアス推定値の問題があります。具体的には、ユーザは、モデルの検証を分割する適当な方法を選択することができます。

公開された22元の記事 ウォン称賛28 ビュー50000 +

おすすめ

転載: blog.csdn.net/zfan520/article/details/90213856