機械学習ZEMI003

第2章モデルの評価と選択


2.1経験的誤差、過剰適合、過適合

  1. エクスペリエンスエラー:トレーニングプロセス中に生成されたエラーは「経験的エラー」または「トレーニングエラー」と呼ばれ、新しいサンプル(またはテストセット)で生成されたエラーは「一般化エラー」と呼ばれます。
  2. フィッティング:フィッティングは「オーバーフィッティングオーバーフィッティング」と「アンダーフィッティングアンダーフィッティング」に分かれています。
  • 【オーバーフィッティング】よくある説明は、学習過程で学習した特徴が多すぎて、特定すべきはずのオブジェクトが除外されてしまう、オーバーフィッティングが深刻だと、追求する普遍性が失われてしまう。機械学習は基本的にNP問題であるため、過剰適合を最小限に抑えることはできますが、回避することは不可能です。
  • [アンダーフィット]はオーバーフィットの反対を意味し、除外する必要があるオブジェクトが含まれますが、いくつかの条件付き判断を追加したり、トレーニングラウンド数を増やしたりするなど、比較的簡単に解決できます。

モデル選定の評価方法

上述したように、過剰適合は避けられず、軽減することができるだけなので、より良い結果を達成するために、より適切なモデルをどのように見つけることができますか。つまり、相対誤差は最小です。

評価方法

前回の記事からわかるように、テストセットとトレーニングセットを分離する必要があります。なぜ分離したいのですか?テストの質問が通常行われると、テストは無意味になり、通常のトレーニング結果を評価することが不可能になります。ただし、データは制限されていることがよくあります。データセットをできるだけトレーニングに参加させるだけでなく、テストする必要もあり、テストセットとトレーニングセットを重複させることはできません。もう一度テストしますか?私たちがする必要があるのは、上記の効果を実現するために、いくつかの方法を使用して分割することです。本では、次の3つの方法が紹介されています。

  1. 除外方法:この方法の簡単な説明は、データセットを2つの完全に重複しない(相互に排他的な)データセットに分割することです。これらは、トレーニングセットおよびテストセットとして使用されますが、ランダムに割り当てられません。2つのデータセットのデータ分布は一貫性を保ちます。たとえば、猫と犬を識別するためのデータセットでは、猫と犬の分布は一貫している必要があります。元のデータセットには500の例が含まれ、250の猫と犬があります。その後、400の例をトレーニングセットに割り当てることができます。100例はテストセットで、トレーニングセットは猫と犬が200:200、テストセットは50:50です。ただし、この分割は一意ではありません。トレーニングセットを減らしてテストセットを増やすことはできますが、比率は同じままにする必要があります。(一般的に、テストセットには少なくとも30個のサンプルが含まれます)。
  2. 交差検証法:この方法も比較的シンプルで理解しやすいです。つまり、大きなデータセットをk個の小さなデータセットに分割します。k-1をトレーニングセットとして使用し、残りの1つをテストセットとして使用して、次のデータセットを選択します。テストセット、トレーニングセットとしての残りのk-1など。中でもkの値の方が重要であり、一般的にkの値として10が使われることが本書に記載されている(具体的な好みは不明)。この方法は、「k分割交差検証(k分割交差検証)」とも呼ばれます。最終結果は、これらの10個の検証の平均です。さらに、Leave-One-Out(LOO)である別の相互検証メソッドがあります。名前が示すように、kはデータセット内のデータ数に等しく、一度に1つだけがテストセットとして使用され、残りは次のように使用されます。トレーニングセット。このメソッドの結果は、テストセット全体のトレーニングの期待値に最も近いですが、コストが大きすぎます。
  3. セルフサービス方式:この方式の原理は、元のデータセットDにm個のデータがあることです。一度に1つずつ取得し、m回実行します。各データが取得される確率は、同じ、つまり新しいD /の mデータが重複している可能性があります。推定を行います。元のデータセットで取得されない確率は(1 − 1 / m)m(1-1 / m)^ mです。11 / m mはこの式の限界を取りますlim(1 − 1 / m)m = 1 / e≈0.368 lim(1-1 / m)^ m = 1 / e \約0.368l i m 11 / m メートル=1 / e0.368也就是说,有36.8%的数据没有被取到,我们就用这些数据作为测试集,而训练集依然保持了原有的数量。这种方法在对于比较小的数据集时效果较好。

おすすめ

転載: blog.csdn.net/weixin_35436966/article/details/90349129