サンプルの不均衡は、多くの場合、2つの質問につながります。
1.サンプルは常に試料分類のより多くに割り当てられていることを過剰適合原因を分類サンプルの多数のモデル。
2.また、典型的な問題は、この問題は、サンプル予測モデルの高精度を指し、正確パラドックスであるが、モデルの汎化能力が劣ります。
その理由は、モデルがほとんどのサンプルは、多数のサンプルそのクラスに分類されているということです。
不均衡のサンプルについては、いくつかの一般的なソリューションがあります
- より多くのデータを収集
- 評価指標の変更
- サンプルデータ
- サンプル合成
- サンプルの重みを変更します
より多くのデータを収集
収集より多くのデータは、その正および負のサンプルの残高の割合は、この方法がしばしばあるほとんどが実際に道を見落としていること、しかし、ときにデータを収集していないのコストは、この方法が最も効果的です。
元のデータを生成するために収集シーンデータの割合がアンバランスである場合ノートが、しかしながら、このアプローチは、不平衡比データの問題を解決しません。
評価指標の変更
精度と選択モデルを判断することではありません変更する評価指標は、その理由は、我々は、上記の精度パラドックスの問題です。実際には、具体的に裁判官に対処するいくつかの指標が存在する場合、このような精度、リコール、F1値、ROC(AUC)、カッパなどのようなアンバランス裁判官の問題、。
記事によると、優れた自然とのROC曲線は、サンプルの割合で変化するので、より良いアンバランス比の場合には、サンプルの分類のメリットを反映することはできません。
サンプルデータ
サンプルデータは、データサンプルの比率を変更するために標的とすることができる、サンプル2つの方法がありますオーバーサンプリング、およびアンダーサンプリング、前者は、試料中のサンプル数は、元のサンプルの直接的なコピーである方法、あまり増加し、これは、方法は、それらの余分のサンプルを破棄することで、試料中の多数のサンプルによって低減されます。
一般的にはより多くのアンダーサンプリングとみなさサンプルの総数の、サンプルと少ない時間数がオーバーサンプリングの数を考慮するとき、話します。
サンプル合成
サンプル数を増やすために、合成サンプル種類の(合成試料)試料は、新たなサンプルを生成するために、各機能の既存のサンプルを組み合わせることによって、合成手段小さいです。
各フィーチャからランダムに選択され、最も簡単な方法の一つは、新しいサンプル中にスプライシング値を有し、この方法は、過剰の上記効果と、小さなサンプルサイズカテゴリのサンプルの数を増加させます上記の方法は、単純にサンプルをコピーすることで、どこに新しいサンプルがスプライシングを得ていることを除いて、同じ方法をサンプリング。
そのような方法は、新しいサンプルのランダムな選択機能類似の試料の方法によってスプライシングにおける方法の代表的な強打(合成少数オーバーサンプリング法)、です。
サンプルの重みを変更します
サンプルの重みを変更すると、このタイプの小さな数に、そのようなサンプルが誤って共有、対応する重みで乗算される値の損失であった試料重量区分の小さなサンプルサイズを増加させるために右になるように分類器支払うもっと注意を指しサンプル。