アンバランスなデータカテゴリの問題を解決する方法(アンバランスクラスでのデータ)

カテゴリー不均衡は意味:分類タスクでは、データは、格差の異なる種類からサンプル数を設定します。

 

カテゴリー不均衡は、このような結果を引き起こす可能性があります:多くの場合、分類器の出力につながるデータの分布の不均衡は、データの分類の大部分を集中する傾向がある:クラスのほとんどの出力は、より高い分類精度につながる、しかしになります私たちのパフォーマンスの低下の少数株主持分。

 

通常、次の3つの方法があり、この問題に対処します:

 

1.アンダー

いくつかの実施形態でそのような対N、反例近接の数を除去し、学習。多くの抗捨て実施形態ので、分類器の訓練アセンブリは、初期トレーニングセットよりもはるかに少ないです。アンダーの欠点は、あなたには、いくつかの重要な情報を失う可能性があることです。それは多くの場合、統合学習メカニズムの使用であり、反例は異なる学習者の使用のためのいくつかのコレクションに分割され、これはアンダーサンプリングされた各学習者と同等であり、グローバルな視点から重要な情報を失うことはありません。


代表アルゴリズム: EasyEnsemble

各学習者がビューのアンダーサンプリングを実施してきたように、総合学習のメカニズムでは、反例は、異なる学習者の使用のためのいくつかのコレクションに分かれているが、グローバルな視点ではなく、重要な情報を失うことなく。

このアルゴリズムは動作します:

  • まず、ほとんどの独立したクラスのランダムに選択されたサブセットの複数。
  • 一緒に少数のクラスの訓練データの各サブセットのベース分類器を複数生成します。
  • これらのグループは最終的に分類は、統合された学習システムを形成するために結合されます。

EasyEnsembleアルゴリズムは非教師付き学習アルゴリズムと考えられているので、大多数のクラスのサンプルを抽出するために、すべての独立したランダムサンプリング機構を使用するように戻すことができます。

 

2.オーバーサンプリング

サンプルのトレーニングセットでは、正クラス「オーバーサンプリング。」でした Nは、N次いで、学習、いくつかの実施形態では、反例近接の数を追加すること。しかし、それは直接正例をコピーしていない、過剰適合する傾向があります。代表的なアルゴリズムは、一般的に打っアルゴリズムを使用します。これは、正の例を補間することにより、トレーニングセットで追加の正例を生成することです。初期トレーニングセットようにトレーニングセットよりもはるかに大きい正例数が増加し、オーバーサンプリングの欠点は、時間がコストアンダーよりもはるかに大きいです。


代表アルゴリズム:撃ち(合成少数オーバーサンプリング技術)

トレーニングセットにおける陽性例を通じて追加的な正の例を生成するために補間されます。これは、特徴空間における新たな少数のサンプルを合成するために、既存の少数クラスのサンプルを分析するために、K-最近傍法を使用しています。

このアルゴリズムは動作します:

強打アルゴリズムは、密集したサンプルの少数のサンプルは、既存の少数のサンプルを使用して、特徴空間との間の人工的な類似度データである少数のクラス、という仮定に残るとの間に確立されます。ここでは、簡単なアイデア打っアルゴリズムを持っています。

以下の図は、データのセットを示しています。

図から分かるように、試料は赤のサンプルと失われた影響をもたらす可能性が無視間の時間を決定するために、一般的なコール分類モデルにおいて、青、赤のサンプルの数よりもはるかに大きい、青色のみサンプルの分類精度を強調し、増加することが必要ですサンプルデータセットのバランスを取るために赤いです。

以下のクラスのn個のランダムに選択されたサンプルの最初の:

そして、m個のサンプルの最も近いクラスが少なく見つけます:

その後、必要に応じて、最も近い少しM個のサンプルの任意のクラス:

これら二つの点では、必要に応じて少し、これは新しいデータサンプルです。

 

3.移動しきい値

元のトレーニングセットに基づいて学習が、訓練された分類器の予測を使用した場合、Jiangzaiとして知ら意思決定プロセス、埋め込み式のスケーリングされた「閾値移動」を


バイナリ分類タスクでは、サンプリングするPと呼ばれる確率のクラスに属し、従って陰性サンプルの確率は、クラスに属する1-Pです。ときのp /(1-P)> 1、我々は正のクラスにサンプリングします。しかし、平衡条件下で試料は、それが正および負のサンプルの比が1に近いと言うことであり、その後、分類閾値は0.5です。サンプルがバランスされていない場合、我々は予測する上で分類閾値の値を変更する必要があります。

陽性サンプルを集中Mが存在すると仮定し、n番目のデータに負のサンプルは、次いで、陽性および陰性サンプルの確率はM / N(平衡の場合に試料を観察する確率)を観察しました。分類が実行されると、このとき確率P「/(1-P」)は、実際の観察Mの確率よりも大きい/ N、クラスに我々のみ陽性サンプル。この時、M /(M + N)は、新規な置換0.5分類閾値となります。

 

おすすめ

転載: www.cnblogs.com/HuZihu/p/11039627.html