08--不均一な試料溶液

背景

データ解析を行う際に、時々場合がある:例えば、クレジットカード詐欺の動作があるかどうかを決定するために、この問題は、バイナリ分類問題であるが、このような問題のために、詐欺があり、正常サンプルが非常にされています大きなギャップは、詐欺のみ百分の一を占めることができる未満である;このような試料は、通常の状態では、バランスのとれた場合はありませんするための2つの方法で処理することができる:オーバーサンプリング、ダウンサンプリング

ダウンサンプリング

この実施形態では、量は通常、1つの小さな調整、データのサンプル数であり、小さいサンプル量の同じ数(サンプル数以下同じ)を作成します

オーバーサンプリング

この実施形態では、通常、一つはデータ・サンプルの小さな数を、生成されるように、データサンプル数が少ないと同じくらい多くのサンプル数のいずれかとすることができるもの(サンプルの数だけ)

サンプル・データ処理

私たちは途中でデータの前処理、機械学習を必要とするすべての最初の、データ分析を行う場合、誤解は、そこにあるデータサンプルデータ内の大量のデータ、データ量が少ない中で重要度が高いと思いますデータの重要度が低い。しかし、データサンプルの重要性の私達の定義で同じ状況である通常2つの方法で処理したとき、私たちは前処理の際に、前処理にデータを必要とする:リターン標準化

正規化されました

ここに画像を挿入説明
ここで、標準的な処理方法StandardScaler sklearn中間前処理モジュール前処理の途中でここに導入される、使用sklearnに正規化、なお使用変形、2行3列の行列が、存在する場合(.reshape場合- 1,1)-1は、システムが自動的に判断表す行6のデータ行列を表し
、後でと量は、2つの列を削除し、軸= 1に使用される中間体は、それが表されます列を削除します

ダウンサンプリング

ダウンサンプリング、データが削除される必要があり、1個の以上のサンプルが、それらは中央numpyのrandom.choiceランダム選択を使用することができたときに
ここに画像を挿入説明
上記のようにして、次のデータの0とクラス1の2種類の指標を求めることができますデータトランザクションの二種類を統合することが可能である。本明細書のnumpyの方法連結するために使用される
ここに画像を挿入説明
中間貯蔵をインデックスに対応するこれらの内容を次のようにニーズ、インデックス値に対応するunder_sample_indicesデータ0とデータ1を超えています得るための
ここに画像を挿入説明
中間体の上方under_sample_data 1のデータ値にデータ0とデータに対応して、必要とする被験体の後に分析され、この場合、引数は非クラスはカラム定義歪みによって定義されるクラスは、このカラムである
ことによりこのシリーズの上記のプロセスは、ダウンサンプリングプロセスであり、あなたはそれらの多くが提供するデータを使用して、サンプリング時に、見ることができ、アプリケーションではありません、これはデータの無駄になり、最終的な結果は自然な存在であります特定の影響

おすすめ

転載: blog.csdn.net/Escid/article/details/90762717