欠落データ、異常データ、標準化されたデータ処理方法

データの欠落

まず、生成された欠損値の理由

欠損値の様々な原因、それは機械的な理由と人工の原因に分けます。理由は、機械的な故障への機械的データ(データ収集のタイミングの点で)経時的データを収集することができなかった機械的な故障をもたらす、そのようなデータ記憶障害、メモリへの損傷として、欠落によるデータ収集または記憶を引き起こします。人間の理由は、主観的なエラーであり、データの歴史的な制限が存在しないかの質問に答えを与える、または無効なデータ入力担当者のミスが記録オフリーク質問に答えるために減少し、市場調査回答者に、例えば、の原因を隠すために意図されましたデータ。

第二に、欠損値の種類

不足している欠損値の分布から、それは完全にランダムと非ランダム欠失で不足している、ランダムに完全に欠落しているという点で分類することができます。完全にランダムな欠失(ランダムに完全に欠落、MCAR)データは、任意の変数に依存して、または不完全完全可変ない欠落、ランダム欠落データを指します。ランダム欠失(MAR、ランダムに欠落)欠落データを指す、すなわち、そのような欠落データは完全に他の変数に依存して、完全にランダムではありません。完全に非ランダム欠失(ランダム、MNARでない欠落)欠落データを参照変数自体に完全に依存しません。

すべての欠落しているプロパティの値が同じである場合、欠損値が異なる特性に属している場合は不足しているあなたの財産の価値の観点からは、その後、単一の値の欠如が欠落している、不足している任意と呼ばれます。時系列データのクラスに加えて、時間の不足があるかもしれないとして、これは行方不明行方不明モノトーンと呼ばれています。

第三に、治療の欠損値

全体的に分割された欠損値を処理するため、欠損値と値の代入を欠落削除する場合があります。主観的データは、データの信頼性に影響を与えるだろう、保証するものではありません不足しているプロパティ値の真の値の他のサンプルがあり、それはこれらの補間が信頼できない属性の値に依存し、それは一般的に主観的なデータ補間のために推奨されていません方法。補間は主に客観的なデータのために、その信頼性が保証されています。

欠損値を含むケースを削除する1

簡単な削除方法と重量法があります。単純にdeleteメソッドは、欠損値を処理する最も原始的な方法です。これは、欠損値の例が存在することを削除します。データが欠落している場合は、問題の対象は、単にサンプルの小さな部分を削除することによって達成することができ、この方法が最も効果的です。ランダムに完全に欠落している非欠損値のタイプは、重み付けを減少偏差データによって完了したとします。データは、異なる重みを与え、完全なデータの場合、不完全な場合、マークされた後、重い重み場合は、ロジスティックまたはプロビット回帰することによって得ることができます。説明変数決定的可変重量推定行因子が存在する場合、この方法は効果的偏差を減少させることができます。説明変数と重量に関連していない場合は、偏差を減少させません。複数の属性が存在しない場合には、あなたは非常に、コンピューティング予測の精度が低下することの難しさを増加します重量の異なる性質のエンパワーメントの欠如の異なる組み合わせを必要とし、その後、重量法は理想的ではありません。

2.可能な値は、欠損値を補間しました

情報のソースは、すべての不完全なサンプルが少なく、失われた生産を削除するよりも、欠損値を転嫁する可能性が最も高い値であると考えられています。データマイニングでは、顔が通常大規模なデータベースで、そのプロパティが欠落しているプロパティ値として、数十あるいは数百を持っており、他のプロパティ値の多くをあきらめ、これは情報を削除する偉大な廃棄物であります、アイデアや方法は、欠損値の補間のための可能な値を生成するようにします。いくつかの一般的に使用される方法があります。

(1)平均帰属。スペーサータイプへの属性データと非スペーサー。値が指定された型から欠落している場合は、プレゼンス属性値の平均値が欠落している値を補間し、欠損値の非スペーサー入力した場合、モード統計の原理によれば、属性のモードパッド欠落値に(出現頻度の最も高い値をIE)。

(2)同じ平均代入を使用。平均にそれが階層的クラスタリングタイプと可変予測モデルが欠落していることを除いて同じ単一の平均値補間、補間の次にタイプに属する補間の方法。完全な可変情報のためにX =(X1、X2 ... XP)と仮定し、Yは、欠落変数の値は、その後、Xの最初の行、またはクラスタのサブセットが存在し、その後プレス欠落クラスが別のクラスの平均補間に属しています。後で統計分析で分析するために導入され、Y変数を説明する必要がある場合は、この補間方法は、障害物を分析するために、モデル内の自己相関をご紹介します。

(3)最尤推定(最大尤度、ML)。ランダムに欠損の条件下欠失型は、モデルが完全なサンプルのために想定される正しい、未知パラメータは、周辺分布観測データ最尤推定(リトルとルビン)であってもよいです。この方法はまた、欠損値は、多くの場合、期待値最大化(期待値最大化、EM)に使用される実際の計算方法のパラメータの最大尤度推定のために、最尤推定を無視すると呼ばれます。大規模なサンプルのため:単一値補間とより魅力の削除よりも、この方法では、それが重要な前提です。サンプル数は、効果的なML推定は、公正と漸近的に正規分布であることを保証するのに十分です。しかし、この方法は、高速ではなく、非常に複雑な計算極小値収束速度に陥ることがあります。

(4)多重代入(多重代入、MI)。マルチ値補間の思考は、ベイズ推定、補間値がランダムであると考えられています、値からその値が観察されています。特定の値の実施は、一般に補間される推定され、異なるノイズを加え、必要に応じて複数組を形成する値を補間します。選択の根拠は、最も適切な補間を選択します。

複数の補間法3:①応答モデルの不確実性を反映していない各補間ヌル値の可能な値のセットを生成するより、補間データを設定するために使用することができ、各値完全なデータセットを複数生成し、欠損値。②各補間データセットは、統計的方法の完全なデータセットの統計分析のために使用しました。最終的な補間値を生成するために、スコアリング関数に従って選択補間データの各セットからの結果を③。

グループCの三つの変数Y1、Y2、Y3、それらの結合分布が正常で、三つのグループへのデータのこのグループは、元のデータを保持する基、唯一B群Y3の削除、Y1及び削除を含む、データのセットを仮定Y2。多値補間、任意の処理をせずに、グループAは、Y3グループBの推定値のセットを生成する場合、Y1とY2を生成するための組成物のグループCと推定される(Y3 Y1、リターンのY2周りのために)値(リターンのY1、Y2及びY3など)。

場合多値補間、A群は、ランダムサンプルが長いグループは、M(Mは補間値Mの任意のセットである)、グループごとの件数であるとしてとして形成されて完了するためにB、Cに、処理されません効果的なのは、それにパラメータを推定しました。プロパティの分布を推定するために存在するサンプルのセットのためのMはパラメータの推定値のセットを生成し、観測結果のセットに基づいて、次にmの値が欠落し、そして、この時点で採用さ推定方法は、最大対応する予測単語与えられるm個尤度方法、特にコンピュータ実装方法のEMアルゴリズム(EM)。Y3、C Y1、Y2の使用、Y3共同分布の推定値の集合のグループBは、この前提の正規分布の推定値(Y1、Y2)の集合です。

実施形態ではY1、関節分布Y2を想定し、Y3は正規分布です。この仮定は、人工的であるが、この仮定は依然として真の値を推定するために非常に近い結果とすることができるの下で、変数(1999年グラハム及びシェーファー)、非正常の関節分布によって確認されました。

アイデアの多重代入とベイズ推定は同じですが、多重代入はいくつかのベイズ推定の不足を補うために。

(1)最尤推定を推定するベイズ法、最尤法では、パラメータが不正な形式であれば、正式なモデルは、正確でなければならない必要が事前分布は、事後分布に影響を与えることを間違った結論を取得する必要があります精度。多重代入が大きい試料漸近理論の完全なデータに基づいて、データマイニングのデータ量は、事前分布の結果は、事前分布の結果への影響を最小限に抑え、したがってほとんど効果大きくなるれます。

(2)ベイズ推定は未知のパラメータの唯一知られている事前分布を必要とし、関係を使用せずにパラメータ。複数の代入は、パラメータ間の関係を用いて同時分布のパラメータの推定を行いました。

4つの補間法の上に、欠落したデータ補間の不足しているタイプの値は、良い効果を持っています。平均帰属方法の二種類が実装するのが最も簡単ですが、人々はしばしば、非常に破壊的な使用の前に、それはまた、サンプル中に存在する場合は特に説明変数、パラメータと実際の推定値として補間回帰の値大きな偏差値。比較では、最尤推定と多重代入は2つの良い補間方法、及び多重代入コントラストあり、最尤ので、より多くの人々がより多く使用する傾向があり、不確実性の要素が欠けています値補間方法。
3.繰り返し値検出

IVの概要

ちょうど私たちの主観的な見積りは客観的な事実と完全に一致しない場合があり補うために、未知の値の補間処理。上記の分析は、その欠落している自分のタイプを知ることは不可能である、観察することができないため、補間の方法の効果なし補間推定値はあり得ない自体の欠損値を、理論的な分析です。また、これらの方法は、すべての領域に共通する、ユニバーサルで、その後、プロのフィールドの補間結果は理想的ではないだろう、それはこのような理由のためである、業界の理解によって、多くのプロのデータ鉱山労働者、行方不明マニュアル値補間効果が、それは、これらの方法よりも良いかもしれません。人間の介入の使用は、値が欠落しながら転嫁が欠損値、大量の情報を放棄しないようにケースデータマイニングプロセスであり、それとの関係が満たされる可変処理方法、不完全な情報の両方に影響を与えます同じ時間の契約では、我々は、多かれ少なかれ、元のデータ情報システムを変更し、後で分析上の潜在的な影響があり、欠損値の治療には、注意しなければなりません。

データ異常

データ分析では、我々が直面している生データは、1つのダーティデータである外れ値で汚れたデータの一部です。だから、我々はあなたが外れ値データクリーニングにそれをきれいにする方法を知っているのであれば、データ解析時間は、データ処理における異常値でなければなりません行って?ここでは、データクリーニング中に外れ値に対処する方法をご紹介しましょう。

まず、我々は外れ値に対処するために、一般的には、外れ値は、しばしば、「外れ値」と呼ばれる外れ値の理解を持っている必要があり、多くの一般的に使用される方法があるが、最初の単純な統計分析、秒です3∂プロセスは第で、第六の検出は密度に基づいて、クラスタリングが第七に基づいている距離に基づいて、第三のボックスプロット分析は、第4の検出モデルに基づいていることを、原理を用いて検出されます。ここでは、これらのメソッドをご紹介しました。

我々は、データが、そのような最小値と最大値などのデータの簡単な記述的統計分析は、この変数の値は非合理的な、合理的な範囲を超えているかどうかを決定するために使用することができますすることができます取得するときに、単純な統計分析をご紹介する初外れ値のため。

データが正常3∂原理、標準偏差の3倍値の平均からの異常な測定値偏差の設定値に分布している場合に、第2の原理は、3∂あります。データが正規分布、Pとして3∂値が表示されますを超えた平均距離の確率に従っている場合(|徐|>3∂)<= 0.003は、非常にいくつかの小さな確率イベントに属します。データが正規分布に従わない場合、それはまた離れて平均からの標準偏差の数で記述することができます。

第三は、一般的には、ボックスプロット分析で識別基準外れ値のボックスプロットを提供する:値は以下OU-1.5IQR未満又はQL01.5IQRより大きい場合、外れ値と呼ばれます。QLは、低い四分位であり、それはデータの値よりも小さいすべての観測の四分の一を表し、QUS上位四分位点、それ以外のすべての観測値のデータ値の四分の一を表しますグレート; IQRの四分位範囲は、QUとQLはすべての観測の半分を含む四分位差分値を下げる上位四分位点です。一般に、決意ボックスプロット四分位における外れ値、および四分位範囲の方法はロバスト四分位に基づいて:データの25%を行うことができ、任意の距離の四分位に干渉しません数は、外れ値は、この標準に影響を及ぼさないことができます。したがって識別外れ値のプロットは、より客観ボックス、それが外れ値を識別する際に、いくつかの利点を有します。

この記事では、これらの手法の導入により、我々は背中に、私たちはここであなたを与えたスペースの都合による、これらの方法は非常に古典的であることを発見、データクレンジングの関連した方法をご紹介します記事は、我々は皆のためのデータクレンジングの方法をご紹介していきます。

著者:CDAデータアナリスト養成リンクします。https://www.jianshu.com/p/8692df30766e出典:ジェーンの本が
著者によって著作権で保護されています。著者は認可商業転載してください接触、非商用の転載は、ソースを明記してください。

欠落したデータ、データの異常、データ競合、あまりにも多くのデータ次元、データの標準化方法の簡単な概要については。

データの欠落:
主として人間、機器の故障やプライベートデータのデータ収集プロセスにはさらにあり、開示されていない
原因(NA適用できない)は適用されません。不足している欠損値の分布から、それは完全にランダムと非ランダム欠失で不足している、ランダムに完全に欠落しているという点で分類することができます。全体的に分割された欠損値を処理するため、欠損値と値の代入を欠落削除する場合があります。削除欠損値は、主に、単純な削除方法と重量法です。値の補完が主に客観的なデータを目指している行方不明、それはより確実な信頼性です。1)平均2補間)補間平均等級3)最大尤度推定値を用いて(最大尤度、ML)4)多重代入(多重代入、MI):いくつかの一般的に使用される方法があります。
例外データ:
一般に、異常値は、通常、「外れ値」と呼ばれ、外れ値の処理は、多くの一般的に用いられている方法があり、最初は単純な統計分析である、第2の原理は3∂プロセスを使用することで、第三は、ボックスプロット分析は、第五の検出(相対距離を算出するLOF方法は、大きく大きくは外れ値の確率値)が、第六の濃度検出に基づいている距離、第七に基づいて、第4の検出モデルに基づいてされますクラスタリングに基づいて、アソシエーションルール第八は:アソシエーションルールの信頼と支持の高い度合いが異なるモデルを定義します。
重複検出値:
異なる領域に、異なる環境における特定のデータの特定の分析、重複レコードを除去する正体繰り返し記録同じエンティティを検出することができ最初の必要性は、2つのデータ・セットまたは複合データのために設定されてもよい、すなわち、マッチング処理。重複検出アルゴリズムのレコードは、次のとおり実質的アルゴリズムフィールド、フィールド再帰マッチングアルゴリズム、スミス-ウォーターマンアルゴリズム、コサイン類似度関数に一致します。データ競合:データ衝突の異なる種類に応じて特定の処理を分析する必要があります。
データ競合:
この列の各列の比率ヌル値シェアを算出ヌル値の多数を含むこれらの列の(1)データの競合、および列を削除するかどうかを決定するための基礎として。
ほんの数単一のもの(2) -状態データの問題の列は、各列は、列の個別値の数として計算され、使用に見えるていないこれらの列を削除するかどうかを決定するために、この情報を元である
(3 )これらのデータ(データ端末)通常の記録を超えてカラム端子(外れ値)のデータ数を算出する列及び行マークオイルアウトそれらの端末のデータであり、それらを処理する方法を決定するために
(4)これらの線は、最良のフォーマットがAPBデータウェアハウスで統一されている正確な形式に変換することができるフォーマット変換によって特定の形式を満たさない
比較した場合により、無意味であろう同じレコードのこれらの列のための異なる属性を持つ(5) (以下に等しい、よりより大きい)、次いで数の比率、ビューより少ない数の関係、及びカラムのカラムの意味に応じて決定し、様々な行と列との間の関係を計算します。
過度のデータ寸法:
ソリューション:次元削減
(1)主成分分析
(2)ランダムフォレスト
データの標準化:
正規化の方法はまた、正規化された偏差と呼ばれているが、結果は[0,1]にマッピングされるように、元のデータの線形変換であります範囲。
1)方法この方法は、生データ(平均値)と標準偏差(標準偏差)の平均値に基づいて標準化されたデータを正規化しました。元の値はZスコア正規化のX」を使用してAをxは。Zスコア正規化方法は、最大値と最小値の属性Aに適していることは知られていない、または外れ値の範囲を超えた状況。デフォルトでは、標準化された方法SPSS Zスコアが正規化されます。
2)正規化方法。
3)最小-最大正規
4)Zスコアが正規化
5)最小-最大平均-O - -分数スケーリング

出版元の記事 ウォンの賞賛2 ビュー24

おすすめ

転載: blog.csdn.net/w47478/article/details/104874580