データ前処理のPythonの主な機能
データマイニングでは、生データの膨大な量は、不完全(欠損値)、一貫性のない、異常データ、深刻なデータ・マイニング・モデルの効率に影響を与える多数存在し、偶数偏差マイニング結果につながる可能性があり、データ洗浄が続いて又は同時に統合データ、特に重要である、一連の処理を変換し、データ洗浄の完了法令等の後に、プロセスは、データが前処理です。データの品質を向上させるために1つの手の上に前処理データは、一方のデータは、より良い特定のマイニング技術やツールに適応することです。統計は、データマイニングのプロセスで、ワークロードの前処理データは、プロセス全体の60%を占めることがわかりました。
ことを含む前処理メインコンテンツデータ:データクリーニング、データ統合、データ変換、データ法令
関数名 | 機能機能 | ライブラリを拡張に属し |
---|---|---|
補間 | 一次元、高次元データ補間 | scipyのダウンロード |
ユニーク | 単一要素のリストを取得するために、重複するデータ要素の値を削除し、対象となるメソッドの名前 | パンダ/ numpyの |
無効である | 空かどうかを判断します | パンダ |
notnull | 空でないかどうかを確認 | パンダ |
PCA | インジケータ変数主成分分析のマトリックス | Scikit-を学びます |
ランダム | ランダム行列を生成します | numpyの |
1、補間
機能:補間例えばラグランジュ補間、スプライン補間、高次補間などの補間関数の多数を含むscipyのダウンロード一つのサブライブラリー。scipy.interpolateインポートからご使用の前に*対応する補間機能により導入された、必要に応じて、公式サイトに対応した関数名を見つけることができます。
フォーマットを使用します:
f = scipy.interpolate.lagrange(x,y)
これは、x、yは独立変数とデータに対応する従属変数であるデータのラグランジュ補間のひとつ次元オーダです。補間が完了した後、補間結果は、新しいF(A)により算出することができます。同様のスプライン補間、多次元データ補間、ここではない11のショーがあります。
2、ユニーク
機能**:**要素リストの単一の値を与えるために除去データ要素を繰り返します。これは、関数ライブラリ(np.unique())メソッドnumpyのある、オブジェクトシリーズです。
フォーマットを使用します:
- np.unique(D)は、Dは、リスト、アレイ、シリーズであってもよいし、一次元のデータであります
- D.unique()、Dシリーズオブジェクトパンダであります
例:
ベクター中の単一の要求値素子、及び関連するインデックスを返します
D = pd.Series([1, 1, 2, 3, 5])
print(D.unique())
print(np.unique(D))
結果:
[1 2 3 5]
[1 2 3 5]
Process finished with exit code 0
3、ISNULL /にnotnull
機能:各要素の値を決定することは、空の/の非ヌル値であります
フォーマットを使用: D.isnull()/ D.notnull()。ここではシリーズDの要件は、オブジェクトを返すブールシリーズということです。あなたは、DによってDのヌル/非ヌル値を見つけることができる[D.isnull()]またはD [D.notnull()]。
4、andom
関数:ランダムサンプリング時ライブラリ内の様々な機能を有する特定の配布対象を使用することができるされているnumpyののサブライブラリーである(パイソン自体がランダム来るが、より強力なnumpyの)、ランダムマトリックスを生成することができます。
形式を使用します。
- np.random.randn(K、M、N、...、Kを生成* M * N個の要素に均一間隔で分布している* ...ランダムマトリックス(0,1)
- np.random.randn(K、M、N ...)_が、Kを生成* M * N * ...エレメント標準正規分布の対象となるランダム行列、
5、PCA
関数:インジケータ変数行列、主成分分析、用途が必要とする前に、from sklearn.decomposition import PCA
機能に導入すること。
:形式を使用モデル= PCAを()。ノート、Scikit・ラーン下PCA換言すると、オブジェクトのモデルを構築することであり、一般的なプロセスがモデル化され、次いでトレーニングmodel.fit(D)、Dは、トレーニング後に、データマトリックスに主成分分析であります特徴ベクトルを得る.components_取得した基準モデル、および.explained_分散は。各属性などの寄与を得る_ratio_。
例:
寸法4×10主成分分析のランダム行列に対してPCA()を使用
from sklearn.decomposition import PCA
D = np.random.randn(10, 4)
pca = PCA()
pca.fit(D)
PCA(copy=True, n_components=None, whiten=False)
print(pca.components_) # 返回模型的各个特征向量
print("*" * 50)
print(pca.explained_variance_ratio_) # 返回各个成分个字的方差百分比
結果:
[[-0.73391691 0.22922579 -0.13039917 0.62595332]
[-0.41771778 0.57241446 -0.02724733 -0.70506108]
[ 0.22012336 0.49807219 0.80277934 0.24293029]
[-0.48828633 -0.60968952 0.58120475 -0.22815825]]
**************************************************
[0.50297117 0.28709267 0.14575757 0.06417859]
Process finished with exit code 0