Pythonの - クリーニング方法頻繁に使用されるデータ - 処理の重複

      データ処理では、データは、一般的に、行方不明がある場合、重複したデータセットがあるかどうかなどの清掃作業を、必要とし、異常が関連するデータであるかどうかを、一貫してデータの整合性が問題を発見した場合に必要なように処理方法、我々は洗浄方法一緒にデータを使用し、以下の研究。

1.プロセスが繰り返される観察

繰り返し観測:観測された現象重複する行、重複した観測データの解析とマイニングは、結果の精度に影響を与えるような観察が繰り返された場合、データ分析とモデリングは、繰り返し検査所見を必要とする前に、

また、あなたは、重複したエントリを削除する必要があります。

    データ収集プロセスでは、ウェブクローラによって、例えば、データの量によって、次の表に重複したデータを生成することが容易であり、観察の発生が繰り返されてもよい市場電力会社APP APPクラス(一部)を得るクローラをダウンロード

 

 CD製品は、コレクタが10行が、10万行までされていない場合。観察し、详细は3回現れることで見られることになり、さらに多くの重複が存在するかどうかを肉眼へのデータの方法によって検出することができません。

ここでは、パイソンとの重複をチェックすることに対処する方法を見て、どのように重複したデータ入力項目を削除するには

コード:

PD PANDAS ASインポート
DF = pd.read_excel(r'Dは:\ data_test04.xlsx ')
印刷(':任意の(df.duplicated、「\ n個のデータセットは、繰り返し観測で ()))

でる:

重複したデータセットの観測かどうか:

コードはに対処するための単純な2ラインであります

レコードテストデータセットは、最も直接的な結果を得るための方法、この方法は、各ラインの検査結果データのセットを返す(複製の意味が繰り返される単語の意味英語)重複を使用して、そこに繰り返されているかどうかを見ることができます1つだけの条件がTRUE、関数の任意結果が真となる、複数の条件の決意を表す任意の関数を使用することができ、その結果、任意の機能の使用が示す値がtrueを返します

データの複製セットが観察されます。

重複データ集中観測を削除します。

df.drop_duplicates(インプレース=真)
DF

 

初期送信重複行10以来の上に示された結果、7を与えるために、削除したい行番号:3,8および9この方法であっTrueにインプレースパラメータセットが直接語ります元のデータセットの操作を行います。

 

おすすめ

転載: www.cnblogs.com/tinglele527/p/11910693.html