その後の記事は継続します。データ収集と分析した後、または直接ジャンク大量のデータが有効でないがあるので、使用することはできません、それは彼らができる前に処理しなければなりません。メインコンテンツデータは、データクリーニング処理、データの抽出、データ交換およびデータ計算を含みます。
データクリーニング
データクレンジングは、データバリューチェーン、最も重要なステップです。でもゴミデータも最高の分析を通じて、誤った結果を生成し、そして大きな誤解を引き起こす可能性があります。
データクリーニングは、例えば、元のデータセットは、重複データ、滑らかなノイズの多いデータを削除するデータ解析をフィルタリングなどとトピックオフなど無意味な、無関係なデータをクリアデータならびに情報が欠落して処理するためです。
プロセス値を繰り返し
次のステップ:
重複データフレームを使用して方法1重複行かどうかを示し、ブールシリーズを返します。いいえ表示FALSEは、TRUEにディスプレイから2番目の行からが繰り返されます
データフレームを使用して2 drop_duplicates方法は、重複行削除データフレームを返します。
複製フォーマット:
重複(サブセット=なし、「最初の」=保つません)
括弧内の引数はオプションです、列のデフォルトの判決のすべてを書いていません
重複したシリアルナンバー列または列のラベルのサブセットを識別するために、カラムは、すべてのデフォルトラベル
同じデータのすべてが偽繰り返して表しがマークされ、最後を示す最後を除いて、残りのデータは、同じ繰り返しとしてマークされている。これは、まず、第1の時間を保つために、残りのデータが同じ繰り返しとしてマークされている、ということを意味します
drop_duplicatesフォーマット:
drop_duplicates()
あなたはに括弧で追加された列名の列を指定する場合
インポートデータフレームPANDAS PANDASインポートシリーズから #行うデータ DF =データフレーム({ '年齢'シリーズ([26,85,85])、 '名称':シリーズ([ 'xiaoqiang1'、 'xiaoqiang2'、 'xiaoqiang2'] )}) のDF #重複行かどうかを判断する df.duplicated() #重複行の削除 (df.drop_duplicates)を
欠損値を扱います
欠損値を処理することは、一般的に二つの工程、即ち識別および取り扱い欠落データ欠落データを含みます。
欠落データの識別
NaNは、浮動小数点と浮動小数点の非欠落データのアレイと、決定または欠失するISNULLとにnotnull関数で表される浮動小数点値をパンダ。
欠落データの識別# PANDASインポートデータフレームからの PANDASインポートread_excelから データ欠落# DF = read_excel(r'D:python_workspaceanacondarz.xlsx 'シート名='シート2「) DFの #が欠落データを識別、NaNはTrueを表示します。逆の機能にnotnull df.isnull()
次のようにrz.xlsx読み取り
欠落データの取扱い
パディングされたデータを処理して欠落データのために、未処理の対応する行を削除します。ここでは、直接ラインとコードインタプリタ
#接着上面的继续,进行数据的处理 #去除数据中值为空的数据行 newdf=df.dropna() newdf #用其他数值代替NaN newdf2=df.fillna('--') newdf2 #用前一个数据值代替NaN newdf3=df.fillna(method='pad') newdf3 #用后一个数据值代替NaN newdf4=df.fillna(method='bfill') newdf4 #传入一个字典对不同的列填充不同的值 newdf5=df.fillna({'数分':100,'高代':99}) newdf5 #用平均数来代替NaN。会自动计算有NaN两列的数据的平均数 newdf6=df.fillna(df.mean()) newdf6 #还可以使用strip()来去除数据左右的指定字符,这个是python的基础了,这里不做演示了