大Pythonベースのデータ解析 - データ処理(実際のコード)

その後の記事は継続します。データ収集と分析した後、または直接ジャンク大量のデータが有効でないがあるので、使用することはできません、それは彼らができる前に処理しなければなりません。メインコンテンツデータは、データクリーニング処理、データの抽出、データ交換およびデータ計算を含みます。

データクリーニング

データクレンジングは、データバリューチェーン、最も重要なステップです。でもゴミデータも最高の分析を通じて、誤った結果を生成し、そして大きな誤解を引き起こす可能性があります。

データクリーニングは、例えば、元のデータセットは、重複データ、滑らかなノイズの多いデータを削除するデータ解析をフィルタリングなどとトピックオフなど無意味な、無関係なデータをクリアデータならびに情報が欠落して処理するためです。

プロセス値を繰り返し

次のステップ:

重複データフレームを使用して方法1重複行かどうかを示し、ブールシリーズを返します。いいえ表示FALSEは、TRUEにディスプレイから2番目の行からが繰り返されます

データフレームを使用して2 drop_duplicates方法は、重複行削除データフレームを返します。

複製フォーマット:

重複(サブセット=なし、「最初の」=保つません)

括弧内の引数はオプションです、列のデフォルトの判決のすべてを書いていません

重複したシリアルナンバー列または列のラベルのサブセットを識別するために、カラムは、すべてのデフォルトラベル

同じデータのすべてが偽繰り返して表しがマークされ、最後を示す最後を除いて、残りのデータは、同じ繰り返しとしてマークされている。これは、まず、第1の時間を保つために、残りのデータが同じ繰り返しとしてマークされている、ということを意味します

drop_duplicatesフォーマット:

drop_duplicates()

あなたはに括弧で追加された列名の列を指定する場合

インポートデータフレームPANDAS 
PANDASインポートシリーズから

#行うデータ
DF =データフレーム({ '年齢'シリーズ([26,85,85])、 '名称':シリーズ([ 'xiaoqiang1'、 'xiaoqiang2'、 'xiaoqiang2'] )})
のDF 

#重複行かどうかを判断する
df.duplicated() 
重複行の削除
(df.drop_duplicates)を

欠損値を扱います

欠損値を処理することは、一般的に二つの工程、即ち識別および取り扱い欠落データ欠落データを含みます。

欠落データの識別

NaNは、浮動小数点と浮動小数点の非欠落データのアレイと、決定または欠失するISNULLとにnotnull関数で表される浮動小数点値をパンダ。


欠落データの識別#
PANDASインポートデータフレームからの
PANDASインポートread_excelから

データ欠落#
DF = read_excel(r'D:python_workspaceanacondarz.xlsx 'シート名='シート2「)
DFの

#が欠落データを識別、NaNはTrueを表示します。逆の機能にnotnull 
df.isnull()



次のようにrz.xlsx読み取り

欠落データの取扱い

パディングされたデータを処理して欠落データのために、未処理の対応する行を削除します。ここでは、直接ラインとコードインタプリタ

#接着上面的继续,进行数据的处理
#去除数据中值为空的数据行
newdf=df.dropna()
newdf

#用其他数值代替NaN
newdf2=df.fillna('--')
newdf2

#用前一个数据值代替NaN
newdf3=df.fillna(method='pad')
newdf3

#用后一个数据值代替NaN
newdf4=df.fillna(method='bfill')
newdf4

#传入一个字典对不同的列填充不同的值
newdf5=df.fillna({'数分':100,'高代':99})
newdf5

#用平均数来代替NaN。会自动计算有NaN两列的数据的平均数
newdf6=df.fillna(df.mean())
newdf6

#还可以使用strip()来去除数据左右的指定字符,这个是python的基础了,这里不做演示了


おすすめ

転載: blog.51cto.com/xqtesting/2411252
おすすめ