クリーニングデータの例外処理pandas--

例外ハンドラ

最初のデータは、上位計算し、データがこの範囲内にあるかどうか下限は、それが決定され、他の操作を交換することができます

一般的なコンピューティング機能:

分位:. Dfの高さ.quantile中央値である(0.5)#半分位、
中央値:.のDF高.median()
平均:. Dfを高.mean()
標準偏差:. Dfを高.std()
説明:. DF高さ.describeを関数()

)異常値は(存在するかどうかを決定します

import pandas as pd
import numpy as np 

df=pd.read_csv('test_innom.csv',encoding='gbk')
print(df.身高)
df_mean=df.身高.mean()
df_std=df.身高.std()
min_da=df_mean-df_std
max_da=df_mean+df_std
print(any((df.身高< min_da )| (df.身高 > max_da) ))
for x in df.身高:
	if (x< min_da )| (x > max_da) :
		print("异常值%d"%x)
print(df_mean)
print(df_std)
print(df.身高.describe())
print(df.身高.median())
print(df.身高.quantile(0.5))

ここに画像を挿入説明

あるいは、最大範囲値を使用して

使用LOC機能が割り当てられた交換で位置データ、データを変更する必要があり、次の例では、最大データ置換を超えない最大値を超えてデータを使用します。

import pandas as pd
import numpy as np 

df=pd.read_csv('test_innom.csv',encoding='gbk')
print(df.身高)
df_mean=df.身高.mean()
df_std=df.身高.std()
min_da=df_mean-df_std
max_da=df_mean+df_std
print(any((df.身高< min_da )| (df.身高 > max_da) ))
for x in df.身高:
	if (x< min_da )| (x > max_da) :
		print("异常值%d"%x)
rep_val_max=df.身高[df.身高<max_da].max()
df.loc[df.身高>max_da,'身高']=rep_val_max
print(df.身高)	

ここに画像を挿入説明

公開された70元の記事 ウォンの賞賛1 ビュー2420

おすすめ

転載: blog.csdn.net/weixin_43794311/article/details/104981892