23.数据预处理之数据离散化处理

  • 数据离散化就是分箱
  • 一般常用分箱方法是等频分箱或者等宽分箱
  • 一般使用pd.cut或者pd.qcut函数
pandas.cut(x,bins,right=True,labels)
x:数据
bins:离散化的数据,或者切分的区间
labels:离散化后各个类别的标签
right:是否包含区间右边的值

#等宽分箱
df['age_bin']=pd.cut(df['age_new'],5,labels=range(5))
#不加标签 时。将分段的表征展示出来
df['Price_bin']=pd.cut(df['Price_new'],bins=5,labels=range(0,5))

df['Price_bin']
#以柱状图绘制
df['Price_bin'].value_counts().plot(kind='bar')
#或df['Price_bin'].hist()

#自定义分箱标准
w=[100,1000,5000,10000,20000,100000]
df['Price_bin']=pd.cut(df['Price_new'],bins=w)

df[['Price_bin','Price_new']]


df['Price_bin']=pd.cut(df['Price_new'],bins=w,labels=range(0,5))

df[['Price_bin','Price_new']]

df['Price_bin'].hist()


#等频分段
#w为分位点,labels是箱子的标签
k=5
w=[1.0*i/k for i in range(k+1)]
w[0.0,0.2,0.4,0.6,0.8,1.0]
#此处分为5段
df['Price_bin']=pd.qcut(df['Price_new'],q=w,labels=range(5))

df['Price_bin'].hist()

#自定义等频分段,先算出分割点w1
k=5
w1=df["Price_new"].quantile([1.0*i/k for i in range(k+1)])
#等频分割点
w1
#分段标准的最小值要小于数据的最小值,分段标准的最大值要大于数据的最大值
w1[0]=w[0]*0.95
w1[1.0]=w[1.0]*1.1
df['Price_bin']=pd.cut(df['Price_new'],bins=w1,labels=range(0,5))
df['Price_bin'].hist()

发布了94 篇原创文章 · 获赞 22 · 访问量 4万+

猜你喜欢

转载自blog.csdn.net/l641208111/article/details/104242738
今日推荐