pandas 数据处理

1、 查看数值数据的整体分布情况

datafram.describe()

输出:

age
count 1463.000000
mean 22.948052
std 8.385384
min 13.000000
25% 17.000000
50% 20.000000
75% 27.000000
max 64.000000

其中的25%,50%这些是百分位数。

 百分位数的定义为:

      统计学术语,如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。可表示为:一组n个 观测值数值大小排列。如,处于p%位置的值称第p百分位数。
 例子:
百分位通常用第几百分位来表示,如第五百分位,它表示在所有测量数据中,测量值的累计频次达5%。以身高为例,身高分布的第五百分位表示有5%的人的身高小于此测量值,95%的身高大于此测量值。
百分位数则是对应于百分位的实际 数值
 
2、pandas的dataframe修改字段的类型
 
比如age字段是string,但是要改成int类型   user_age_df[['age']].astype(float)
 
 
 

猜你喜欢

转载自www.cnblogs.com/earendil/p/9166362.html