Pandas-2

一、数据格式转换

在做数据分析时,原始的数据由于各种各样的原因产生不同数据格式的问题,数据的格式错误往往会造成严重的后果,数据的格式对我们找异常值或对数据进行清洗都有着总要的作用。

1、查看格式

w['投票人数'].dtype  #dtype就是看数据格式
w['投票人数'] = w['投票人数'].asdtype('int')#把数据格式转化为整数格式,float是表示浮点数,int表示是整数,str表示是字符串。

2、将年份转化成整数格式

在转化格式的时候就可以发现异常值

w['年代'] = w['年代'].asdtype('int')

把年代这一列转化成整数的格式,出现报错,极有可能出现异常值。

二、排序

1.默认排序

数据默认的排序就是按照索引排的序。

2.按一个标志排序

w.sort_values(by='投票人数') 
 #默认情况下是从小到大的升序排列,ascending=False是表示按从大到小降序排列。

3.按多个指标排序

w.sort_values(by=['评分','投票人数']) 
 #默认情况下是从小到大的升序排列,ascending=False是表示按从大到小降序排列。

三、基本统计分析

1、描述性分析

dataframe.describe():是对dataframe中的数值型数据进行描述性分析,
可以得到样本数、均值、标准差、最小值、最大值、中位数和上下四分位数。

w.describe()

做描述性分析我们也可以发现是否存在异常值。

2、一些分析的基本函数

w.max() …………最大值
w.min()…………最小值
w.mean()…………均值
w.median()…………中位数
w.var()…………方差
w.std()…………标准差
w.sum()…………求和
w[[‘投票人数’,‘评分’]].corr()…………相关系数
w[[‘投票人数’,‘评分’]].cov()…………协方差
w[‘产地’].unique()…………查看唯一值

3、数据替换

w['产地'].replace('USA','美国',inplace=True)#把产地中USA替换成美国
w['年代'].value_counts()#计算每一年电影的数量

四、数据透视

Pandas提供了一个与Excel中数据透视表类似的功能:pivot_table

pd.set_option('max_columns',100)#展示100列
pd.set_option('max_rows',100)#展示100行
pd.pivot_table(w,index=['年代'])#一个索引
pd.pivot_table(w,index=['年代','地区'],values=['评分'])#两个索引,values=['评分']只计算评分的平均数
pd.pivot_table(w,index=['年代','产地'],values=['投票人数'],aggfunc=np.sum)#aggfunc=np.sum指定以什么方式计算

#把非数值的变为0,fill_value=0
pd.pivot_table(w,index=['产地'],aggfunc=[np.sum,np.mean],fill_value=0,marguns=True)
#marguns=True多一个加总

对不同的值进行不同的计算:

pd.pivot_table(w,index=['产地'],values=['投票人数','评分'],aggfunc={
    
    '投票人数':np.sum,'评分':np.mean},fill_value=0,marguns=True)

猜你喜欢

转载自blog.csdn.net/Txixi/article/details/112983440