文章目录
一、数据格式转换
在做数据分析时,原始的数据由于各种各样的原因产生不同数据格式的问题,数据的格式错误往往会造成严重的后果,数据的格式对我们找异常值或对数据进行清洗都有着总要的作用。
1、查看格式
w['投票人数'].dtype #dtype就是看数据格式
w['投票人数'] = w['投票人数'].asdtype('int')#把数据格式转化为整数格式,float是表示浮点数,int表示是整数,str表示是字符串。
2、将年份转化成整数格式
在转化格式的时候就可以发现异常值
w['年代'] = w['年代'].asdtype('int')
把年代这一列转化成整数的格式,出现报错,极有可能出现异常值。
二、排序
1.默认排序
数据默认的排序就是按照索引排的序。
2.按一个标志排序
w.sort_values(by='投票人数')
#默认情况下是从小到大的升序排列,ascending=False是表示按从大到小降序排列。
3.按多个指标排序
w.sort_values(by=['评分','投票人数'])
#默认情况下是从小到大的升序排列,ascending=False是表示按从大到小降序排列。
三、基本统计分析
1、描述性分析
dataframe.describe():是对dataframe中的数值型数据进行描述性分析,
可以得到样本数、均值、标准差、最小值、最大值、中位数和上下四分位数。
w.describe()
做描述性分析我们也可以发现是否存在异常值。
2、一些分析的基本函数
w.max() …………最大值
w.min()…………最小值
w.mean()…………均值
w.median()…………中位数
w.var()…………方差
w.std()…………标准差
w.sum()…………求和
w[[‘投票人数’,‘评分’]].corr()…………相关系数
w[[‘投票人数’,‘评分’]].cov()…………协方差
w[‘产地’].unique()…………查看唯一值
3、数据替换
w['产地'].replace('USA','美国',inplace=True)#把产地中USA替换成美国
w['年代'].value_counts()#计算每一年电影的数量
四、数据透视
Pandas提供了一个与Excel中数据透视表类似的功能:pivot_table
pd.set_option('max_columns',100)#展示100列
pd.set_option('max_rows',100)#展示100行
pd.pivot_table(w,index=['年代'])#一个索引
pd.pivot_table(w,index=['年代','地区'],values=['评分'])#两个索引,values=['评分']只计算评分的平均数
pd.pivot_table(w,index=['年代','产地'],values=['投票人数'],aggfunc=np.sum)#aggfunc=np.sum指定以什么方式计算
#把非数值的变为0,fill_value=0
pd.pivot_table(w,index=['产地'],aggfunc=[np.sum,np.mean],fill_value=0,marguns=True)
#marguns=True多一个加总
对不同的值进行不同的计算:
pd.pivot_table(w,index=['产地'],values=['投票人数','评分'],aggfunc={
'投票人数':np.sum,'评分':np.mean},fill_value=0,marguns=True)