一、数据格式转换

在做数据分析时，原始的数据由于各种各样的原因产生不同数据格式的问题，数据的格式错误往往会造成严重的后果，数据的格式对我们找异常值或对数据进行清洗都有着总要的作用。

1、查看格式

w['投票人数'].dtype  #dtype就是看数据格式
w['投票人数'] = w['投票人数'].asdtype('int')#把数据格式转化为整数格式，float是表示浮点数，int表示是整数，str表示是字符串。

2、将年份转化成整数格式

在转化格式的时候就可以发现异常值

w['年代'] = w['年代'].asdtype('int')

把年代这一列转化成整数的格式，出现报错，极有可能出现异常值。

二、排序

1.默认排序

数据默认的排序就是按照索引排的序。

2.按一个标志排序

w.sort_values(by='投票人数') 
 #默认情况下是从小到大的升序排列，ascending=False是表示按从大到小降序排列。

3.按多个指标排序

w.sort_values(by=['评分','投票人数']) 
 #默认情况下是从小到大的升序排列，ascending=False是表示按从大到小降序排列。

三、基本统计分析

1、描述性分析

dataframe.describe():是对dataframe中的数值型数据进行描述性分析，
可以得到样本数、均值、标准差、最小值、最大值、中位数和上下四分位数。

w.describe()

做描述性分析我们也可以发现是否存在异常值。

2、一些分析的基本函数

w.max() …………最大值
w.min()…………最小值
w.mean()…………均值
w.median()…………中位数
w.var()…………方差
w.std()…………标准差
w.sum()…………求和
w[[‘投票人数’，‘评分’]].corr()…………相关系数
w[[‘投票人数’，‘评分’]].cov()…………协方差
w[‘产地’].unique()…………查看唯一值

3、数据替换

w['产地'].replace('USA','美国',inplace=True)#把产地中USA替换成美国
w['年代'].value_counts()#计算每一年电影的数量

四、数据透视

Pandas提供了一个与Excel中数据透视表类似的功能：pivot_table

pd.set_option('max_columns',100)#展示100列
pd.set_option('max_rows',100)#展示100行
pd.pivot_table(w,index=['年代'])#一个索引
pd.pivot_table(w,index=['年代','地区'],values=['评分'])#两个索引，values=['评分']只计算评分的平均数
pd.pivot_table(w,index=['年代','产地'],values=['投票人数'],aggfunc=np.sum)#aggfunc=np.sum指定以什么方式计算

#把非数值的变为0,fill_value=0
pd.pivot_table(w,index=['产地'],aggfunc=[np.sum,np.mean],fill_value=0,marguns=True)
#marguns=True多一个加总

对不同的值进行不同的计算：

pd.pivot_table(w,index=['产地'],values=['投票人数','评分'],aggfunc={
    
    '投票人数':np.sum,'评分':np.mean},fill_value=0,marguns=True)

Pandas-2

文章目录