数据分析-03数据分析

数据分析: 

  1.基本统计:describe()

    常用的统计函数:  

      size:计数

      sum:求和

      mean:均值

      var:方差

      std:标准差

  

  2.分组分析:groupby()

    groupby(by=[分组列1,分组列2....])[统计列1,统计列2,...].agg({统计列别名1:统计函数;统计列别名2:统计函数,...})

扫描二维码关注公众号,回复: 7441882 查看本文章

    参数说明:

      by:用于分组的列

      中括号:用于统计的列

      agg:统计别名显示统计值的名称

  3.分布分析:

  4.交叉分析:pivot_table(values,index,columns,aggfunc,fill_value)

    参数说明:

      values:数据透视表中的值

      index:数据透视表中的行

      columns:数据透视表中的列

      aggfunc:统计函数

      fill_value:NA值的统一替换

  5.结构分析:axis参数说明

     0按列运算,1按行运算

      数据框的外运算函数:add,sub,multiply,div  --->加减乘除

      数据框的内运算函数:sum,mean,var,sd ---->求和,均值,方差,标准差

            

  6.相关分析:

    0 - 0.3 低度相关

    0.3 - 0.8 中度相关

    0.8 - 1 高度相关

    相关分析函数:DataFrame.corr()

           Series.corr(other)

    如果由数据框调用corr方法,那么将计算每个列两两之间的相似度

    例如:data['身高'].corr(data['体重'])

    如果由序列调用corr方法,那么只是计算该序列与传入的序列之间的相关度

    data.loc选择多列

    例如:data.loc[:,[‘身高’,‘体重’,‘学历’]],corr()

    

猜你喜欢

转载自www.cnblogs.com/FlowerNotGiveYou/p/11645108.html