【学习笔记】统计学入门(3/7 )——分类变量的统计描述

来源:http://study.163.com/course/courseMain.htm?courseId=1005232026



索引——
  • 基本概念
  • 连续变量的统计描述
  • 分类变量的统计描述
  • 正太分布
  • 二项分布
  • 参数估计与可信区间
  • 假设检验

三、分类变量的统计描述

1、分类变量的描述指标
     1.1 基本描述方式
          原始数据:频数列表、百分比、累计频数、累计百分比
          集中趋势:众数
          比(radio):任意两个变量之比。俩变量可以是性质相同或不同的指标,但必须有专业意义,如:两个地区某病发病例数;性别比,货物/销售人员比。
          构成比:部分占总体的比例,分为k个部分(A1,A2,......Ak);构成比的分子是分母的一部分,所以取值必在0到1之间,构成比之和为1.
          率(rate):某个时期内时间发生的强度或频率,与物理中速率的定义相对照。
                           率的公式:
                          
                          以下不符合率的定义:
                         (1)分子与分母不在同一范畴的“率”,如离婚率(媒体所报道的离婚率是当年结婚与当年离婚的夫妻,很大情况下并不是同一波人)
                         (2)分子可重复计数的绿,如感冒发病率(假设一个人同个季度内感冒2次,可能被算成2个病人)
          
2、相对数应用的注意事项
     2.1 计算相对数时分母不宜过小。
          可行的情况:如仍硬币自扔两次,两次正面朝上,并不能说明问题
          不可行的情况:AISD还未被治愈过,但只要治愈一例就足以扬名立万 
     2.2 几个总率比较时要注意构成的差别,若分母不同不可以直接相加减
          如:中国 汉族占97%,蒙古国蒙古族占100%,则直接相加除以2并不能表示二者所占总数的比例
     2.3 相对数进行比较时应注意可比性,即其他因素的影响
          
3、 分类变量描述的统计软件实现
     3.1 SAS(强项在于建模)
          
proc freq
可生成交叉表(一维二维)并做检验
proc tabulate
复杂制表输出
     
     3.2 SPSS
          
描述统计子菜单
频数、交叉表、检验
表/报告子菜单
以制表形式实现包括多选题在内的各种复杂汇总描述
多重响应子菜单
多选题的统计描述

     3.3 python
     pandas包:
          series.value_counts():频数表、百分位数分布、条形图等
          df.pivot_table(),df.crosstab() :二维或多维交叉表

     3.4 R
          table()
          deducer.frequencies()
          gmodels.CrossTable()



猜你喜欢

转载自blog.csdn.net/Yi_jia_yi/article/details/81054259