来源:http://study.163.com/course/courseMain.htm?courseId=1005232026
索引——
- 基本概念
- 连续变量的统计描述
- 分类变量的统计描述
- 正太分布
- 二项分布
- 参数估计与可信区间
- 假设检验
三、分类变量的统计描述
1、分类变量的描述指标
1.1 基本描述方式
原始数据:频数列表、百分比、累计频数、累计百分比
集中趋势:众数
比(radio):任意两个变量之比。俩变量可以是性质相同或不同的指标,但必须有专业意义,如:两个地区某病发病例数;性别比,货物/销售人员比。
构成比:部分占总体的比例,分为k个部分(A1,A2,......Ak);构成比的分子是分母的一部分,所以取值必在0到1之间,构成比之和为1.
率(rate):某个时期内时间发生的强度或频率,与物理中速率的定义相对照。
率的公式:
以下不符合率的定义:
(1)分子与分母不在同一范畴的“率”,如离婚率(媒体所报道的离婚率是当年结婚与当年离婚的夫妻,很大情况下并不是同一波人)
(2)分子可重复计数的绿,如感冒发病率(假设一个人同个季度内感冒2次,可能被算成2个病人)
2、相对数应用的注意事项
2.1 计算相对数时分母不宜过小。
可行的情况:如仍硬币自扔两次,两次正面朝上,并不能说明问题
不可行的情况:AISD还未被治愈过,但只要治愈一例就足以扬名立万
2.2 几个总率比较时要注意构成的差别,若分母不同不可以直接相加减
如:中国 汉族占97%,蒙古国蒙古族占100%,则直接相加除以2并不能表示二者所占总数的比例
2.3 相对数进行比较时应注意可比性,即其他因素的影响
3、
分类变量描述的统计软件实现
3.1 SAS(强项在于建模)
proc freq
|
可生成交叉表(一维二维)并做检验
|
proc tabulate
|
复杂制表输出
|
3.2 SPSS
描述统计子菜单
|
频数、交叉表、检验
|
表/报告子菜单
|
以制表形式实现包括多选题在内的各种复杂汇总描述
|
多重响应子菜单
|
多选题的统计描述
|
3.3 python
pandas包:
series.value_counts():频数表、百分位数分布、条形图等
df.pivot_table(),df.crosstab() :二维或多维交叉表
3.4 R
table()
deducer.frequencies()
gmodels.CrossTable()