R教材5 统计

summary()，统计描述，因子向量和逻辑向量的频数统计，包括缺失值统计，同样作用的有
1. Hmisc包中的describe()
2. pastecs包中的stat.desc()
3. psych包中的describe()
4. 多个包中有相同名的函数，运行最后载入的，可用包名::函数()来使用
分组计算描述性统计量
1. aggregate(x,by,FUN)，单返回值函数
2. by(x,indices,FUN)，indices分组因子列表list，可以返回多个值
3. 分组计算的拓展
  1. doBy包中的summaryBy(formula,data=dataframe,FUN)，其中formula可以是y~x，y是数值型变量，x是类别型分组变量
  2. psych包中的describeBy(dataframe,list(x))，不允许指定任意函数，适普性较低，且分组变量交叉后不出现空白单元格时才有效
频数表和列联表：类别型变量，交叉的分类
1. 频数统计表table()、prop.table()（其中的margins=1为按行计算、=2为按列计算）
  1. 二维列联表table(row,col)
  2. xtabs(formula,data)，公式风格创建列联表，formula是~A+B，交叉分类变量在~右边
  3. margin.table()其中的margins=1代表按行添加边际列表，=2为按列添加边际列表
  4. 前面复杂的方法可以用addmargins()来为表格添加边际和
  5. table()默认忽略缺失值NA
2. 多维列联表ftable()
3. 独立性检验
  1. 卡方独立性检验：chisq.test()对二维表的行列进行独立性检验，用卡方，H0：独立
  2. Fisher精确检验：fisher.test()，H0：边界固定的列联表中的行列是相互独立的，R中的Fisher检验必须用于行列数>=2，但不能2*2
  3. mantelhaen.test()，H0：两个名义变量在第三个变量的每一个水平下都是条件独立的
4. 相关性度量：独立性的检验后，必须要相关性的检验查看相关性
  1. vcd包中的assocstats
相关
1. 相关的类型
  1. Pearson相关：两个定量变量之间的线性相关程度
  2. Spearman相关：分级定序变量间的相关程度
  3. Kendall's Tau相关：非参数的等级相关度量
2. 相关函数cor()，协方差cov()
  1. cor(x,use=,method=)
    1. use=：
      1. all.obs遇到缺失数据时报错
      2. everything遇到缺失数据时将结果设为missing，默认
      3. complete.obs行删除
      4. pairwise.complete.obs成对删除
    2. method=：
      1. pearson，默认
      2. spearman
      3. kendall
3. 偏相关ggm包中的pcor(u,S)，u是数值向量，前两个数值是计算相关系数的变量下标，其他为排除影响的变量，S为变量的协方差矩阵cov(dataframe)
  1. psych包中的pcor.test(r,q,n)偏相关检验，r是由pcor()计算得到的偏相关系数，q是控制的变量数值位置，n为样本大小
4. 相关性的显著性检验cor.test(x,y,alternative=,method=)，H0：不相关，只能检验一对
  1. alternative=
    1. two.sided双侧，默认
    2. less或greater单侧
  2. method=pearson，……
  3. psych包中的corr.test(x,use="",method=“”)，多个变量的检验
    1. use=
      1. pairwise成对删除
      2. complete行删除
t检验：样本间是否有差别，R中的t检验默认方差不相等，var.equal=T假定方差相等且可用合并方差估计，默认双侧检验，H0：=
1. 独立样本t.test(y~x,data)，y是数值型变量，x是二分变量
  1. t.test(y1,y2)，y1、y2是数值型向量
2. 非独立样本t检验，假定组间的差异呈正态分布t.test(y1,y2,paired=T)
3. 多于两个组之间的比较用ANOVA方差分析
组间差异的非参数检验，当数据不能确定分布时，用非参数
1. 两组比较
  1. 数据独立wilcox.test(y~x,data)、wilcox.test(y1,y2)
  2. 数据不独立wilcox.test(……,paired=T)
2. 多于两组的比较，均值的多重比较，控制第1类错误的重复叠加
  1. 数据独立kruskal.test(y~A,data)，y是数值结果变量，A是一个拥有多个水平的分组变量
  2. 数据不独立friedman.test(y~A|B,data)，y是数值型结果变量，A是分组变量，B是区组变量

猜你喜欢