R教材5 统计

  1. summary(),统计描述,因子向量和逻辑向量的频数统计,包括缺失值统计,同样作用的有
    1. Hmisc包中的describe()
    2. pastecs包中的stat.desc()
    3. psych包中的describe()
    4. 多个包中有相同名的函数,运行最后载入的,可用包名::函数()来使用
  2. 分组计算描述性统计量
    1. aggregate(x,by,FUN),单返回值函数
    2. by(x,indices,FUN),indices分组因子列表list,可以返回多个值
    3. 分组计算的拓展
      1. doBy包中的summaryBy(formula,data=dataframe,FUN),其中formula可以是y~x,y是数值型变量,x是类别型分组变量
      2. psych包中的describeBy(dataframe,list(x)),不允许指定任意函数,适普性较低,且分组变量交叉后不出现空白单元格时才有效
  3. 频数表和列联表:类别型变量,交叉的分类
    1. 频数统计表table()、prop.table()(其中的margins=1为按行计算、=2为按列计算)
      1. 二维列联表table(row,col)
      2. xtabs(formula,data),公式风格创建列联表,formula是~A+B,交叉分类变量在~右边
      3. margin.table()其中的margins=1代表按行添加边际列表,=2为按列添加边际列表
      4. 前面复杂的方法可以用addmargins()来为表格添加边际和
      5. table()默认忽略缺失值NA
    2. 多维列联表ftable()
    3. 独立性检验
      1. 卡方独立性检验:chisq.test()对二维表的行列进行独立性检验,用卡方,H0:独立
      2. Fisher精确检验:fisher.test(),H0:边界固定的列联表中的行列是相互独立的,R中的Fisher检验必须用于行列数>=2,但不能2*2
      3. mantelhaen.test(),H0:两个名义变量在第三个变量的每一个水平下都是条件独立的
    4. 相关性度量:独立性的检验后,必须要相关性的检验查看相关性
      1. vcd包中的assocstats
  4. 相关
    1. 相关的类型
      1. Pearson相关:两个定量变量之间的线性相关程度
      2. Spearman相关:分级定序变量间的相关程度
      3. Kendall's Tau相关:非参数的等级相关度量
    2. 相关函数cor(),协方差cov()
      1. cor(x,use=,method=)
        1. use=:
          1. all.obs遇到缺失数据时报错
          2. everything遇到缺失数据时将结果设为missing,默认
          3. complete.obs行删除
          4. pairwise.complete.obs成对删除
        2. method=:
          1. pearson,默认
          2. spearman
          3. kendall
    3. 偏相关ggm包中的pcor(u,S),u是数值向量,前两个数值是计算相关系数的变量下标,其他为排除影响的变量,S为变量的协方差矩阵cov(dataframe)
      1. psych包中的pcor.test(r,q,n)偏相关检验,r是由pcor()计算得到的偏相关系数,q是控制的变量数值位置,n为样本大小
    4. 相关性的显著性检验cor.test(x,y,alternative=,method=),H0:不相关,只能检验一对
      1. alternative=
        1. two.sided双侧,默认
        2. less或greater单侧
      2. method=pearson,……
      3. psych包中的corr.test(x,use="",method=“”),多个变量的检验
        1. use=
          1. pairwise成对删除
          2. complete行删除
  5. t检验:样本间是否有差别,R中的t检验默认方差不相等,var.equal=T假定方差相等且可用合并方差估计,默认双侧检验,H0:=
    1. 独立样本t.test(y~x,data),y是数值型变量,x是二分变量
      1. t.test(y1,y2),y1、y2是数值型向量
    2. 非独立样本t检验,假定组间的差异呈正态分布t.test(y1,y2,paired=T)
    3. 多于两个组之间的比较用ANOVA方差分析
  6. 组间差异的非参数检验,当数据不能确定分布时,用非参数
    1. 两组比较
      1. 数据独立wilcox.test(y~x,data)、wilcox.test(y1,y2)
      2. 数据不独立wilcox.test(……,paired=T)
    2. 多于两组的比较,均值的多重比较,控制第1类错误的重复叠加
      1. 数据独立kruskal.test(y~A,data),y是数值结果变量,A是一个拥有多个水平的分组变量
      2. 数据不独立friedman.test(y~A|B,data),y是数值型结果变量,A是分组变量,B是区组变量

猜你喜欢

转载自blog.csdn.net/u013103305/article/details/83409549