统计分析之参数检验与非参数检验、匹配样本与独立样本、2样本与K样本介绍----附SPSS操作指南

最近几天博主需要做一些计算生物学分析，重新温习了一遍统计学的知识。由于博主此次使用的是非参数检验，将重点介绍非参数检验相关内容，仍然是深入浅出的风格，先放一些概念，再总结实际使用的技巧。写在这里，供大家参考学习。

为了方便描述公式和定义，部分内容摘自网络，鉴于是公开的知识，只是以某种形式呈现，将不再注明出处，如有侵权，请私信或留言！

Q1：参数检验和非参数检验的联系和区别？

参数检验（parameter test）全称参数假设检验，是指对参数平均值、方差进行的统计检验。先由测得的样本数据计算检验统计量，若计算的统计量值落入约定显著性水平a 时的拒绝域内，说明被检参数之间在所约定的显著性水平a 下在统计上有显著性差异；反之, 若计算的统计量值落入约定显著性水平a 时的接受域内，说明被检参数之间在统计上没有显著性差异，是同一总体的参数估计值。

非参数检验是在总体方差未知或知道甚少的情况下，利用样本数据对总体分布形态等进行推断的方法。由于非参数检验方法在推断过程中不涉及有关总体分布的参数，因而得名为“非参数”检验。

在实际使用中，对于已知总体分布情况的数据（如身高），可以使用参数检验。对于不知道总体分布情况的数据，可以使用非参数检验（如某时间的发生数，也称为计数数据），可以使用非参数检验。

值得注意的是：在某些情况下，我们不清楚一组数据的总体是否符合某种分布，可能会用SPSS的正态性检验借助已有样本对总体进行判断。这种检验方法见：https://blog.csdn.net/tuanzide5233/article/details/83212032。博主也曾对要分析的数据进行正态性检验，然而，第一次使用第一批A组的数据进行检验得到单峰正态分布，P值有意义；第二次使用第二批A组的数据进行检验得到双峰正态分布，P值有意义。可是双峰正态分布不能使用T检验，而应该使用非参数检验。因此博主认为，在选择检验方法时，如不能肯定总体分布情况，则应该优先考虑非参数检验，尤其是对于计数数据而言！

Q2：什么是匹配样本和独立样本？

匹配样本（matched sample）是指一个样本中的数据与另一个样本中的数据相对应。比如，先指定12个工人用第一种方法组装产品，然后再让这12个工人用第二种方法组装产品，这样得到的两种方法组装产品的数据就是匹配数据。匹配样本可以消除由于样本指定的不公平造成的两种方法组装时间上的差异。

独立样本（independent sample）是指如果两个样本是从两个总体中独立抽取的，即一个样本中的元素与另一个样本中的元素相互独立的样本。

在实际使用中，如果两组数据的来源可以映射到同一个体或同一群体，则为匹配样本，如学生A1,A2,A3…在第一次和第二次考试中的成绩。如果来自两个群体，或者想判断是否来自两个群体（即采用假设检验），应当做独立样本。在SPSS中，匹配样本被称为相关样本。

Q3：什么是两样本和K样本？

在实际使用SPSS中，会遇到两样本与K样本的选择。

由于人们可能会把数据的数量等同于样本的数量，即2个独立样本是说，每组有两个数据，K个独立样本是说，每组有K（大于2）个数据。其实这是不正确的。两样本与K样本不是说数据的数量，而是说分组的数量。两样本是说分为了两组，如cancer组和normal组，每组包括任意多个数据。K样本是说分成了K组，如A组B组C组，每组包含任意多个数据。

之所以需要鉴别，是因为2样本涉及到二项分布问题。即非此即彼，如性别。而K样本在计算时会将用于分组的数字进行运算，如我们使用1表示男，2表示女，如果把这种2样本当做K=2的K样本分析，数据描述则会出现对1和2进行运算的结果，这显然不是我们想要的。

Q4：如何区分SPSS中常见的非参数检验方法：Mann-Whitney U检验、Wilcoxon检验和kruskal wallis检验？

首先来看定义和计算方法。

Mann-Whitney U检验：曼-惠特尼U检验（Mann-Whitney U test），又称曼-惠特尼秩和检验，可以看作是对两均值之差的参数检验方式的T检验或相应的大样本正态检验的代用品。由于曼-惠特尼秩和检验明确地考虑了每一个样本中各测定值所排的秩，它比符号检验法使用了更多的信息。

Wilcoxon检验：在Wilcoxon符号秩检验中，它把观测值和零假设的中心位置之差的绝对值的秩分别按照不同的符号相加作为其检验统计量。它适用于T检验中的成对比较，但并不要求成对数据之差di服从正态分布，只要求对称分布即可。检验成对观测数据之差是否来自均值为0的总体（产生数据的总体是否具有相同的均值）。

kruskal wallis检验：克鲁斯卡尔-沃利斯检验是一种秩检验，是威尔科克逊检验的推广，用于多个连续型独立样本的比较。方差分析(ANOVA)程序关注的是，几个总体的均值是否相等。数据是间隔测量尺度或比率测量尺度的数据。另外还要假定这些总体服从正态概率分布，并且有相等的标准差。如果数据是顺序测量尺度的和(或)总体不服从正态分布会怎样呢?W.H.克鲁斯卡尔(Kruskal)和W.A.沃利斯(Wallis)于1952年提出了仅仅要求顺序(排序)测量尺度数据的非参数检验。不需要对总体分布形态做任何假定。该检验被称为克鲁斯卡尔-沃利斯单因素秩方差分析(Kruskal-Wallis one-way analysis of variance by ranks)。

看完眼花缭乱的定义和计算步骤，下面总结一下使用中如何选择这三种非参数检验方法：

Wilcoxon检验适用于2匹配样本（related samples）
Mann–Whitney U 检验适用于2独立样本
kruskal wallis检验用于K独立样本