推断统计--假设检验

推断统计是研究如何利用样本数据来推断总体特征的统计方法。包含参数估计和假设检验。

参数估计即利用样本信息推断总体特征，也就是根据样本数据来估计变量的概率分布，或者是总体分布所包含的未知参数的过程。

举个例子：要研究人们的市场消费行为，首先需要了解人们的收入状况，若某城市人均年收入数据服从正态分布，但参数的均值和方差的具体取值未知，此时就可以根据样本的来估计这两个参数。方法有点估计和区间估计。通俗理解，点估计就是得到具体取值，区间估计就有一个包括真实值的区间范围，称为置信区间。

假设检验：参数估计的主要任务是猜测参数的取值，而假设检验的着重点在于检验参数的取值是否等于某个目标值。比如先对总体的特征作出某种假设，然后通过抽样研究的统计推理，对此假设应该被拒绝还是接受做出判断。

假设检验有两个隐含的思想：小概率事件思想和反证法的思想。

小概率事件就是在我们的假设下如果出现了小概率事件，那么就可以否定我们的假设。

反证法就是先假设我们提出的假设是正确的，然后在这个条件下去观测发生的事件是否是小概率事件，如果是的话，则否定原假设。

假设检验的步骤：

1.提出原假设，记为H0，同时提出互为反命题的备择假设H1。

2.在H0正确的条件下，求出样本数据出现的概率，看是否是小概率事件

3.若小概率，认定原假设错误，称为拒绝原假设。否则不能拒绝原假设

对于原假设和备择假设有如下选择原则：

原假设应该是受保护的，不应轻易被拒绝；

备择假设是检验者所希望的结果；

等号永远出现在原假设中。

假设检验中出现的两类错误。

1.第一类错误：在假设检验中拒绝了本来是正确的原假设（弃真）。我们认为小概率事件是几乎不可能发生的，因此我们会拒绝原假设当出现小概率事件的时候，然而只要概率不等于0，那么事件都是有可能发生的，也就是说我们仍然有可能遇到小概率事件，但我们却拒绝他了。第一类错误的概率记为α

2.第二类错误：在假设检验中没有拒绝本来是错误的原假设（取伪）。原假设是错误的但却很接近真实值，可能是有一些偶然因素使然。第二类错误的概率β

这两类错误我们没办法同向优化，所以我们一般选择控制α，不限制β。

α是第一类错误的概率，也就是在H0为真的条件下，拒绝H0的概率，是一个条件概率

P（拒绝H0|H0为真），为了控制α，我们将它固定P（拒绝H0|H0为真）<=α

在统计学上，α叫做显著性水平，常见的值有0.1，0.05,0.025

接着为了确定一个事件是不是小概率事件，要求解此事件发生的概率。对于连续型变量，某个具体取值的概率都为0，所以无法直接算概率，则使用另一种方法，即算出在原假设正确的条件下，和当前样本一样极端或更极端的情况出现的概率。举个例子，原假设总体均值为10，样本均值9，则差为-1，那么更极端就是指均值和10的差大于1或者小于-1的样本。因此，把所得到的样本或更极端的情况出现的概率叫做p值（p-value）。比如上面的例子，p-value就是均值小于等于9或者大于等于11的样本的概率。

推断统计--假设检验

猜你喜欢