Fisher精确检验的通俗理解

从事心理咨询的同学转发了一片有关喝茶的文章(详见:http://www.zjfj66.com/article/qinggan/14379314.html).

文中作者为了检验自己能否品出不同年份的普洱茶,做了严格的测试,原文如下:

**************************

我把不同年代的生普掰下一块,一字摆开,泡了测试它们的味道到底有什么不同。我经历了反复多次试验,双盲的对照的,其设计和执行的严格程度完全参考美国FDA的条款,最后的实验结果很沮丧地表明,十年以内的茶的味道的差别,我无法可靠地进行分辨。 

**************************

然后又引述了统计学界的一个公案:Fisher测试某位女士是否能分辨出先放茶再加奶和先放奶再冲茶的味道是否不同。这个测试就是后来著名的Fisher精确检验。

作为一个数据分析伪从业人员,我对Fisher精确检验很感兴趣, 但一开始就被2*2的实验结果列联表搞蒙了,看不明白这个表格含义所在,为何要弄出这么一个表格来。于是就搜索了Fisher精确检验的详细资料,翻阅资料后把自己的理解用非专业的词汇总结一下。

Fisher精确检验原理描述:

假设检验用来检验一次随机实验的结果是否支持对于某个随机实验的假设。具体如下:随机事件发生的概率小于0.05则认定该事件为小概率事件。一般原则认为在某个假设前提下,一次随机实验的结果不会出现小概率事件。若一次随机实验的结果出现了小概率事件则认定该假设不被支持。

超几何分布(无放回产品抽样实验): 样本产品数N,其中不合格产品数D,无放回抽取产品数n,则其中不合格产品数为k的概率服从超几何分布。

Fisher精确检验是基于超几何分布的一种假设检验。Fisher精确检验的列联表其实就是无放回产品抽样实验的一个具体结果实例。而这个具体的实例可以分解出8个类似产品抽样实验的具体实例结果。根据给出的数据可以计算出每个抽样结果基于假设的超几何分布概率。根据其中之一抽样结果的概率,通过假设检验的原则即可推定假设是否成立。

例如 判断节食与性别是否相关:

                   男        女

   节食          a         b

不节食         c         d

可以分解为下列超几何分布抽样:

1. 一共 (a+b+c+d)人,其中男性(a+c)人, 节食有(a+b)人,则其中节食男性为a人的概率;

2. 一共 (a+b+c+d)人,其中男性(a+c)人, 不节食有(c+d)人,则其中不节食男性为c人的概率;

3. 一共 (a+b+c+d)人,其中女性(b+d)人, 节食有(a+b)人,则其中节食女性为b人的概率;

4. 一共 (a+b+c+d)人,其中女性(b+d)人, 不节食有(c+d)人,则其中不节食女性为d人的概率;

5. 一共 (a+b+c+d)人,其中节食(a+b)人, 男性(a+c)人,则其中节食男性为a人的概率;

6. 一共 (a+b+c+d)人,其中节食(a+b)人, 女性(b+d)人,则其中节食女性为b人的概率;

7. 一共 (a+b+c+d) 人,其中不节食(c+d)人, 男性(a+c)人,则其中不节食男性为c人的概率;

8. 一共 (a+b+c+d)人,其中不节食(c+d)人, 女性(b+d)人,则其中不节食女性为d人的概率;

Fisher精确检验是统计显著性检验方法,用于检查两个二进制变量的相关性。所谓二进制变量就是变量的值域只有两个值,例如:性别为男或女;在特定场景下规定变量只有两个可用值,如:规定出行方式为火车或飞机,收入为高或低等。

Fisher精确检验的例子:

1.   两个候选人的得票是否和投票人性别相关。

2.   性别和是否节食是否相关。

3.   收入高低是否和出行方式(火车/飞机)相关。

Fisher精确检验适用于样本量n<40或者理论频数T<1的情况。

猜你喜欢

转载自blog.csdn.net/z54572/article/details/61199246
今日推荐