Kolmogorov–Smirnov test(K-S检验)

主要参考资料
(1)https://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test
(2)https://wenku.baidu.com/view/ccfa573a3968011ca30091d6.html
概述

Kolmogorov–Smirnov statistic

  • 累计分布函数:
    累积分布函数
    其中 I [ inf , x ] 为indicator function(指示函数),
    I [ inf , x ] ( X i ) = { 1 , X i x ; 0 , X i > x ;
  • Kolmogorov–Smirnov statistic:
    对于一个样本集的累计分布函数 F n ( x ) 和一个假设的理论分布 F ( x ) ,Kolmogorov–Smirnov statistic定义为:
    Kolmogorov–Smirnov statistic
    s u p x 是距离的上确界(supremum), 基于Glivenko–Cantelli theorem,若 X i 服从理论分布 F ( x ) ,则当n趋于无穷时 D n 趋于0。

Kolmogorov distribution

  • 准备知识:
    (1)独立增量过程
    顾名思义,就是指其增量是相互独立的。严格定义如下:
    独立增量过程
    (2)维纳过程(英语:Wiener process)
    大概可以理解为一种数学化的布朗运动,严格定义如下:
    维纳过程
    (3)布朗桥(英文:Brownian bridge)
    一种特殊的维纳过程,严格定义如下:
    布朗桥
    就是说一个在 [ 0 , T ] 区间上,且 W T = 0 的维纳过程。
    如图:
    布朗桥
    红色和绿色的都是“布朗桥”。
  • Kolmogorov distribution
    (1)Kolmogorov distribution
    Kolmogorov distribution定义为:
    Kolmogorov distribution
    即是通过求布朗运动上确界得到的随机变量的分布。
    它的累积分布函数可以写为:
    累计分布函数
    (2)单样本K-S检验
    单样本K-S检验即是检验样本数据点是否满足某种理论分布。
    注意!若该理论分布的参数是由样本点估计的,该方法无效!
    我们从零假设出发。(即假设样本点不满足理论分布)
    此时,若理论分布是一种连续分布,则有:
    趋于Kolmogorov distribution
    也就是说在有无限多的样本点的时候,不论F的具体形式, n D n 将趋向于一个Kolmogorov distribution。(好像也叫做“依分布收敛”)
    然而事实上,我们既不可能有无穷多样本点,也不是为了证明样本点和完全不满足理论分部。
    K-S检验给出了零假设被拒绝的可能性的一种衡量方法(即样本点满足理论分布的可能性) α :
    α = m i n ( [ α | n D n > K α ] )

    其中, K α 由以下方式给出:
    1
    可以这样定性的理解,样本点越偏离理论分布,它的Kolmogorov–Smirnov statistic就会越大,那么我们找到的 K α 就越大, α 就越小,反之亦然。
    PS:
    wiki上给出的并不是这样,而是:
    wiki
    但按照我的理解这种提法有些问题。因为我们知道 K 1 = 0 ;而 n D n > 0 几乎总是成立的。那岂不是对于任何样本点,总有 α = 1

    也可能是我的理解有问题,欢迎留言指出。
  • 当理论分布函数非连续时
    这里直接引用wiki上的内容

wiki

双样本集K-S检验

双样本K-S检验即是检验两个样本集是否满足同样的潜在分布。
其零假设被否定的可能性仍然以 α 给出:

α = m i n ( [ α | D n , m > c ( α ) n + m n m ] )

其中:
1
2
PS:
wiki上的提法与此不同,此处采用此种提法的原因与单样本K-S检验相同。

猜你喜欢

转载自blog.csdn.net/qq_41679006/article/details/80977113
今日推荐