QQ图判断一个分布是否为正态分布

一、正态QQ图的原理

QQ图通过把测试样本数据的分位数与已知分布相比较,从而来检验数据的分布情况。[1]

分位数:亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点。常用的有一个分位数叫,百分位数,它是指如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。

QQ图是一种散点图,对应于正态分布的QQ图,就是由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图(其他版本[2],有将 (x-m)/std 作为纵坐标,那么正态分布得到的散点图是直线:y=x)。要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近,图形是直线说明是正态分布,而且该直线的斜率为标准差,截距为均值,用QQ图还可获得样本偏度和峰度的粗略信息。


二、QQ图中正态分布直线的推导

如果样本是按正态分布的,那么f(x)即是一个正态分布的概率密度函数。根据正态分布的特性,我们又可以推导出对应的标准正态分布的概率密度函数:
y = f( (x-m)/std )
其中m为样本均值,std为样本标准差。

设标准正态分布的概率密度函数为 y= f(n),既然这些值一一对应,则有:
(x-m)/std=n
即:x=n*std+m
这是一条斜率为样本标准差,截距为m的直线,就是在q-q图中代表着正态分布的直线。


三、构建正态 QQ 图步骤[3]

  • 首先,数据值经过排序;
  • 累积分布值按照公式 (i– 0.5)/n 进行计算,其中字母 i 表示总数为 n 的值中的第 i 个值(累积分布值给出了某个特定值以下的值所占的数据比例);
  • 累积分布图通过以比较方式绘制有序数据和累积分布值得到(如下图中左上角的图表所示);
  • 标准正态分布(平均值为 0 标准方差为 1 的高斯分布,如下图的中右上角的图表所示)的绘制过程与此相同;
  • 生成这两个累积分布图后,对与指定分位数相对应的数据值进行配对并绘制在 QQ 图中(见下图的底图所示)。

这里写图片描述


四、如何构建普通 QQ 图

普通 QQ 图用于评估两个数据集的分布的相似程度。这些图的创建和所述的正态 QQ 图的过程类似,不同之处在于第二个数据集不一定要服从正态分布,使用任何数据集均可。如果两个数据集具有相同的分布,普通 QQ 图中的点将落在 45 度直线上。
这里写图片描述


五、还可以用来判别是否服从某一分布

参考:[5]


六、设置接收空间判别分布

参考:[2]


参考文章:

[1] 正态QQ图的原理
[2] QQ图法检验正态分布
[3] 正态 QQ 图和普通 QQ 图
[4] 关于统计学中q-q图为什么正态分布是一条直线(R语言绘图说明)
[5] 判断数据是否服从某一分布(一)

猜你喜欢

转载自blog.csdn.net/hzwwpgmwy/article/details/79178485