python 绘制qq图

qq图有两个作用：1、检验一组数据是否服从某一分布。2、检验两个分布是否服从同一分布。qq图全称是quantile-quantile plot，从名称中可以了解到是和分位数相关的图。由于最近在做数据分析时用到了，然而看了一些博客，要么是qq图讲解的比较详尽但是没有使用Python；要么是使用Python语言但是没有讲清楚原理。基于此，想写一篇博客尽量讲清楚原理并且用Python实现出来。

qq图原理是比较两组数据的累计分布函数来判断两组数据是否是服从同一分布，所以第一步我们应该做两组数据的累计分布。首先，作为对比我们看一下标准正太分布的累计分布图。

from scipy import stats
import numpy as np
x = np.arange(-5, 5, 0.1)
y = stats.norm.cdf(x, 0, 1)
plt.plot(x, y)

然后，绘制目标数据（这里使用UCI机器学习数据库中的churn数据集）的累计分布函数图。

import pandas as pd
churn_raw_data = pd.read_csv('churn.txt')
day_minute = churn_raw_data['Day Mins']
sorted_ = np.sort(day_minute)
yvals = np.arange(len(sorted_))/float(len(sorted_))
plt.plot(sorted_, yvals)

直观上对比，目标累计分布函数图和标准正太累计分布函数图差异不大，事实是不是这样呢？最后我们就可以做qq图做对比。

x_label = stats.norm.ppf(yvals)  #对目标累计分布函数值求标准正太分布累计分布函数的逆
plt.scatter(x_label, sorted_)

既然做对比那么对比的标准是什么呢，我们说如果所有点基本上在一条直线上，我们可以说这两个分布是同一分布。所以根据qq图，我们得出结论目标数据组服从正太分布。

上面是为了说明qq图的原理以及怎么使用pyhton进行手动操作，作为数据分析领域里比较全能的Python，它当然也是有包可以直接绘制qq图。

stats.probplot(day_minute, dist="norm", plot=plt)
plt.show()

还是比较方便就可以绘制的，那么比较两幅 qq图发现我们的理解是没有问题的。 qq图可以比较直观的比较两个分布是否相同的，在数据分析时也是比较常用。

参考文献：

https://stackoverflow.com/questions/3209362/how-to-plot-empirical-cdf-in-matplotlib-in-python

https://stats.stackexchange.com/questions/139708/qq-plot-in-python

https://docs.scipy.org/doc/scipy-0.16.0/reference/generated/scipy.stats.probplot.html

猜你喜欢