泛统计理论初探——高阶描述统计指标

统计学习-高阶统计指标

再谈描述性统计指标
在上一篇文章中,我们探讨了一些最常见的统计指标:比如中位数,平均数,众数等指标。其实上一篇文章讨论的都是一阶的统计指标,即根据当前的数据能够直接计算或观察得到的指标,这种一阶指标不需要再借助其他指标去做进一步计算的。那么既然有一阶指标,就会有二阶的指标以及高阶的指标。因此在本文中,我们将会介绍几种高阶的统计指标,并阐述如何在实际情况中去使用这些指标,从而帮助使用者尽快认知当前数据的一些特性,从而更好地去处理实际问题。
首先我们要探讨的是标准差这个指标,它是由方差开平方根得到的指标。而方差的计算会用到平均值,所以使用者应该首先根据数据计算得出均值,然后根据均值开始计算方差,即计算每个样本与均值的距离平方和,最后把所有的距离平方和加到一起,得出方差。根据上述的表达,其实本质上来说,方差就是一个数据散度的指标,即方差越大,数据的散度越大,数据波动性较大,离均值远的样本较多。而方差越小,则说明数据的散度越小,数据较为稳定,离均值近的样本较多。方差这个指标在数据竞赛中,通常被作为体现数据波动的一个指标,如果数据在某一维度的方差较大,则要注意是否需要使用对数函数进行数据压缩,或是使用Box-Cox变换等。因为如果不做处理的话,后期会影响整体的模型参数,存在异方差等问题,所以要多加注意。
其次我们来谈谈偏度,偏度是一种三阶的统计指标,它用来反映数据偏度情况,可以用来观察数据的分布情况,进一步认识数据是否均匀,如果右偏,则要将数据进行某种程度的放大;如果左偏,则要将数据进行某种程度的压缩。在某种程度上,如果数据是左偏或右偏,需要进行数据变换处理,从而达到正态分布,为后续的分析做铺垫。
在这里插入图片描述
根据上图,左边的曲线是右偏,它的偏度系数大于0。右边的曲线是左偏,它的偏度系数小于0。而偏度的计算其实有两种,一种是基于众数的计算,一种是基于平均数的计算。
在这里插入图片描述
上面的左边的公式就是根据众数计算得到的,其中分母是标准差,M0代表众数。如果SK值大于0,代表右偏;SK值小于0,代表左偏。其中SK的绝对值代表偏态的程度,绝对值越大代表偏的越厉害。而右边的两个式子则是根据平均值进行计算得到的偏度。
在这里插入图片描述
最后我们再来探讨峰度这个指标,这个指标主要是反映数据的分布的凸起程度以及尾部的粗细程度。根据这个指标我们可以看出数据的分布到底是分布在离平均值附近还是远离平均值。它本质上是一种四阶指标,而在表达式的后面我们看到减去了3,因为正态分布的峰度值为3,所以峰度如果大于0则代表数据非常集中,两边的数据较少,即股票的每日交易数据,每天的交易价格都在当日的平均值附近。而如果峰度小于0,则代表数据区分度较低,类似于均匀分布。
总的来说,理解标准差、偏度、峰度这些指标对使用者了解数据的特征有利,因为这些高阶指标可以大致的让数据使用者看清数据的分布形态,并根据分布形态去进行一些数据的放缩处理,最终使得数据近似为正态分布。

发布了23 篇原创文章 · 获赞 24 · 访问量 4512

猜你喜欢

转载自blog.csdn.net/qq_26727101/article/details/103102789