泛统计理论初探——初探几种简单的抽样方法

统计学习-常见的抽样方法简介

几种简单的抽样方法介绍
    在之前的文章中,我们介绍了一些比较通用的采样方法,本次文章中我们将会对于传统的统计调查中所用到的抽样方法进行简要介绍,目的就是帮助初学者了解随机抽样、分层抽样、整群抽样、系统抽样等方法的区别,并且通过比较这些方法可以让使用者明确抽样方法在不同情况的适用场景。
    首先是随机抽样方法,这种抽样顾名思义就是完全随机的抽样,一般来说这种方法就是确定要抽取的样本总数K后,并且给所有的样本进行编号,然后通过随机数的生成来确定要抽取的K个样本,最终得到抽样结果。这种方法的好处是可以认为是抽样整个过程是公平的并且是完全随机的,但是确定就在于,如果某些类别的样本很少,那么可能无法在随机抽样中被抽取到。
    其次是分层抽样,这种方法其实就是把原始的样本按某种规则或者根据数据的实际情况进行分层,对于不同层的数据按照分层的比例进行独立的抽样,从而在不同的层里面抽取到的结果进行拼凑,得到最终的抽样样本集合。其中要求每一层的内部要尽可能地相似,而每一层之间要尽可能地不相同。
    然后介绍的是整群抽样,整群抽样的思路是要把原始的样本总和去分成若干个互相不重合并且不相交的群,分好群后对群进行编号,比如1、2、…、N 然后在抽样之前先对群号进行抽取,在被抽到的群里面再开始进行所有样本的全面抽样,最终得到整群抽样的结果样本。对于这种方法来说,在切分成群的过程中,需要做到群的内部尽可能地体现差异,而群的外部也就是群之间的差异要尽可能地小,目标是让群可以近似代表整体。同时需要注意的是,这种整群抽样方法,是以群为基本单位,有可能某些群内的样本就是完全没有被抽取到,有些群内的样本全部被抽取到。
    最后介绍的是系统抽样,这种抽样方法也被称之为等距抽样。在大数据领域中,在很大范围中生成随机数也是一个不太合理的需求,所以可以对数据进行编号,然后随机确定一个初始抽样的编号后,以指定的距离比如50个间隔进行抽样,得到的抽样结果就是所谓的系统抽样的结果。
    我们用例子对上述四种抽样方法进行比较,比如目前有某厂商的6种手机需要检测,分别是M系列、U系列、H系列、K系列、R系列、V系列,当我们把这6种手机混合到一起,随机抽取30部手机进行抽样的时候就是随机抽样;当我们分别把手机按照型号系列进行分层,在分好的6个层里面进行随机抽样,每个层抽取5部手机后,汇总到一起的手机样本就是分层抽样;当我们把手机进行混合,然后按照整群抽样得到10个群后,随机抽取5个群,每个群内部都有6部手机,这样得到的结果就是整群抽样;对于系统抽样则是把所有手机进行编号,初始抽取的编号我们选择的是2,而距离我们设定为10,则所有满足编号的手机被抽取到就是系统抽样的结果。
    总的来说,各自抽样方法的使用场景是有区别的,具体还是要看统计调查的场景,在小数据和大数据的情况是不一样的,在不同的业务下的使用方法也是不一样的,初学者需要了解这些方法的原理和思路,方便更好地使用。

猜你喜欢

转载自blog.csdn.net/qq_26727101/article/details/108913564