各种距和差

一、

  问题:平均数——描述了数据的中心所在,但是,无法描述数据的分散情况

  目的:描述数据相对于,平均数的分布情况。

二、目录:

  1.全距(极差)

  2.四分位距

  3.箱型图

  4.方差、标准差

  5.标准分

三、

  1.全距(极差):

    1.1 计算方法: 全距 = max(上界) - min(下界)

    

    1.2  

      上界——数据集中的最大值max

      下界——数据集中的最小值min

    

    1.3 意义:描述了数据集的宽度

    1.4 优点:最简单

      缺点:1.全距只描述了,数据的宽度,没有描述在上、下界之间的数据的真是形态是如何分布的。

         2.全距极容易受到,异常值的影响。

            解决方法:如何摆脱异常值影响——只使用数据中心周围的数值——四分位距

  2.四分位距:

    2.1 定义:

      将数据一分为4,最小的四分位数称为下四分位数(Q1),最大的四分位数称为上四分位数(Q3),中间的四分位数即,中位数(Q2)。

      

    2.2 四分位距(IQR):

        每两个四分位数之间的距被称为四分位距(IQR)

        四分位距 = 上四分位数  —  下四分位数

        IQR =     Q3 — Q1   

    2.3 如何计算?

       STEP1:排序

          将所有的数据按照升序进行排列。———一共n个数据

     

       STEP2:求下四分位数Q1的位置:

          2.1 计算:n ÷ 4

          2.2  a: 如果n ÷ 4结果为整数,则Q1位于n ÷ 4这个位置和下一个位置之间,取这两个位置上的数值的平均值。

            b: 如果n ÷ 4结果不是整数,则将n ÷ 4结果向上取整,所得结果即为的Q1位置

            eg: n = 6时,n ÷ 4 = 1.5,向上取整——>得2,Q1位置为2

       STEP3:求下四分位数Q3的位置:

          2.1 计算:3n ÷ 4

          2.2  a: 如果3n ÷ 4结果为整数,则Q3位于3n ÷ 4这个位置和下一个位置之间,取这两个位置上的数值的平均值。

            b: 如果3n ÷ 4结果不是整数,则将3n ÷ 4结果向上取整,所得结果即为的Q3位置

            eg: n = 6时,3n ÷ 4 = 4.5,向上取整——>得5,Q3位置为5

    

       STEP4:求IQR:

          IQR =     Q3 — Q1

    

    2.4 优点:与全距相比,四分位距,可以较少的受到异常值的影响。

          原因:四分位距仅仅使用了位于中间部分的50%的数据,而异常值是不可能位于中间部分的,从而将数据中的异常值剔除了。

        缺点:a.只度量了数据的分散性,但是没有度量数据的稳定性。

         b.由于为了剔除极端值异常值,只考虑了部分数据,不能完全反映数据整体。

    2.5 意义:可以对不同的数据集进行比较,而且比较结果不会被异常值扭曲

        (全距极差存在问题:全距非常容易收到异常值的影响,只要掺进去一个异常值,求出的全距就会是天差地别

          采用四分位距,只关注数据中央的50%数据,这样就排除了异常值的影响。)

  3. 百分位数:

    3.1 将数据分成100份,起作用的数值被称为百分位数。

    3.2 第K百分位数,位于数据的k%出的数值,记为:Pk 

     

  

    3.3 用途:a. 通过百分位数确定某个数值相对于其他数值的高低。

           b.划分名次、档次、排行。

    3.4 Pk 的求法:

      STEP1:将所有数值按照升序排序。

      

      STEP2:计算k × (n ÷ 100)

      STEP3:   a.如果k × (n ÷ 100) 的值为整数,则第k百分位数处于k × (n ÷ 100)位和下一位数之间,去这两个数的平均值,即为Pk

           b.如果k × (n ÷ 100) 的值不是整数,将结果向上取整,得到的结果即为第k百分位数的位置。

  4.箱线图

    4.1 作用:用来显示各种距。

    4.2 画法:2种

        法一:

          STEP1:先画出一个箱子,箱子的左边是下四分位数Q1,右边是上四分位数Q3

          STEP2:在箱子中,画一条直线,标注出中位数Q2

          STEP3:在箱子两边,画出“线”,显示出数据的上界max、下界min和全距

         法二:

  5.方差σ2与标准差σ:

    5.0 为什么有了全距和四分位距,还要有方差、标准差?

      方差σ2与标准差σ的出现是由于,四分位距IQR存在一些问题。

         a.四分位距IQR只度量了数据的分散性,但是IQR没有度量数据的稳定性。

         b.由于为了剔除极端值异常值,IQR只考虑了部分数据,不能完全反映数据整体。

     

    5.1 如何计算?

          

         

        标准差的计量单位与相应的数据的单位相同

    5.2 意义?

      标准差σ——度量了数据与均值的距离,从而描述了数据的分散性——各个数值相对于均值而言,如何变化

           如果标准差较大,则意味着数值往往距离均值较远;如果标准差较小,则数值往往距离均值较近。

  6.如何对均值不同,标准差也不同的,不同的数据集进行比较?————标准分Z

    6.1 如何计算标准分Z?

        

    6.2 标准分有何意义?

        标准分将不同的数据分布,都转化为成一个均值μ=0,标准差σ=1的标准分布。

        标准分z,表示的是相对于均值0的位置。

      

现在的问题:

  1.了解不同的箱线图形式

  2.标准分的意义。 

猜你喜欢

转载自www.cnblogs.com/tommyngx/p/10008518.html