【学习笔记】统计学入门(4/7)——正态分布

来源:http://study.163.com/course/courseMain.htm?courseId=1005232026

索引——

  • 基本概念
  • 连续变量的统计描述
  • 分类变量的统计描述
  • 正态分布
  • 二项分布
  • 参数估计与可信区间
  • 假设检验

四、正态分布

1、从样本频数分布到概率分布

     直方图/频率图的性质:

(1)直条的面积实质上是频率(或者百分比),即:

         面积 = 高度(频率/组距) * 宽度(组距) = 频率

(2)所有直条面积相加等于1

         样本量越来越大时,频率(面积)去向概率;

         组距越来越小时,直方图的顶替所成点并且各个直方条的顶链接成一条曲线,该曲线就是概率密度分布曲线;

         概率密度的概念和固体的密度基本类似。

(3)概率密度曲线下的面积就是相应的累计概率

(4)概率密度曲线就是大量重复随机变异的规律

           

2、正态分布和标准正态分布

2.1 正态分布,记为:X~N(μ,σ^2)

      正态分布的俩个重要特征:均数μ,标准差σ  

      μ是分布曲线的峰位置(集中趋势),又被称为位置参数;

      σ(读作:西格玛)越大离散程度越大,σ越小离散程度越小(离散趋势),又被称为形状参数;

      正态分布是左右对称的,具有对称性。

2.2 标准正态分布

2.2.1 统计学家计算出均数为0,标准差为1的正态分布N(0,1)曲线下面几分分布规律:

95%

99%

双侧

1.96(常用)

2,58

单侧

1.64

2.33

          标准正态分布N(0,1)与其他正态分布N(μ,σ^2 )的关系:

          若X~N(μ,σ^2) ,则       

2.2.2 标准正态分布的曲线下面积分分布规律

         只要将相应的指标转换为服从标准正态分布,就可以根据该面积分布规律计算累计概率

         

3、正态分布的应用

3.1 估计个体参考值;

3.2 整个经典统计学中更复杂方法的基石;

3.3 工业生产中的质量控制,如下图

             

4、做正态分布分析步骤

4.1 确定数据是否服从正态分布:

  • 若服从,直接采用正态分布公式计算参考值范围
  • 若不服从,考虑是否可变换为正态分布(对数转换、平方根转换),变换后采用正态分布公式计算参考值范围
  • 无法变化,则使用百分位数法计算参考值范围

    PS:    Q:不直接用百分位数法进行计算?

             A:百分位数法样本容量太大不容易满足条件

4.2 运用Excel 分析是否是正态分布

   最简单、直观的方法是做出直方图/频数图:

  • 若直方图刚好是左右对称图形则是正态分布;
  • 若不符合则可以考虑做变换(可用Excel函数SQRT()),再重新观察分布状况。

    如下图,则是偏态分布(大数据在小的一端)则不符合正态分布,则做平方变换。

    

             

     (平方根转换后)结果:转换后并没达到理想的正态分布状态;同理,这时可以考虑用对数转换再查看结果......

     

     

猜你喜欢

转载自blog.csdn.net/Yi_jia_yi/article/details/81054362
今日推荐