数据分析与挖掘建模实战-单因子探索分析与可视化

first
在这里插入图片描述

理论铺垫:

在这里插入图片描述

  • 集中趋势(数据聚拢的衡量)

    • 均值:连续值的 中位数:异样值 衡量集中趋势 分位数:和其他几个值综合使用 众数:离散值
      Q1 = (n+1) * 0.25
      Q2 = (n+1) * 0.5
      Q3 = (n + 1) * 0.75
  • 离中趋势

  • σ = 1 N i = 1 N ( x i μ ) 2 \sigma = \sqrt{\frac{1}{N}\sum_{i=1}^{N}(x_{i} - \mu)^{2}}

  • σ \sigma 越小 表示数据越聚拢 越大 数据越离散

  • 查看正态分布表
    正态分布表
    在这里插入图片描述
    在这里插入图片描述

  • 数据分布

    • 偏态与峰度
    • 偏态系数与峰态系数
      • 偏态:数据偏离正态的衡量 偏:平均值的偏
      • 正常:中位数和均值将接近 甚至相等 但是数据不一定对称分布 中位数和均值有差别
  • coefficient of skew: S = 1 n i = 1 n ( x i x ˉ ) 3 ( 1 n i = 1 n ( x i x ˉ ) 2 ) 3 2 S = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_{i} - \bar{x})^{3}}{(\frac{1}{n}\sum_{i=1}^{n}(x_{i} - \bar{x})^{2})^{\frac{3}{2}}}

  • S为正 正偏 表示均值偏大 - 负偏 均值小

  • Kurtosis coefficient(峰态系数) 数据分布集中强度衡量 一般是3 若有个分布相差>2 判断不是正态分布了: K = 1 n i = 1 n ( x i x ˉ ) 4 ( 1 n i = 1 n ( x i x ˉ ) 2 ) 2 K = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_{i} - \bar{x})^{-4}}{(\frac{1}{n}\sum_{i=1}^{n}(x_{i} - \bar{x})^{2})^{2}}
    Gaussian distribution

  • K方分布χ2分布:设 X1,X2,…Xn相互独立, 都服从标准正态分布N(0,1), 则称随机变量 χ 2 = X 1 2 + X 2 2 + . . . . . . + X n 2 χ^{2}=X_{1}^{2}+X_{2}^{2}+......+X_{n}^{2} 所服从的分布为自由度为 n 的χ2分布

  • t分布 :设X1服从标准正态分布N(0,1),X2服从自由度为n的χ2分布,且X1、X2相互独立,则称变量t=X1/(X2/n)1/2 所服从的分布为自由度为n的t分布。

  • F分布 :设X1服从自由度为m的χ2分布,X2服从自由度为n的χ2分布,且X1、X2相互独立,则称变量F=(X1/m)/(X2/n)所服从的分布为F分布,其中第一自由度为m,第二自由度为n

  • 抽样理论(全量检验无法实现
    可以完全随机抽样 等差距抽样 分类分层抽样 会有误差 重复抽样 不重复抽样

    • 抽样误差与精度
      • 抽样平均误差计算公式:
      • 重复抽样(放回抽样): μ x = σ 2 n \mu_{x} = \sqrt{\frac{\sigma^{2}}{n}} σ \sigma :总体方差 N:总体个数 n:抽样个数
      • 不重复抽样 μ x = σ 2 n ( N n N 1 ) \mu_{x} = \sqrt{\frac{\sigma^{2}}{n}(\frac{N - n}{N - 1})}
      • 估计总体时抽样数目的确定:
      • 重复抽样: n = Z α / 2 δ 2 Δ 2 n = \frac{Z_{\alpha/2}\delta^{2}}{\Delta^{2}}
      • 不重复抽样: n = N Z α / 2 δ 2 N Δ 2 + Z α / 2 Δ 2 n = \frac{NZ_{\alpha/2}\delta^{2}}{N\Delta^{2} + Z_{\alpha/2}\Delta^{2}}
      • δ 2 \delta^{2} : 总体方差 Z α Z_{\alpha} : 取到标准差相对于正值的距离 均值 + - 2 σ \sigma 范围 Δ 2 \Delta^{2} :需要控制的方差
  • example:
    example

    • 保证在 95.45% 2 - 2 μ x \mu_{x} ,2 + 2 μ x \mu_{x}

exp2

  • 无放回抽样

猜你喜欢

转载自blog.csdn.net/ichglauben/article/details/85883577