统计系列一:描述统计


一切为了数据挖掘的准备

1.对连续变量数据的理论分析

1.1连续变量位置的度量
  • 平均数
  • 中位数
    按大小排序,排在中间的数;如果数据有偶数个,中间的两个数的平均数为中位数。
  • 众数
  • 百分位数
    按照大小排序。p百分位数的计算:i=(p/100)*n。如果i不是整数,i向上取整。第i项数就是p百分位数。
  • box图中的数据有:outlier,max(上限:Q3+1.5(Q3-Q1)),75分位(Q3),median(Q2),25分位(Q1),min(下限:Q1-1.5(Q3-Q1))
1.2变异程度的度量
  • 极差:最大值-最小值,max-min
  • 四分位数的间距:Q3-Q1,75百分位-25百分位。克服异常值的影响
  • 方差:
    • 总体方差: 1 n ( x i E ( X ) ) 2 \frac{1}{n}\sum(x_i - E(X))^2
    • 样本方差: 1 n 1 ( x i X ) 2 \frac{1}{n-1}\sum(x_i - \overline{X})^2
  • 样本标准差S: S 2 \sqrt{S^2}
  • 标准差系数: S X 100 % \frac{S}{\overline{X}}*100\%
1.3标准化数值和切比雪夫定理
  • Z分数被认为是对数据集集中观测值相对位置的度量
    z = x E ( X ) S z=\frac{x-E(X)}{S}

  • 经验法则:对于大部分观测值 x i x_i ,z<3;当z > 3时, x i x_i 为异常值

  • 切比雪夫定理: P ( Z &lt; ξ ) 1 1 ξ 2 P(|Z| &lt; \xi) \geq 1-\frac{1}{\xi^2} 即与平均数的距离在z个标准差之内的数据值所占比例至少为 1 1 z 2 1-\frac{1}{z^2}
    证明:
    P ( Z &lt; ξ ) = 1 P ( Z ξ ) P(|Z| &lt; \xi) = 1- P(|Z| \geq \xi)

P ( Z ξ ) = P ( x X σ ξ ) = x X σ ξ f ( x ) d x x X σ ξ x X σ 2 / ξ 2 f ( x ) d x P(|Z| \geq \xi)=P(|\frac{x-\overline{X}}{\sigma}| \geq \xi)=\int_{|\frac{x-\overline{X}}{\sigma}| \geq \xi} f(x) d_x \leq \int_{|\frac{x-\overline{X}}{\sigma}| \geq \xi} |\frac{x-\overline{X}}{\sigma}|^2 /\xi^2 f(x) d_x

= 1 σ 2 ξ 2 x X σ ξ x X 2 f ( x ) d x 1 σ 2 ξ 2 x X 2 f ( x ) d x = D ( X ) σ 2 ξ 2 = 1 ξ 2 = \frac{1}{\sigma^2 \xi^2}\int_{|\frac{x-\overline{X}}{\sigma}| \geq \xi} |x-\overline{X}|^2 f(x) d_x \leq \frac{1}{\sigma^2 \xi^2}\int |x-\overline{X}|^2 f(x) d_x = \frac{D(X)}{\sigma^2 \xi^2}=\frac{1}{\xi^2}

P ( Z ξ ) 1 ξ 2 P(|Z| \geq \xi) \leq \frac{1}{\xi^2}

P ( Z &lt; ξ ) 1 1 ξ 2 P(|Z| &lt; \xi) \geq 1-\frac{1}{\xi^2}

  • 异常值检测
    • IQR = Q3-Q1,四分位数的间距
    • 下限:Q1 - 1.5*IQR
    • 上线:Q3 + 1.5*IQR
1.4 五数概括法-箱型图

箱型图中的数据:

  • 上限:Q3 + 1.5*IQR = Q3 + 1.5(Q3-Q1)
  • 下限:Q1 - 1.5*IQR = Q1 - 1.5(Q3-Q1)
  • Q1
  • Q2:median
  • Q3
  • outlier,不在上限和下限内的数据,异常值
1.5 两变量关系的度量
  • 协方差
    S X Y = 1 n 1 ( x i X ) ( y i Y ) S_{XY} = \frac{1}{n-1} \sum(x_i-\overline{X})(y_i-\overline{Y})
    协方差正负代表了x和y的关系,数值大小代表关系的强弱,但协方差受到数据计量单位的影响
  • 皮尔逊相关系数
    • r x y = S X Y S X S Y r_{xy} = \frac{S_{XY}}{S_XS_Y}
    • rxy是相关系数
    • Sxy是协方差
    • Sx是x的标准差
    • Sy是y的标准差
      相关系数:正负代表了x和y的关系,数值大小代表了关系的强弱。相关系数提供了线性但不一定是因果关系的一个度量。

2.总体和样本的方差、标准差、关系计算

2.1 对全体
  • 方差
    D ( X ) = E ( ( X X ) 2 ) = 1 n i n ( x i X ) 2 D(X) = E((X- \overline{X})^2) = \frac{1}{n} \sum_i^n(x_i - \overline{X})^2
  • 标准差
    D ( X ) \sqrt{D(X)}
  • 协方差
    c o v ( X , Y ) = E ( ( X X ) ( Y Y ) ) = 1 n ( x i X ) ( y i Y ) cov(X,Y) = E((X-\overline{X})(Y-\overline{Y}))=\frac{1}{n}\sum{(x_i-\overline{X})(y_i-\overline{Y})}
  • 相关系数
    ρ = c o v ( X , Y ) D ( X ) D ( Y ) = E ( ( X X ) ( Y Y ) ) D ( X ) D ( Y ) = E ( X X D ( X ) Y Y D ( Y ) ) \rho = \frac{cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}=\frac{E((X-\overline{X})(Y-\overline{Y}))}{\sqrt{D(X)}\sqrt{D(Y)}} = E(\frac{X-\overline{X}}{\sqrt{D(X)}}\frac{Y-\overline{Y}}{\sqrt{D(Y)}})
2.2 对样本:
  • 方差
    S 2 = 1 n 1 ( x i X ) 2 S^2 = \frac{1}{n-1}\sum{(x_i - \overline{X})^2}
  • 标准差
    S = S 2 S = \sqrt{S^2}
  • 协方差
    S X Y = 1 n 1 ( x i X ) ( y i Y ) S_{XY} = \frac{1}{n-1} \sum(x_i-\overline{X})(y_i-\overline{Y})
  • 皮尔逊相关系数
    r x y = S X Y S X S Y r_{xy} = \frac{S_{XY}}{S_XS_Y}

猜你喜欢

转载自blog.csdn.net/liuerin/article/details/88885158