《统计思维-程序员数学之概率统计》学习笔记

《统计思维-程序员数学之概率统计》学习笔记

2.描述性统计量

2.1 均值

如果有一个包含n个值的样本 x i x_i ,那么它们的均值 μ \mu 等于这些值总和除以值的数量:
μ = 1 n i x i \mu=\frac{1}{n}\sum_i{x_i}

2.2 方差

均值是为了描述集中趋势,而方差则是描述分散情况。

一组值的方差为:
σ 2 = 1 n i ( x i μ ) 2 \sigma^2=\frac{1}{n}\sum_i(x_i-\mu)^2

其中 x i μ x_i-\mu 叫做离均差(deviation from the mean),因此方差为该偏差的方均值。

2.3 分布

数据的分布(distribution)描述了各个值出现的频繁程度。

表现分布最常用的方法是直方图(histogram),这种图用于展示各个值出现的频数或概率。

在python中,计算频数最简单方式就是用字典。给定一个序列t:

hist={}
for x in t:
    hist[x]=hist.get(x,0)+1

得到的结果是一个将值映射到其频数的字典。

例如,一个序列t=[1,2,3,2,4,2,3,4,5,4,5,6,3,4],得到的结果为:

{1: 1, 2: 3, 3: 3, 4: 4, 5: 2, 6: 1}

将得到的结果除以n你,就可以把频数转换成概率你,这称为归一化

n=float(len(t))
pmf={}
for x,freq in hist.items():
    pmf[x]=freq/n

归一化之后的直方图称为PMF(Probability Mass Functionn,概率质量函数),这个函数是值到其概率的映射

直方图可以非常直观的展现数据的以下特征:

  1. 众数
  2. 分布的形状
  3. 异常值(outlier):远离众数的值

猜你喜欢

转载自blog.csdn.net/turing365/article/details/86773850