The first week, "a statistical basis"

A sample data: 2,329,203,223,213,325

(1) mean 算数平均数:所有数据的平均值 
(23+29+20+32+23+21+33+25)/8=25.75

几何平均数:所有数值的连乘积开项数次方根 
³√(ABC)

加权平均数:所有数值乘以自己的权重后相加/权重的和
(k1A+k2B+k3C)/(k1+k2+k3)

(2) median 中位数:所有数据排序后,正好在中间的那一个或两个。 
排序后:20 21 23 23 25 29 32 33
(23+25)/2 = 24

(3) mode 众数:所有数据中出现次数最多的那个(可以不存在,还可以是多个)
23

Two sample data: 65 8,173,859,479,678,382

(4) range 极差:最大值-最小值
94-65=29

(5) mid-range 中程数:最大值和最小值的平均数
(94+65)/2 = 79.5

Three sample data: 6 7,153,639,404,142,434,749 (sorted)

四分位数的位置:(n表示项数)
Q1的位置= (n+1) × 0.25 = (11+1)*0.25 =3 对应数值:15
Q2的位置= (n+1) × 0.5  = (11+1)*0.5  =6 对应数值:40
Q3的位置= (n+1) × 0.75 = (11+1)*0.75 =9 对应数值:43

四分位数位置的确定:(基于n-1的方式)
Q1的位置= 1+(n-1)x 0.25 = 1+(11-1)*0.25 =3.5 对应数值:15*0.5+36*0.5=25.5
Q2的位置= 1+(n-1)x 0.5  = 1+(11-1)*0.5  =6   对应数值:40
Q3的位置= 1+(n-1)x 0.75 = 1+(11-1)*0.75 =8.5 对应数值:42*0.5+43*0.5=42.5

注:numpy和pandas都是基于N-1的方式

Degree of dispersion

平均差:数据中的每一个数,与算术平均值的差的绝对值的算术平均值。
(1)算术平均数 x'=(1+2+3)/3 = 2
(2)平均差MD = (∑|x-x'|)/n =(|1-2|+|2-2|+|3-2|)/3 = 2/3 

方差:数据里的每一个数与这对数的算术平均值的差的平方和的算术平均,反映的是数据的离散程度。
s²= ((x1-x)^2 +(x2-x)^2 +......(xn-x)^2)/n
(1)先求出平均数(1+2+3+4+5)/5=3
(2)然后求各个数与平均数的差的平方和(1-3)²+(2-3)²+(3-3)²+(4-3)²+(5-3)²=10
(3)最后求方差 10/5=2

标准差:方差的算术平方根
σ= sqrt(((x1-x)^2 +(x2-x)^2 +......(xn-x)^2)/n)

四分位极差:四分位数的第三个,减去第一个,Q = Q3-Q1即得到的值。

other

异众比率:异众比率指的是总体中非众数次数与总体全部次数之比。

离散系数(变异系数):实质上是标准差相对于算术平均值的比。
离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。

峰态系数(峰度系数):峰度系数是用来反映频数分布曲线顶端尖峭或扁平程度的指标。
峰度大于0表示该总体数据分布与正态分布相比较为陡峭,为尖顶峰;峰度小于0表示该总体数据分布与正态分布相比较为平坦,为平顶峰。

Reference article:
https://mp.weixin.qq.com/s/IG_a_BPAsp4Sm6NxHautIQ
https://jingyan.baidu.com/article/6d704a13540bb528db51cade.html
https://www.jianshu.com/p/ba71c42009ce

Published 118 original articles · won praise 25 · Views 150,000 +

Guess you like

Origin blog.csdn.net/lhxsir/article/details/96337967