一切为了数据挖掘的准备
1.对连续变量数据的理论分析
1.1连续变量位置的度量
- 平均数
- 中位数
按大小排序,排在中间的数;如果数据有偶数个,中间的两个数的平均数为中位数。
- 众数
- 百分位数
按照大小排序。p百分位数的计算:i=(p/100)*n。如果i不是整数,i向上取整。第i项数就是p百分位数。
- box图中的数据有:outlier,max(上限:Q3+1.5(Q3-Q1)),75分位(Q3),median(Q2),25分位(Q1),min(下限:Q1-1.5(Q3-Q1))
1.2变异程度的度量
- 极差:最大值-最小值,max-min
- 四分位数的间距:Q3-Q1,75百分位-25百分位。克服异常值的影响
- 方差:
- 总体方差:
n1∑(xi−E(X))2
- 样本方差:
n−11∑(xi−X)2
- 样本标准差S:
S2
- 标准差系数:
XS∗100%
1.3标准化数值和切比雪夫定理
-
Z分数被认为是对数据集集中观测值相对位置的度量
z=Sx−E(X)
-
经验法则:对于大部分观测值
xi,z<3;当z > 3时,
xi为异常值
-
切比雪夫定理:
P(∣Z∣<ξ)≥1−ξ21 即与平均数的距离在z个标准差之内的数据值所占比例至少为
1−z21
证明:
P(∣Z∣<ξ)=1−P(∣Z∣≥ξ)
P(∣Z∣≥ξ)=P(∣σx−X∣≥ξ)=∫∣σx−X∣≥ξf(x)dx≤∫∣σx−X∣≥ξ∣σx−X∣2/ξ2f(x)dx
=σ2ξ21∫∣σx−X∣≥ξ∣x−X∣2f(x)dx≤σ2ξ21∫∣x−X∣2f(x)dx=σ2ξ2D(X)=ξ21
P(∣Z∣≥ξ)≤ξ21
P(∣Z∣<ξ)≥1−ξ21
- 异常值检测
- IQR = Q3-Q1,四分位数的间距
- 下限:Q1 - 1.5*IQR
- 上线:Q3 + 1.5*IQR
1.4 五数概括法-箱型图
箱型图中的数据:
- 上限:Q3 + 1.5*IQR = Q3 + 1.5(Q3-Q1)
- 下限:Q1 - 1.5*IQR = Q1 - 1.5(Q3-Q1)
- Q1
- Q2:median
- Q3
- outlier,不在上限和下限内的数据,异常值
1.5 两变量关系的度量
- 协方差
SXY=n−11∑(xi−X)(yi−Y)
协方差正负代表了x和y的关系,数值大小代表关系的强弱,但协方差受到数据计量单位的影响
- 皮尔逊相关系数
-
rxy=SXSYSXY
- rxy是相关系数
- Sxy是协方差
- Sx是x的标准差
- Sy是y的标准差
相关系数:正负代表了x和y的关系,数值大小代表了关系的强弱。相关系数提供了线性但不一定是因果关系的一个度量。
2.总体和样本的方差、标准差、关系计算
2.1 对全体
- 方差
D(X)=E((X−X)2)=n1i∑n(xi−X)2
- 标准差
D(X)
- 协方差
cov(X,Y)=E((X−X)(Y−Y))=n1∑(xi−X)(yi−Y)
- 相关系数
ρ=D(X)
D(Y)
cov(X,Y)=D(X)
D(Y)
E((X−X)(Y−Y))=E(D(X)
X−XD(Y)
Y−Y)
2.2 对样本:
- 方差
S2=n−11∑(xi−X)2
- 标准差
S=S2
- 协方差
SXY=n−11∑(xi−X)(yi−Y)
- 皮尔逊相关系数
rxy=SXSYSXY