统计学摘要

聚类分析(集中趋势分析)
离散分析(分散性和变异性分析)
离散分布模型(二项、几何、泊松)
连续分布分析(正态分析)
统计抽样分析
置信区间设置
假设检验、卡方分布(结论检验)
相关和回归
 
 
将异常值剔除在外,可以保障数据不被扭曲
数据集中程度
平均数的类别有三种:均值、中位数、众数
均值带来的数值并不存在于数据集中区,存在偏斜数据(右偏斜数据、左偏斜数据)
中位数提供的数据存在于数据集中区
众数是出现字数最多的数
这三个数值能够反映出数据的典型值
 
分散性与变异性的量度
全距(极差):数据集分散程度(数据集中的最大数减去最小数)
四分位距:一个不宜受异常值影响的“迷你距”,上四分位数-下四分位数
下四分位数:首先N/4,结果为整,取两个数值均值,不为整,向上取整,得出位置
上四分位数:3N/4,结果为整,取两个数值均值,不为整,向上取整,得出位置。
箱线图:可以在一张图上体现多个距和四分位数,箱显示四分位数和四分位距,线则体现上下界。 更多体现数据的分散性
 
  • 全距是一种较为简单的量度数据分散程度的方法,仅指出了最大值和最小值的差值。方差和标准差考虑了数据的聚散情况,对数据的变异性和分布形态能够表现。
 
计算变异性
方差:量度数据分散性的一种方法,是数值与均值的距离的平方数的平均值。
∑X2/N-Ч2
标准差:σ,方差取平方根,数值与均值的距离
标准分:Z,是对不同环境下的相关数据进行比较的一种方法(距离均值的标准差个数)
Z=(X-Ч)/σ,将数据集转化为均值为0,标准差为1的通用分布。比较意义:和本人的历史数据集相比,哪个表现更好
 
概率论
A事件发生的概率P,总样本数量S,
A事件的对立事件为A'
P(A∩B)=P(A|B)*P(B)
P(A|B)代表B事件发生的情况下,A事件发生的概率
graphic
 
 
贝叶斯定理:需要求出条件概率,且该条件概率与已知条件概率顺序相反时使用。
离散概率(概率分布)
概率分布描述了一个给定变量的所有可能结果的概率
期望即所期望的长期平均结果,以E(X)或Ч表示
E(X) =∑xP(X=x)变量X的期望
X的函数的期望是;E(f(X))=∑f(X)P(X=x)
期望并没有全面体现每一个事件可能的变化
方差指示结果的分散性
概率分布的方差:Var(x)=E(X-Ч)2 指示数据的分散性
E(X-Ч)2=∑(X-Ч)2P(X=x)
 
线性变换时,概率公式,数据变换后,可以根据先前数据计算概率分布的期望和方差。
当变量X按照ax+b的形式发生变换(其中a和b都是常数),则为线性变换,其方差和期望计算式为:
E(aX +b)=aE(X)+b
Var(aX +b)=a2Var(X)
  • X的独立观测值与X不同
E(X1+X2+X3)=NE(X)
Var(X1+X2+X3)=nVar(X)
  • X和Y的线性变换的期望和方差
E(aX+bY)=aE(X)+bE(Y)
E(aX-bY)=aE(X)-bE(Y)
Var(aX+bY)=a2Var(X)+b2Var(Y)
判断两组概率分布的差别时,用减法。
两个独立的随机变量相减后的方差与将两个方差相加后的方差一模一样,变异性只会增加,不会减少。
两个独立观测值的期望和方差
E(aX +bY)=aE(X)+bE(Y)
Var(aX +bY )=a2Var(X)+b2Var(Y)
 
 
排列、组合
A(M.N),与C(M,N)的应用
 
几何分布、二项分布及泊松分布(坚持离散)
几何分布
P(X=r)=qr-1p,r=1时达到最大值,而后不断下降。
代表第r次试验时取得第一次成功的概率
P(X>r)=qr需要试验r次以上才能取得第一次成功的概率
任何几何分布的众数都是1,1是最大概率的数
变量X的概率符合几何分布,且单词实验的成功概率为P,
X~Geo(P)
期望就是期望得到的平均值,像均值,但是概率分布的均值
方差是对偏差的量度
E(X) = graphic如果X~Geo(P),则几何分布的期望是
方差是Var(X)= graphic
二项分布 P(X=r)= graphic* graphic
二项分布:首先是一系列独立实验,试验有失败或成功的可能,且成功概率相同,试验次数有限。
P是每一次试验的成功概率,n是试验次数  X~B(n,P)
P越接近0.5,图形越对称,当P小于0.5时,图形向右偏斜;当P大于0.5时,图形向左偏斜
E(X)=nP  Var(X)=npq
如果试验次数固定,求成功一定次数的概率,则需要使用二项分布,使用二项分布还可以求出n次试验中能够期望取得的成功次数。
如果需要取得第一次成功之前需要试验的次数,则需要几何分布
 
泊松分布(爆米花机损坏次数),发生次数不一定,只能平均得出,则属于泊松分布
单独事件在给定区间内为随机、独立事件,已知区间内的事件平均发生次数,为有限数值
X~Po(λ)
P(X=r)= graphic  E(X)=λ  Var(x)=λ
当λ>15时,则近似接近正态分布。 
 
均属于离散分布,正态分布属于连续分布。
正态分布
(连续型概率分布)
离散数据,数据由单个的数值组成,每个数值有相应的概率
正态分布,连续性数据分布的理想形态,具有钟形曲线,曲线对称,中央部位的概率密度最大,偏离均值,概率密度减小。)
X~N(Ч,σ2)表示一个连续随机变量X符合均值为Ч,标准差为σ的正态分布。σ2表示分散性
正态分布的概率为图形的面积区域。
Z=(X-Ч)/σ
var=pq/n
 
多重正态分布
如果X~N(Чx,σ2x),Y~N(Чy,σ2y),且X和Y为独立变量;
则:X+Y~N(Чx +Чy,σ2x +σ2y)
X-Y~N(Чx -Чy,σ2x +σ2y)
如果X~N(Ч,σ2),且a和b都是数字,则:
ax+b~N(aЧ+b,a2σ2)
如果X1,X2,···Xn为独立观察结果,且X~N(Ч,σ2)
则X1+X2+····+Xn~N(nЧ,nσ2)
 
二项分布中,当均值>5,方差>5时,二项分布可以近似等于正态分布,但需要进行连续性修正,额外增减0.5即可。
当n>50,P<0.1时,可以使用泊松分布代替二项分布。
 
抽样检验
随机抽样、分层抽样(每一层属性不同)、整群抽样(每个群相似)、系统抽样
总体中包含了大量相似的组或群,可以采用整群抽样
点估计量:样本参数来估计总体参数,样本参数就是点估计量
代表总体参数的点估计量,Ч代表总体参数, 代表样本均值
点估计量相当于样本均值,
总体方差估计量
总体方差
概率probability=比例proportion
 
样本均值的概率分布(每一个样本都是一个独立观察结果,各个样本均值的概率分布)
中心极限定理:如果x不符合正态分布,但n的样本很大,则X拔的分布近似于正态分布
总体的均值为Ч和σ2,当n大于30时,X拔满足N(Ч,σ2/n)
 
 
置信区间
 
 
当样本数量很小时,样本均值分布并不符合正态分布,因此可以使用t分布
如果样本符合t分布,则T~t(v),v代表自由度,v=n-1
t 分布T~t(n-1)    graphic
F分布
如果一个随机变量是由一个服从正态分布的随机变量除以一个服从卡方分布的变量组成的,则该变量服从t分布,
t分布是正态分布的小样本形态,也就是如果某变量服从正态分布,当样本容量小于30或小于50时,该变量呈t分布)
F分布是由两个服从卡方分布的随机变量之比构成的,t分布的平方,就是分子自由度为1的F分布
F分布用于检验样本方差
假设检验(显著性检验)
确定要进行检验的假设,选择检验统计量,确定用于决策的拒绝域,求出检验统计量的p值,查看样本结果是否位于拒绝域内,作出决策。
 
H1为原假设,H2为备择假设
显著性水平α,表示希望观察结果的不可能程度达到多大时拒绝H2
一般使用的显著性水平为5%,也有达到1%。
 
单尾检验:检验的拒绝域落在可能数据集的左侧或者右侧
双尾检测:拒绝域一分为二的位于数据集的两侧
第一类错误:错误的拒绝了真假设,P=α
第二类错误:错误的接受了假假设
 
 
卡方分布
用来检验统计量来比较期望结果和实际结果的差别
,其中O代表观察频数,E代表期望频数
用途:(1)检验拟合优度,检验原数据和指定分布的吻合程度
(2)检验两个变量的独立性,可以检查两个变量是否存在关联
 
卡方分布参数V(紐),意为自由度数目。即用于计算检验统计量X2的独立变量的数目
V等于1或者2,卡方分布为平滑曲线
当V大于2时,随着卡方递增,图像先低,后高,再低,当V很大时,图形接近正态分布。
 
相关和回归
假设检验(t检验,f检验)
统计推断有三个步骤
  1. 计算点估计值
  2. 计算点估计的抽样分布标准差
  3. 根据以上两个来得到检验统计量,使用t检验时计算t值,使用F检验时计算F值
t检验的t值认定服从t分布,F检验的F值认定服从F分布
 
先说为啥要进行假设检验(t检验,f检验),而不是仅仅点估计之后就结束
因为点估计值是我们根据样本计算的来的样本统计量的值,而我们希望得到的却是总体参数值。
所以在计算得到样本统计量后,我们要判断这个样本统计量体现出来的自变量和因变量之间的关系是否真的反映了总体中的自变量和因变量的关系,还是仅仅只是由于抽样误差导致的。我们要判断由样本计算得到的这些点估计值b是否显著区别于0或者我们假设的其他值。
t检验:
  1. 点估计值为b,b的抽样分布服从t分布,且抽样分布标准差为SE
  2. 现在我们假设b对应的总体参数值为a,若b是a的无偏点估计有E(b)=a
  3. 计算t值:t=(b-a)/ SE
t值所表达的意思是,在样本统计量b抽样分布为t分布情况下,点估计值b和我们假设的总体参数a之间差异,这个差异以抽样分布标准差为尺度。
综上,t值越小说明在样本统计量抽样分布服从t分布情况下,点估计值b和研究者假设的总体参数a之间的差异相对于抽样分布标准差而言越小,也就是点估计b和假设的总体参数a的区别不显著,是一致的,可以接受假设a;t值越大则反之。当然实际使用时还需要根据t值去查t分布表,根据显著度来判断是否接受假设a。
f检验:
f检验统计量的构造是用回归均放MSR除以残差均方MSE,由于回归均方和残差均方都是服从各自自由度的卡方分布,所以的到F值是服从这两个自由度的F分布。
t检验是对单个点估计值进行的检验,F检验是对多个点估计值进行的检验。
假设某个总体模型的因变量y和三个自变量x1,x2,x3相关,然后通过样本训练出了y=b1*x1+b2*x2+b3*x3,即三个点估计值分别是b1,b2,b3。那么和前面的问题一样,y是否真的和x1,x2,x3中的至少一个有关?还是b1,b2,b3这三个点估计值仅仅是由于抽样误差导致的。这就需要用到F检验。根据模型计算出SSR和SSE,然后除以各自自由度得到MSR和MSE,然后计算得到F值,然后根据F值及自由度查询F分布表。看模型是否显著区别于0。
F统计量是用来检验由b1,b2,b3所解释的方差是否出于偶然性,其偶然性的程度就是由MSE来衡量的,F值越大说明偶然性程度越小,b1,b2,b3就越显著区别于0,0,0。
 

猜你喜欢

转载自www.cnblogs.com/Christbao/p/12022312.html