机器学习第二章比较检验

置信水平（置信度）是指总体参数值落在样本统计值某一区内的概率，一般用1-α表示，α表示显著度；而置信区间是指在某一置信水平下，样本统计值与总体参数值间误差范围。置信区间越大，置信水平越高。例如，样本数目不变的情况下，做一百次试验，有95个置信区间包含了总体真值，置信度为95%。

图中1-α反应了结论的置信度，直观来看，对应于图中的非阴影区域

等式的右边表示的是将超过基准错误个数的每种情况的样本误分类的概率加起来（阴影部分）应当小于某个显著度α

t分布又叫student-t分布，常常用于根据小样本来估计呈正态分布且方差值为知的样本的均值。（如果总体的方差已知的话，则应该用正态分布来估计总体的均值。）(所以一个前提是：t分布的样本的总体必须符合正态分布）

假设X服从标准正态分布即X ~ N(0,1)，Y服从自由度n的卡方分布即Y ~ χ2（n），且X与Y是相互独立的，则称

的分布为自由度为n的t分布，记为Z~t（n）；

t分布的性质：自由度n越小，t分布曲线越低平；自由度n越大，t分布曲线越接近标准正态分布（u分布）曲线，当自由度无限大时，t分布就成了正态分布。

卡方分布：若n个相互独立的随机变量ξ₁，ξ₂，...,ξn ，均服从标准正态分布（也称独立同分布于标准正态分布），则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量，其分布规律称为卡方分布

假设有如下t分布

其实t就是横坐标，假设现在已知来自正态分布的一个样本均值已知为120，自由度为n=5，

正态分布的期望是100，方差是125，则可以计算出此时的t = 4。t=4之后的曲线下面积其实就是 P值，若计算的P = 0.01，如果我们要求5%的显著水平（根据需求和具体问题人为而定），发现P小于等于0.05，则可以拒绝“新取出的样本的分布和已知正态分布相同”的假设，即新样本的分布不同于原已知的正态分布。P越小于显著水平，假设错的越显著。

机器学习 第二章 比较检验

猜你喜欢

机器学习第二章比较检验