机器学习特征选择-t检验

在特征选择的过程中通过计算检验统计量值,比较特征之间的统计量的大小,并降序排列,选取统计值较高的特征,从而起到去除差别小的特征(此差别小的特征难以区分不同的额类别)的目的。

以t检验(Student's t test)为例:

假设检验

通过比较两类样本的随机变化,通过计算其p值决定是否拒绝零假设,也即是说:通过计算p值,若p值小于某一阈值则认为两个样本具有显著差异,两个样本是不同的,此时拒绝零假设。

1、建立假设

H0:μ = μ0 (零假设null hypothesis)也即是假设样本无差别

H1:μ ≠ μ0(备择假设alternative hypothesis)

2、计算统计量

单总体:检验一个样本平均数已知的总体平均数的差异是否具有显著性,

   

双总体:检验两个样本平均数和它各自所表示的总体的差异是否具有显著性

  •     独立样本t检验:实验组之间无相关存在

     

  •   配对样本t检验:匹配成的两组数据或者同组被试在不同条件下获得数据的差异性,例如:人体的不同活动状态,走路、卧、下楼梯等。

依据t值的大小确定p值或者h值,若t值越大则差别越显著,此时若p值表现为小于0.05,则差别显著,反之亦然

除t检验外还有:

参考文献:

【1】https://baike.baidu.com/item/t%E6%A3%80%E9%AA%8C

【2】What is a test statistic? https://support.minitab.com/en-us/minitab-express/1/help-and-how-to/basic-statistics/inference/supporting-topics/basics/what-is-a-test-statistic/

发布了136 篇原创文章 · 获赞 112 · 访问量 9万+

猜你喜欢

转载自blog.csdn.net/heda3/article/details/95931174